用戶數(shù)據(jù)的使用與隱私保護(hù)：認(rèn)知誤區(qū)與規(guī)則界限

來源：光明網(wǎng)-理論頻道2020-08-13 16:05

　　用戶數(shù)據(jù)的使用與隱私保護(hù)：認(rèn)知誤區(qū)與規(guī)則界限

　　——從近日TikTok的辟謠事件說開去

　　作者：教育部長(zhǎng)江學(xué)者特聘教授、北京師范大學(xué)新聞傳播學(xué)院執(zhí)行院長(zhǎng)、中國新聞史學(xué)會(huì)傳媒經(jīng)濟(jì)與管理專業(yè)委員會(huì)會(huì)長(zhǎng) 喻國明

　　近日，“TikTok背后是7億中國用戶數(shù)據(jù)隱私”的視頻在某網(wǎng)站上發(fā)布，8月9日，字節(jié)跳動(dòng)官方賬號(hào)發(fā)表聲明，澄清稱“TikTok”是字節(jié)跳動(dòng)旗下一款面向海外市場(chǎng)的短視頻應(yīng)用，在產(chǎn)品運(yùn)營過程中不會(huì)涉及國內(nèi)用戶數(shù)據(jù)。此后，盡管原視頻已被發(fā)布者刪除，但其引發(fā)的輿論熱議并未在短時(shí)間內(nèi)平息。眾所周知，智能時(shí)代是建立在大數(shù)據(jù)基礎(chǔ)上的，這其中當(dāng)然也包括對(duì)于用戶數(shù)據(jù)的使用。站在國家和時(shí)代發(fā)展大格局的角度看，這一問題顯然并不僅限于一家互聯(lián)網(wǎng)公司發(fā)展的市場(chǎng)安全和輿論環(huán)境，而是關(guān)涉所有國內(nèi)的或出海企業(yè)的數(shù)據(jù)使用與智能化處理的現(xiàn)實(shí)運(yùn)作和未來發(fā)展，所以值得我們本著科學(xué)嚴(yán)謹(jǐn)?shù)姆绞剑约皩?duì)個(gè)人、對(duì)企業(yè)、對(duì)社會(huì)和對(duì)未來負(fù)責(zé)任的態(tài)度加以理性探討。

　　從目前看來，這一問題可以通過如下三個(gè)層面來觀察和分析：

　　一、個(gè)人數(shù)據(jù)使用的必要性和可能性

　　以這次事件為例，面向海外用戶群體的TikTok是否需要并且可以獲取字節(jié)跳動(dòng)在中國的用戶隱私數(shù)據(jù)？從字節(jié)跳動(dòng)的公開回復(fù)和技術(shù)邏輯的角度看，答案是否定的。

　　1. 數(shù)據(jù)使用的閉環(huán)邏輯是“一把鑰匙開一把鎖”

　　傳播學(xué)的研究表明，不同性別、年齡、教育程度，特別是居住地的政治、經(jīng)濟(jì)、文化、社會(huì)背景等因素，都會(huì)對(duì)于用戶的媒介產(chǎn)品使用行為產(chǎn)生重要影響。因此，不同傳播市場(chǎng)的用戶洞察需要與其自身的用戶數(shù)據(jù)相對(duì)應(yīng)才是適配的。顯然，世界各地的用戶都有自己獨(dú)特的傳統(tǒng)、行為特點(diǎn)與興趣偏好。對(duì)于國內(nèi)用戶使用抖音數(shù)據(jù)集進(jìn)行訓(xùn)練所生成的模型，其推薦算法并不能實(shí)質(zhì)性地讓使用TikTok的海外用戶產(chǎn)生更好的使用體驗(yàn)、提高用戶粘性，甚至?xí)?duì)于模型的準(zhǔn)確性造成干擾。因此，使用國內(nèi)數(shù)據(jù)實(shí)際上并無必要和價(jià)值。

　　2.智能算法中“遷移學(xué)習(xí)”的建模與運(yùn)營需要全面的數(shù)據(jù)打通

　　根據(jù)字節(jié)跳動(dòng)的公開信息，TikTok所有數(shù)據(jù)均為海外用戶，訓(xùn)練數(shù)據(jù)集與中國區(qū)的抖音分屬兩個(gè)不同的產(chǎn)品，并且由兩個(gè)互不交叉的團(tuán)隊(duì)獨(dú)立運(yùn)營，其用戶數(shù)據(jù)是嚴(yán)格隔離的。TikTok使用的是國外當(dāng)?shù)赜脩魯?shù)據(jù)來進(jìn)行建模。在這個(gè)前提下，所謂“遷移學(xué)習(xí)”就不成立了，因?yàn)橥扑]系統(tǒng)主要依賴協(xié)同過濾，而協(xié)同過濾的核心是基于人（指用戶）和物（指視頻）兩個(gè)維度進(jìn)行推薦。由于TiKTok與國內(nèi)的產(chǎn)品內(nèi)容和用戶數(shù)據(jù)是彼此隔離的，不但遷移學(xué)習(xí)的收益非常小，而且跨越數(shù)據(jù)隔離的成本收益也是完全不匹配的。因此，從底層技術(shù)邏輯上，兩個(gè)產(chǎn)品共享用戶數(shù)據(jù)或模型既無必要，也無可能。TikTok不但無法獲取字節(jié)跳動(dòng)在中國的用戶隱私數(shù)據(jù)，而且其價(jià)值動(dòng)因也不成立。

　　二、用戶數(shù)據(jù)與智能算法上的創(chuàng)新

　　以TikTok為例，TikTok基于海外用戶數(shù)據(jù)，做了哪些算法上的創(chuàng)新應(yīng)用？我們可以看到，TikTok以及字節(jié)跳動(dòng)的算法優(yōu)勢(shì)在于其“推薦”系統(tǒng)，即TikTok上的“For You”。

　　根據(jù)2020年TikTok就推薦算法所公開發(fā)表的文章，推薦系統(tǒng)會(huì)根據(jù)用戶與應(yīng)用程序互動(dòng)過程中表現(xiàn)出來的偏好，例如發(fā)布的評(píng)論或關(guān)注的賬號(hào)等，來為用戶推薦內(nèi)容。從新用戶表現(xiàn)出的興趣“冷啟動(dòng)”開始，推送系統(tǒng)根據(jù)推薦算法對(duì)相關(guān)視頻進(jìn)行排序，以確定用戶對(duì)某條視頻所產(chǎn)生興趣的概率，最終形成個(gè)性化的“推薦”頁。

　　“推薦”基于多個(gè)因素，包括用戶互動(dòng)，例如用戶點(diǎn)贊或分享的視頻，關(guān)注的賬號(hào)，發(fā)布的評(píng)論和自己創(chuàng)作的內(nèi)容等；視頻信息，可能包括文字說明、聲音和標(biāo)簽等詳細(xì)信息；設(shè)備和賬戶設(shè)置，比如語言偏好、國家設(shè)置和設(shè)備類型等。推薦系統(tǒng)對(duì)這些因素進(jìn)行處理，并根據(jù)它們對(duì)于用戶的價(jià)值進(jìn)行加權(quán)計(jì)算，權(quán)重賦予的最為重要的指標(biāo)是興趣指標(biāo)，比如用戶是否從頭到尾看完了一條長(zhǎng)視頻等。

　　因此，開發(fā)和維護(hù)TiKTok的推薦系統(tǒng)是一個(gè)連續(xù)的過程。算法的關(guān)鍵是采自服務(wù)對(duì)象的數(shù)據(jù)，有了當(dāng)?shù)禺a(chǎn)品算法的基礎(chǔ)框架后，持續(xù)增長(zhǎng)的當(dāng)?shù)財(cái)?shù)據(jù)會(huì)不斷訓(xùn)練優(yōu)化算法。字節(jié)跳動(dòng)基于海外用戶信息，將根據(jù)用戶、研究和數(shù)據(jù)的反饋來改進(jìn)準(zhǔn)確性，調(diào)整模型并重新評(píng)估有助于推薦的因素和權(quán)重，這也有助于做好各區(qū)域市場(chǎng)的在地化，更好地服務(wù)當(dāng)?shù)赜脩簦M(jìn)一步提升用戶體驗(yàn)，幫助用戶發(fā)現(xiàn)APP使用的樂趣，這樣的產(chǎn)品才可能受到所在地用戶的歡迎。

　　三、智能化服務(wù)的商業(yè)公司使用用戶數(shù)據(jù)的合法的、可持續(xù)的前提是對(duì)于相關(guān)法律要求的合規(guī)化

　　伴隨著技術(shù)的迅猛發(fā)展，人工智能領(lǐng)域的數(shù)據(jù)隱私問題，逐漸成為專家學(xué)者和普通網(wǎng)民用戶共同關(guān)心的領(lǐng)域。特別是“臉書泄密門”發(fā)生之后，個(gè)人數(shù)據(jù)隱私、算法“黑箱”等信息倫理問題的相關(guān)探討與研究日益增多。

　　人工智能自動(dòng)化決策的過程，成為個(gè)人數(shù)據(jù)隱私的最大隱患。因?yàn)槿斯ぶ悄艹绦虿⒉幌駛鹘y(tǒng)分析一樣，對(duì)數(shù)據(jù)進(jìn)行線性分析，而是學(xué)習(xí)數(shù)據(jù)、調(diào)整算法、智能回應(yīng)新數(shù)據(jù)，來作出新的決策，這使得信息的處理過程往往成為一個(gè)算法黑箱，很難為一般人所理解，甚至也很難為專業(yè)人士所理解。

　　全國人大常委會(huì)《關(guān)于加強(qiáng)網(wǎng)絡(luò)信息保護(hù)的決定》指出，國家保護(hù)能夠識(shí)別公民個(gè)人身份和涉及公民個(gè)人隱私的電子信息。那么，在國內(nèi)用戶使用抖音短視頻產(chǎn)品時(shí)，我們的搜索、瀏覽、播放、互動(dòng)等相關(guān)信息是否能夠受到保護(hù)呢？答案是肯定的。

　　1.任何一家想要做大做強(qiáng)、且可持續(xù)發(fā)展的智能化商業(yè)公司都會(huì)對(duì)于相關(guān)用戶數(shù)據(jù)實(shí)行嚴(yán)格存儲(chǔ)與保護(hù)，防止隱私泄露和信息外流，這是合規(guī)的起碼要求

　　在字節(jié)跳動(dòng)公司所發(fā)布的《“抖音”隱私政策》（2020年2月20日）中明確了信息共享的原則，包括授權(quán)同意原則，“未經(jīng)您的同意，我們不會(huì)共享您的個(gè)人信息，除非共享的個(gè)人信息是去標(biāo)識(shí)化處理后的信息，且共享第三方無法重新識(shí)別此類信息的自然人主體”；合法正當(dāng)與最小必要原則，即“共享的數(shù)據(jù)必須具有合法正當(dāng)目的，且共享的數(shù)據(jù)以達(dá)成目的必要為限”。關(guān)于數(shù)據(jù)存儲(chǔ)地點(diǎn)，則明確規(guī)定了信息不能傳輸至境外，“依照法律法規(guī)的規(guī)定，將在境內(nèi)運(yùn)營過程中收集和產(chǎn)生的您的個(gè)人信息存儲(chǔ)于中華人民共和國境內(nèi)。目前，我們不會(huì)將上述信息傳輸至境外”。

　　2.智能化技術(shù)在數(shù)據(jù)的使用上是采用“去標(biāo)識(shí)化”的處理，用以保護(hù)用戶隱私

　　有學(xué)者提出，從數(shù)據(jù)生命周期來看，數(shù)據(jù)發(fā)布階段的匿名發(fā)布技術(shù)，數(shù)據(jù)存儲(chǔ)階段的加密存儲(chǔ)技術(shù)和審計(jì)技術(shù)，數(shù)據(jù)使用階段的加密訪問控制技術(shù)等不斷完善。在技術(shù)上，通過隱私保護(hù)技術(shù)完成數(shù)據(jù)流通和數(shù)據(jù)處理，避免數(shù)據(jù)直接流通導(dǎo)致泄露用戶隱私。近兩年來，聯(lián)邦學(xué)習(xí)技術(shù)（Federated Learning）作為一種新的分布式學(xué)習(xí)方法，共享模型參數(shù)更新，而不是客戶端設(shè)備中的原始數(shù)據(jù)，也展現(xiàn)了強(qiáng)大的用戶隱私保護(hù)能力。在《“抖音”隱私政策》中，關(guān)于隱私信息管理技術(shù)也規(guī)定，“使用不低于行業(yè)同行的加密技術(shù)、匿名化處理及相關(guān)合理可行的手段保護(hù)您的個(gè)人信息……采取嚴(yán)格的數(shù)據(jù)使用和訪問制度，確保只有授權(quán)人員才可訪問您的個(gè)人信息，并適時(shí)對(duì)數(shù)據(jù)和技術(shù)進(jìn)行安全審計(jì)”。

　　3.從算法上看，智能算法模型是不可逆，因此是無法反推用戶隱私信息的

　　根據(jù)匿名網(wǎng)民的評(píng)論，分布式機(jī)器學(xué)習(xí)不是傳輸數(shù)據(jù)，而是傳輸一個(gè)訓(xùn)練好的模型。“聯(lián)邦學(xué)習(xí)的出現(xiàn)就是為了公司希望獲得數(shù)據(jù)來訓(xùn)練模型，但是又不能泄露用戶隱私，所以會(huì)在用戶本地設(shè)備上進(jìn)行一次學(xué)習(xí)，將學(xué)習(xí)好的簡(jiǎn)單模型上傳至公司端，再對(duì)參數(shù)進(jìn)行聚合等操作之后再來訓(xùn)練，得到一個(gè)較好的模型之后將模型參數(shù)傳回去，對(duì)每個(gè)設(shè)備進(jìn)行一次模型優(yōu)化，以此迭代。”然而，也有網(wǎng)民提出，這也有可能涉及隱私問題，“通過訓(xùn)練完成的神經(jīng)網(wǎng)絡(luò)模型反推出訓(xùn)練數(shù)據(jù)中的敏感信息”，他者有可能利用模型的輸出結(jié)果，通過參數(shù)、權(quán)重，來倒推某些訓(xùn)練數(shù)據(jù)中的敏感信息的可能性與結(jié)果。

　　然而，從總體來反向推斷樣本，所謂“AI的逆向推理和特征解碼”，其實(shí)現(xiàn)的可能性有多大，可信度與效果究竟如何，依然未經(jīng)過大量科學(xué)研究的正式檢驗(yàn)。正如網(wǎng)友“琉璃”所說，“機(jī)器學(xué)習(xí)模型本質(zhì)是一個(gè)統(tǒng)計(jì)信息的集合，這種推介算法模型只能提供群體的興趣傾向性的統(tǒng)計(jì)信息。從模型反推原始數(shù)據(jù)極難，而且沒多少意義”。

　　四、簡(jiǎn)要的結(jié)論

　　必須指出，個(gè)人隱私保護(hù)是必須的，但個(gè)人信息的合法使用也是智能化發(fā)展中所必須的。其中是否合理合法的界限是：個(gè)人信息的采集和使用必須履行知情同意的原則，并且不因個(gè)人信息的采集和使用而對(duì)相關(guān)個(gè)人的利益、形象及社會(huì)關(guān)系產(chǎn)生明確和實(shí)質(zhì)性的負(fù)面影響。在此界限下，我們應(yīng)以開放的態(tài)度迎接智能化時(shí)代的到來，并且提升我們對(duì)于智能化技術(shù)的理解，為中國互聯(lián)網(wǎng)企業(yè)的發(fā)展?fàn)I造良好輿論氛圍和社會(huì)支持。（注：注釋略）

[ 責(zé)編：鄭芳芳 ]

閱讀剩余全文（）