點(diǎn)擊右上角微信好友
朋友圈
請(qǐng)使用瀏覽器分享功能進(jìn)行分享
調(diào)查問題加載中,請(qǐng)稍候。
若長(zhǎng)時(shí)間無響應(yīng),請(qǐng)刷新本頁面
用戶數(shù)據(jù)的使用與隱私保護(hù):認(rèn)知誤區(qū)與規(guī)則界限
——從近日TikTok的辟謠事件說開去
作者:教育部長(zhǎng)江學(xué)者特聘教授、北京師范大學(xué)新聞傳播學(xué)院執(zhí)行院長(zhǎng)、中國新聞史學(xué)會(huì)傳媒經(jīng)濟(jì)與管理專業(yè)委員會(huì)會(huì)長(zhǎng) 喻國明
近日,“TikTok背后是7億中國用戶數(shù)據(jù)隱私”的視頻在某網(wǎng)站上發(fā)布,8月9日,字節(jié)跳動(dòng)官方賬號(hào)發(fā)表聲明,澄清稱“TikTok”是字節(jié)跳動(dòng)旗下一款面向海外市場(chǎng)的短視頻應(yīng)用,在產(chǎn)品運(yùn)營過程中不會(huì)涉及國內(nèi)用戶數(shù)據(jù)。此后,盡管原視頻已被發(fā)布者刪除,但其引發(fā)的輿論熱議并未在短時(shí)間內(nèi)平息。眾所周知,智能時(shí)代是建立在大數(shù)據(jù)基礎(chǔ)上的,這其中當(dāng)然也包括對(duì)于用戶數(shù)據(jù)的使用。站在國家和時(shí)代發(fā)展大格局的角度看,這一問題顯然并不僅限于一家互聯(lián)網(wǎng)公司發(fā)展的市場(chǎng)安全和輿論環(huán)境,而是關(guān)涉所有國內(nèi)的或出海企業(yè)的數(shù)據(jù)使用與智能化處理的現(xiàn)實(shí)運(yùn)作和未來發(fā)展,所以值得我們本著科學(xué)嚴(yán)謹(jǐn)?shù)姆绞剑约皩?duì)個(gè)人、對(duì)企業(yè)、對(duì)社會(huì)和對(duì)未來負(fù)責(zé)任的態(tài)度加以理性探討。
從目前看來,這一問題可以通過如下三個(gè)層面來觀察和分析:
一、個(gè)人數(shù)據(jù)使用的必要性和可能性
以這次事件為例,面向海外用戶群體的TikTok是否需要并且可以獲取字節(jié)跳動(dòng)在中國的用戶隱私數(shù)據(jù)?從字節(jié)跳動(dòng)的公開回復(fù)和技術(shù)邏輯的角度看,答案是否定的。
1. 數(shù)據(jù)使用的閉環(huán)邏輯是“一把鑰匙開一把鎖”
傳播學(xué)的研究表明,不同性別、年齡、教育程度,特別是居住地的政治、經(jīng)濟(jì)、文化、社會(huì)背景等因素,都會(huì)對(duì)于用戶的媒介產(chǎn)品使用行為產(chǎn)生重要影響。因此,不同傳播市場(chǎng)的用戶洞察需要與其自身的用戶數(shù)據(jù)相對(duì)應(yīng)才是適配的。顯然,世界各地的用戶都有自己獨(dú)特的傳統(tǒng)、行為特點(diǎn)與興趣偏好。對(duì)于國內(nèi)用戶使用抖音數(shù)據(jù)集進(jìn)行訓(xùn)練所生成的模型,其推薦算法并不能實(shí)質(zhì)性地讓使用TikTok的海外用戶產(chǎn)生更好的使用體驗(yàn)、提高用戶粘性,甚至?xí)?duì)于模型的準(zhǔn)確性造成干擾。因此,使用國內(nèi)數(shù)據(jù)實(shí)際上并無必要和價(jià)值。
2.智能算法中“遷移學(xué)習(xí)”的建模與運(yùn)營需要全面的數(shù)據(jù)打通
根據(jù)字節(jié)跳動(dòng)的公開信息,TikTok所有數(shù)據(jù)均為海外用戶,訓(xùn)練數(shù)據(jù)集與中國區(qū)的抖音分屬兩個(gè)不同的產(chǎn)品,并且由兩個(gè)互不交叉的團(tuán)隊(duì)獨(dú)立運(yùn)營,其用戶數(shù)據(jù)是嚴(yán)格隔離的。TikTok使用的是國外當(dāng)?shù)赜脩魯?shù)據(jù)來進(jìn)行建模。在這個(gè)前提下,所謂“遷移學(xué)習(xí)”就不成立了,因?yàn)橥扑]系統(tǒng)主要依賴協(xié)同過濾,而協(xié)同過濾的核心是基于人(指用戶)和物(指視頻)兩個(gè)維度進(jìn)行推薦。由于TiKTok與國內(nèi)的產(chǎn)品內(nèi)容和用戶數(shù)據(jù)是彼此隔離的,不但遷移學(xué)習(xí)的收益非常小,而且跨越數(shù)據(jù)隔離的成本收益也是完全不匹配的。因此,從底層技術(shù)邏輯上,兩個(gè)產(chǎn)品共享用戶數(shù)據(jù)或模型既無必要,也無可能。TikTok不但無法獲取字節(jié)跳動(dòng)在中國的用戶隱私數(shù)據(jù),而且其價(jià)值動(dòng)因也不成立。
二、用戶數(shù)據(jù)與智能算法上的創(chuàng)新
以TikTok為例,TikTok基于海外用戶數(shù)據(jù),做了哪些算法上的創(chuàng)新應(yīng)用?我們可以看到,TikTok以及字節(jié)跳動(dòng)的算法優(yōu)勢(shì)在于其“推薦”系統(tǒng),即TikTok上的“For You”。
根據(jù)2020年TikTok就推薦算法所公開發(fā)表的文章,推薦系統(tǒng)會(huì)根據(jù)用戶與應(yīng)用程序互動(dòng)過程中表現(xiàn)出來的偏好,例如發(fā)布的評(píng)論或關(guān)注的賬號(hào)等,來為用戶推薦內(nèi)容。從新用戶表現(xiàn)出的興趣“冷啟動(dòng)”開始,推送系統(tǒng)根據(jù)推薦算法對(duì)相關(guān)視頻進(jìn)行排序,以確定用戶對(duì)某條視頻所產(chǎn)生興趣的概率,最終形成個(gè)性化的“推薦”頁。
“推薦”基于多個(gè)因素,包括用戶互動(dòng),例如用戶點(diǎn)贊或分享的視頻,關(guān)注的賬號(hào),發(fā)布的評(píng)論和自己創(chuàng)作的內(nèi)容等;視頻信息,可能包括文字說明、聲音和標(biāo)簽等詳細(xì)信息;設(shè)備和賬戶設(shè)置,比如語言偏好、國家設(shè)置和設(shè)備類型等。推薦系統(tǒng)對(duì)這些因素進(jìn)行處理,并根據(jù)它們對(duì)于用戶的價(jià)值進(jìn)行加權(quán)計(jì)算,權(quán)重賦予的最為重要的指標(biāo)是興趣指標(biāo),比如用戶是否從頭到尾看完了一條長(zhǎng)視頻等。
因此,開發(fā)和維護(hù)TiKTok的推薦系統(tǒng)是一個(gè)連續(xù)的過程。算法的關(guān)鍵是采自服務(wù)對(duì)象的數(shù)據(jù),有了當(dāng)?shù)禺a(chǎn)品算法的基礎(chǔ)框架后,持續(xù)增長(zhǎng)的當(dāng)?shù)財(cái)?shù)據(jù)會(huì)不斷訓(xùn)練優(yōu)化算法。字節(jié)跳動(dòng)基于海外用戶信息,將根據(jù)用戶、研究和數(shù)據(jù)的反饋來改進(jìn)準(zhǔn)確性,調(diào)整模型并重新評(píng)估有助于推薦的因素和權(quán)重,這也有助于做好各區(qū)域市場(chǎng)的在地化,更好地服務(wù)當(dāng)?shù)赜脩簦M(jìn)一步提升用戶體驗(yàn),幫助用戶發(fā)現(xiàn)APP使用的樂趣,這樣的產(chǎn)品才可能受到所在地用戶的歡迎。
三、智能化服務(wù)的商業(yè)公司使用用戶數(shù)據(jù)的合法的、可持續(xù)的前提是對(duì)于相關(guān)法律要求的合規(guī)化
伴隨著技術(shù)的迅猛發(fā)展,人工智能領(lǐng)域的數(shù)據(jù)隱私問題,逐漸成為專家學(xué)者和普通網(wǎng)民用戶共同關(guān)心的領(lǐng)域。特別是“臉書泄密門”發(fā)生之后,個(gè)人數(shù)據(jù)隱私、算法“黑箱”等信息倫理問題的相關(guān)探討與研究日益增多。
人工智能自動(dòng)化決策的過程,成為個(gè)人數(shù)據(jù)隱私的最大隱患。因?yàn)槿斯ぶ悄艹绦虿⒉幌駛鹘y(tǒng)分析一樣,對(duì)數(shù)據(jù)進(jìn)行線性分析,而是學(xué)習(xí)數(shù)據(jù)、調(diào)整算法、智能回應(yīng)新數(shù)據(jù),來作出新的決策,這使得信息的處理過程往往成為一個(gè)算法黑箱,很難為一般人所理解,甚至也很難為專業(yè)人士所理解。
全國人大常委會(huì)《關(guān)于加強(qiáng)網(wǎng)絡(luò)信息保護(hù)的決定》指出,國家保護(hù)能夠識(shí)別公民個(gè)人身份和涉及公民個(gè)人隱私的電子信息。那么,在國內(nèi)用戶使用抖音短視頻產(chǎn)品時(shí),我們的搜索、瀏覽、播放、互動(dòng)等相關(guān)信息是否能夠受到保護(hù)呢?答案是肯定的。
1.任何一家想要做大做強(qiáng)、且可持續(xù)發(fā)展的智能化商業(yè)公司都會(huì)對(duì)于相關(guān)用戶數(shù)據(jù)實(shí)行嚴(yán)格存儲(chǔ)與保護(hù),防止隱私泄露和信息外流,這是合規(guī)的起碼要求
在字節(jié)跳動(dòng)公司所發(fā)布的《“抖音”隱私政策》(2020年2月20日)中明確了信息共享的原則,包括授權(quán)同意原則,“未經(jīng)您的同意,我們不會(huì)共享您的個(gè)人信息,除非共享的個(gè)人信息是去標(biāo)識(shí)化處理后的信息,且共享第三方無法重新識(shí)別此類信息的自然人主體”;合法正當(dāng)與最小必要原則,即“共享的數(shù)據(jù)必須具有合法正當(dāng)目的,且共享的數(shù)據(jù)以達(dá)成目的必要為限”。關(guān)于數(shù)據(jù)存儲(chǔ)地點(diǎn),則明確規(guī)定了信息不能傳輸至境外,“依照法律法規(guī)的規(guī)定,將在境內(nèi)運(yùn)營過程中收集和產(chǎn)生的您的個(gè)人信息存儲(chǔ)于中華人民共和國境內(nèi)。目前,我們不會(huì)將上述信息傳輸至境外”。
2.智能化技術(shù)在數(shù)據(jù)的使用上是采用“去標(biāo)識(shí)化”的處理,用以保護(hù)用戶隱私
有學(xué)者提出,從數(shù)據(jù)生命周期來看,數(shù)據(jù)發(fā)布階段的匿名發(fā)布技術(shù),數(shù)據(jù)存儲(chǔ)階段的加密存儲(chǔ)技術(shù)和審計(jì)技術(shù),數(shù)據(jù)使用階段的加密訪問控制技術(shù)等不斷完善。在技術(shù)上,通過隱私保護(hù)技術(shù)完成數(shù)據(jù)流通和數(shù)據(jù)處理,避免數(shù)據(jù)直接流通導(dǎo)致泄露用戶隱私。近兩年來,聯(lián)邦學(xué)習(xí)技術(shù)(Federated Learning)作為一種新的分布式學(xué)習(xí)方法,共享模型參數(shù)更新,而不是客戶端設(shè)備中的原始數(shù)據(jù),也展現(xiàn)了強(qiáng)大的用戶隱私保護(hù)能力。在《“抖音”隱私政策》中,關(guān)于隱私信息管理技術(shù)也規(guī)定,“使用不低于行業(yè)同行的加密技術(shù)、匿名化處理及相關(guān)合理可行的手段保護(hù)您的個(gè)人信息……采取嚴(yán)格的數(shù)據(jù)使用和訪問制度,確保只有授權(quán)人員才可訪問您的個(gè)人信息,并適時(shí)對(duì)數(shù)據(jù)和技術(shù)進(jìn)行安全審計(jì)”。
3.從算法上看,智能算法模型是不可逆,因此是無法反推用戶隱私信息的
根據(jù)匿名網(wǎng)民的評(píng)論,分布式機(jī)器學(xué)習(xí)不是傳輸數(shù)據(jù),而是傳輸一個(gè)訓(xùn)練好的模型。“聯(lián)邦學(xué)習(xí)的出現(xiàn)就是為了公司希望獲得數(shù)據(jù)來訓(xùn)練模型,但是又不能泄露用戶隱私,所以會(huì)在用戶本地設(shè)備上進(jìn)行一次學(xué)習(xí),將學(xué)習(xí)好的簡(jiǎn)單模型上傳至公司端,再對(duì)參數(shù)進(jìn)行聚合等操作之后再來訓(xùn)練,得到一個(gè)較好的模型之后將模型參數(shù)傳回去,對(duì)每個(gè)設(shè)備進(jìn)行一次模型優(yōu)化,以此迭代。”然而,也有網(wǎng)民提出,這也有可能涉及隱私問題,“通過訓(xùn)練完成的神經(jīng)網(wǎng)絡(luò)模型反推出訓(xùn)練數(shù)據(jù)中的敏感信息”,他者有可能利用模型的輸出結(jié)果,通過參數(shù)、權(quán)重,來倒推某些訓(xùn)練數(shù)據(jù)中的敏感信息的可能性與結(jié)果。
然而,從總體來反向推斷樣本,所謂“AI的逆向推理和特征解碼”,其實(shí)現(xiàn)的可能性有多大,可信度與效果究竟如何,依然未經(jīng)過大量科學(xué)研究的正式檢驗(yàn)。正如網(wǎng)友“琉璃”所說,“機(jī)器學(xué)習(xí)模型本質(zhì)是一個(gè)統(tǒng)計(jì)信息的集合,這種推介算法模型只能提供群體的興趣傾向性的統(tǒng)計(jì)信息。從模型反推原始數(shù)據(jù)極難,而且沒多少意義”。
四、簡(jiǎn)要的結(jié)論
必須指出,個(gè)人隱私保護(hù)是必須的,但個(gè)人信息的合法使用也是智能化發(fā)展中所必須的。其中是否合理合法的界限是:個(gè)人信息的采集和使用必須履行知情同意的原則,并且不因個(gè)人信息的采集和使用而對(duì)相關(guān)個(gè)人的利益、形象及社會(huì)關(guān)系產(chǎn)生明確和實(shí)質(zhì)性的負(fù)面影響。在此界限下,我們應(yīng)以開放的態(tài)度迎接智能化時(shí)代的到來,并且提升我們對(duì)于智能化技術(shù)的理解,為中國互聯(lián)網(wǎng)企業(yè)的發(fā)展?fàn)I造良好輿論氛圍和社會(huì)支持。(注:注釋略)