AI基礎(chǔ)設(shè)施革命: 關(guān)于數(shù)據(jù)隱私保護(hù)和價(jià)值挖掘的實(shí)踐思考
流動(dòng)中的數(shù)據(jù)價(jià)值挖掘 V.S. 隱私保護(hù)
— 數(shù)據(jù)擁有者的控制力數(shù)據(jù)自由流動(dòng)中的價(jià)值挖掘能讓AI更好地發(fā)揮價(jià)值,但同時(shí),數(shù)據(jù)流動(dòng)過(guò)程中不經(jīng)節(jié)制的應(yīng)用,也會(huì)帶來(lái)數(shù)據(jù)隱私侵犯的隱患。最近多個(gè)金融大數(shù)據(jù)公司遭到立案調(diào)查,從數(shù)據(jù)源的角度來(lái)看,其中一個(gè)重要原因就是該類(lèi)公司的爬蟲(chóng)對(duì)觸達(dá)的數(shù)據(jù)未經(jīng)授權(quán)進(jìn)行存儲(chǔ)或超出了約定的使用范圍。
舉例來(lái)說(shuō),如果有一個(gè) App 聲稱(chēng)幫助用戶(hù)進(jìn)行多個(gè)金融賬戶(hù)進(jìn)行管理并綜合呈現(xiàn)個(gè)人現(xiàn)金流等信息,為了幫助 App 呈現(xiàn)這些信息,用戶(hù)就需要提供這些金融賬戶(hù)的訪(fǎng)問(wèn)權(quán)限。但如果在這個(gè)過(guò)程中 App 對(duì)個(gè)人銀行賬戶(hù)內(nèi)的所有信息都進(jìn)行了抓取和存儲(chǔ),并將這些信息提煉出來(lái)的標(biāo)簽出售給第三方或利用標(biāo)簽開(kāi)展新的業(yè)務(wù)。由于這些過(guò)程未對(duì)用戶(hù)進(jìn)行告知并獲得許可,都是一種對(duì)數(shù)據(jù)使用權(quán)的濫用。
從當(dāng)下的工程實(shí)踐來(lái)看,解決挖掘和隱私的兩難,可能目前最好的解決方法是給數(shù)據(jù)擁有方一個(gè)控制力,包括對(duì)數(shù)據(jù)收集的授權(quán)和收集后保存和使用的控制。國(guó)際上普遍進(jìn)行的實(shí)踐或者規(guī)范(如GDPR)都傾向于對(duì)個(gè)人擁有的數(shù)據(jù)及其數(shù)據(jù)的各種上下文環(huán)境進(jìn)行準(zhǔn)確的授權(quán)。
比如GDPR中就會(huì)要求第一方數(shù)據(jù)要明確“自己采集到了哪些數(shù)據(jù)”,當(dāng)用戶(hù)有了這個(gè)明目之后,應(yīng)當(dāng)有權(quán)來(lái)選擇“保留哪些刪除哪些”;在此基礎(chǔ)之上,還比如會(huì)要求對(duì)數(shù)據(jù)處理方法作出明確問(wèn)詢(xún)和授權(quán),“比如通過(guò)采集到的用戶(hù)點(diǎn)贊的帖子的內(nèi)容和類(lèi)型來(lái)學(xué)習(xí)用戶(hù)的興趣愛(ài)好”;這些興趣愛(ài)好作為標(biāo)簽,雖然不是原始數(shù)據(jù),仍然需要用戶(hù)進(jìn)行逐一的明確授權(quán)。
當(dāng)我們通過(guò)給予數(shù)據(jù)擁有方控制力的方式去平衡數(shù)據(jù)價(jià)值挖掘和隱私保護(hù),在實(shí)踐中又會(huì)出現(xiàn)一個(gè)新的挑戰(zhàn)——如何在不侵犯?jìng)(gè)人隱私的前提下,獲得個(gè)人的授權(quán)。
舉個(gè)例子,比如在獲得興趣愛(ài)好標(biāo)簽授權(quán)的時(shí)候不太可能有用戶(hù)可以預(yù)先對(duì)近乎無(wú)限多的興趣愛(ài)好進(jìn)行一一授權(quán),一般的過(guò)程也是首先由數(shù)據(jù)挖掘方獲得了某個(gè)標(biāo)簽,再針對(duì)這個(gè)標(biāo)簽進(jìn)行問(wèn)詢(xún)。
我們?cè)谶^(guò)去的工作實(shí)踐中見(jiàn)過(guò)的最好的處理方法是首先對(duì)多達(dá)三到六百萬(wàn)常用的興趣愛(ài)好做知識(shí)圖,將這些興趣愛(ài)好的包含關(guān)系或者關(guān)聯(lián)性整理出來(lái);之后再對(duì)各類(lèi)興趣愛(ài)好通過(guò)找到包含關(guān)系中處于包含當(dāng)前愛(ài)好的比較泛化的那類(lèi)愛(ài)好進(jìn)行問(wèn)詢(xún)這樣點(diǎn)到為止的方式來(lái)完成。
即便做到這樣,雖然消耗了巨大的資源并且有很高的門(mén)檻,也很難說(shuō)做到了完美,因此也就不難理解多數(shù)公司在應(yīng)對(duì)GDPR或者相關(guān)合規(guī)的問(wèn)題上面臨著巨大的挑戰(zhàn)這個(gè)事實(shí)。
數(shù)據(jù)擁有者的控制力如何賦予?數(shù)據(jù)擁有者控制力的核心意義在于讓每個(gè)擁有者在挖掘和保護(hù)之間選擇自己的平衡點(diǎn)。為了給擁有者控制力,第一步要討論的是誰(shuí)是數(shù)據(jù)的擁有者這個(gè)問(wèn)題。
一般對(duì)于個(gè)人數(shù)據(jù)來(lái)說(shuō),無(wú)論是個(gè)人的身份識(shí)別信息或者生物統(tǒng)計(jì)信息這樣對(duì)個(gè)人進(jìn)行描述的數(shù)據(jù),還是用戶(hù)的行為信息(比如訪(fǎng)問(wèn)了哪些app,在app里面做了哪些事情)或者由這些行為信息所得到的新的標(biāo)簽這樣的用戶(hù)生成數(shù)據(jù),都會(huì)認(rèn)為擁有者是這個(gè)人本身。
尤其對(duì)于產(chǎn)生的標(biāo)簽數(shù)據(jù)來(lái)說(shuō),有些情況下認(rèn)為由于標(biāo)簽是比如數(shù)據(jù)采集方進(jìn)行學(xué)習(xí)而得來(lái)的因此擁有者是采集方這個(gè)想法也不應(yīng)該是被廣泛認(rèn)同的。
圍繞擁有方是產(chǎn)生數(shù)據(jù)的個(gè)體這條線(xiàn)去思考,在整個(gè)數(shù)據(jù)生命周期鏈條里面就存在對(duì)第一方數(shù)據(jù)的控制、第二三方的控制等不同的問(wèn)題。
對(duì)于第一方來(lái)說(shuō),由于是數(shù)據(jù)的采集者,涉及的方面也是最多的。Facebook在2018年的F8上宣布一個(gè)針對(duì)給用戶(hù)控制力的功能叫Clear History,里面描述的愿景基本理解為可以允許用戶(hù)在采集,存儲(chǔ)和使用三個(gè)方面給予控制力。
首先用戶(hù)會(huì)看到Facebook從哪些合作方渠道獲得了用戶(hù)的什么樣的數(shù)據(jù)(采集可見(jiàn)),之后允許用戶(hù)決定是否可以在廣告投放中進(jìn)行使用(使用控制),再次允許用戶(hù)對(duì)這些數(shù)據(jù)進(jìn)行立即刪除的操作(存儲(chǔ)控制)。
這個(gè)功能聽(tīng)上去簡(jiǎn)單,但實(shí)際上對(duì)于一個(gè)正在運(yùn)轉(zhuǎn)的機(jī)構(gòu)來(lái)說(shuō),要涉及到鑒別所有的數(shù)據(jù)來(lái)源、在復(fù)雜的數(shù)據(jù)流里面識(shí)別各類(lèi)數(shù)據(jù)、以及對(duì)某個(gè)數(shù)據(jù)的所有存儲(chǔ)位置進(jìn)行控制這幾方面能力。對(duì)于小機(jī)構(gòu)來(lái)說(shuō)資源和投入產(chǎn)出比肯定是不夠的,對(duì)于大機(jī)構(gòu)來(lái)說(shuō)由于內(nèi)部數(shù)據(jù)流太過(guò)復(fù)雜,為了實(shí)現(xiàn)它往往會(huì)需要做整個(gè)系統(tǒng)的重新設(shè)計(jì)和實(shí)現(xiàn),代價(jià)也不言而喻。
舉例來(lái)說(shuō),為了實(shí)現(xiàn)Clear History:首先為了在幾萬(wàn)PB的數(shù)據(jù)倉(cāng)庫(kù)中甚至更大的冷存儲(chǔ)中找到所需要控制的數(shù)據(jù),就需要做整個(gè)數(shù)據(jù)集的語(yǔ)義識(shí)別(很多時(shí)候由于表單的schema并不統(tǒng)一,所以直接使用metadata很難準(zhǔn)確的判斷數(shù)據(jù)類(lèi)型),這個(gè)過(guò)程類(lèi)似給數(shù)據(jù)打標(biāo)簽。為了可以覆蓋更多的存儲(chǔ)點(diǎn),會(huì)需要根據(jù)已經(jīng)得到的數(shù)據(jù)標(biāo)簽對(duì)數(shù)據(jù)流進(jìn)行端到端的識(shí)別。當(dāng)所有的存儲(chǔ)點(diǎn)識(shí)別完成后,為了實(shí)現(xiàn)功能中的實(shí)時(shí)刪除,還需要在重新定義數(shù)據(jù)結(jié)構(gòu)的基礎(chǔ)上配合一個(gè)高吞吐量的中心管理系統(tǒng)。
這個(gè)過(guò)程協(xié)調(diào)了許多內(nèi)部部門(mén),消耗了大量的資源,耗時(shí)一年以上。不難看出,在企業(yè)間的數(shù)據(jù)流通中也存在潛在的類(lèi)似挑戰(zhàn)。

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
6月20日立即下載>> 【白皮書(shū)】精準(zhǔn)測(cè)量 安全高效——福祿克光伏行業(yè)解決方案
-
7月3日立即報(bào)名>> 【在線(xiàn)會(huì)議】英飛凌新一代智能照明方案賦能綠色建筑與工業(yè)互聯(lián)
-
7月22-29日立即報(bào)名>> 【線(xiàn)下論壇】第三屆安富利汽車(chē)生態(tài)圈峰會(huì)
-
7.30-8.1火熱報(bào)名中>> 全數(shù)會(huì)2025(第六屆)機(jī)器人及智能工廠(chǎng)展
-
7月31日免費(fèi)預(yù)約>> OFweek 2025具身機(jī)器人動(dòng)力電池技術(shù)應(yīng)用大會(huì)
-
免費(fèi)參會(huì)立即報(bào)名>> 7月30日- 8月1日 2025全數(shù)會(huì)工業(yè)芯片與傳感儀表展
推薦專(zhuān)題
-
10 中東AI迷霧里的中美棋局
- 1 AI 眼鏡讓百萬(wàn) APP「集體失業(yè)」?
- 2 大廠(chǎng)紛紛入局,百度、阿里、字節(jié)搶奪Agent話(huà)語(yǔ)權(quán)
- 3 一文看懂視覺(jué)語(yǔ)言動(dòng)作模型(VLA)及其應(yīng)用
- 4 深度報(bào)告|中國(guó)AI產(chǎn)業(yè)正在崛起成全球力量,市場(chǎng)潛力和關(guān)鍵挑戰(zhàn)有哪些?
- 5 上海跑出80億超級(jí)獨(dú)角獸:獲上市公司戰(zhàn)投,干人形機(jī)器人
- 6 國(guó)家數(shù)據(jù)局局長(zhǎng)劉烈宏調(diào)研格創(chuàng)東智
- 7 下一代入口之戰(zhàn):大廠(chǎng)為何紛紛押注智能體?
- 8 百億AI芯片訂單,瘋狂傾銷(xiāo)中東?
- 9 Robotaxi新消息密集釋放,量產(chǎn)元年誰(shuí)在領(lǐng)跑?
- 10 格斗大賽出圈!人形機(jī)器人致命短板曝光:頭腦過(guò)于簡(jiǎn)單