AI基礎(chǔ)設(shè)施革命: 關(guān)于數(shù)據(jù)隱私保護(hù)和價(jià)值挖掘的實(shí)踐思考
除第一方數(shù)據(jù)以外,在授權(quán)第二方的過(guò)程中,可能大體會(huì)分為兩種情況:第一種授權(quán)的目的可能是協(xié)助數(shù)據(jù)挖掘,第二種授權(quán)的目的可能是協(xié)助數(shù)據(jù)變現(xiàn)。在第一種情況下一般會(huì)只授權(quán)使用,不授權(quán)再次轉(zhuǎn)讓?zhuān)⑶覍?duì)存儲(chǔ)進(jìn)行嚴(yán)格的控制(控制在使用所需的存儲(chǔ)范圍內(nèi))。
比如說(shuō),對(duì)消費(fèi)行為進(jìn)行建模的第二方數(shù)據(jù),往往會(huì)存在過(guò)去兩周和過(guò)去兩個(gè)月這樣兩種時(shí)點(diǎn),超過(guò)兩個(gè)月的消費(fèi)行為一般價(jià)值也微乎其微。那么在授權(quán)存儲(chǔ)的時(shí)候一般會(huì)限定存儲(chǔ)時(shí)間不能超過(guò)2個(gè)月(外加一個(gè)比如24小時(shí)的灰色周期)。
在數(shù)據(jù)使用的授權(quán)上,一般如果對(duì)數(shù)據(jù)挖掘的目標(biāo)及使用場(chǎng)景進(jìn)行嚴(yán)格的限定,一方面可以保護(hù)授權(quán)方在競(jìng)爭(zhēng)法層面的權(quán)益,另一方面也可以間接保護(hù)數(shù)據(jù)擁有方的個(gè)人隱私。
從保護(hù)個(gè)人隱私的角度來(lái)講,假設(shè)授權(quán)的目的是計(jì)算某些用戶(hù)的還款風(fēng)險(xiǎn)從而幫助授權(quán)方?jīng)Q定是否放貸的場(chǎng)景,如果不限定挖掘的目的只能限于該合作方之間的征信目的,則可能會(huì)被第二方使用同樣的數(shù)據(jù)用于與其它合作方的營(yíng)銷(xiāo)場(chǎng)景中作為對(duì)于個(gè)人現(xiàn)金流的判斷的一個(gè)因素。
對(duì)于第二種(數(shù)據(jù)變現(xiàn))的情況,會(huì)有比如通過(guò)特定的場(chǎng)景或產(chǎn)品進(jìn)行變現(xiàn)以及通過(guò)售賣(mài)標(biāo)簽進(jìn)行變現(xiàn)不同的類(lèi)型。這里不對(duì)各種數(shù)據(jù)變現(xiàn)的方式進(jìn)行展開(kāi),但想強(qiáng)調(diào)一點(diǎn)的是在變現(xiàn)的過(guò)程中需要關(guān)注的是原始數(shù)據(jù)在第二方或其它地方的沉淀情況。因?yàn)殡m然一般授權(quán)方會(huì)通過(guò)限制原始數(shù)據(jù)的轉(zhuǎn)讓?zhuān)◤亩Wo(hù)個(gè)人隱私),但仍然會(huì)允許加工過(guò)的數(shù)據(jù)進(jìn)行流通或通過(guò)某個(gè)場(chǎng)景達(dá)成目標(biāo)。
無(wú)論是哪種方式輸出的結(jié)果,都難以完全地避免數(shù)據(jù)的信息被沉淀,大量的沉淀會(huì)間接的導(dǎo)致原始數(shù)據(jù)被轉(zhuǎn)讓。舉一個(gè)數(shù)據(jù)泛化中沉淀結(jié)果的極端例子來(lái)說(shuō),假設(shè)我們?cè)试S對(duì)某一個(gè)人的常見(jiàn)活動(dòng)區(qū)域輸出某個(gè)較大的半徑圓范圍,多個(gè)這樣的半徑圓就可以逐步縮小對(duì)這個(gè)人活動(dòng)區(qū)域的判定。
公開(kāi)數(shù)據(jù)和前述的最大區(qū)別是,由于已經(jīng)公開(kāi),只要是獲得了數(shù)據(jù)擁有者對(duì)于公開(kāi)的授權(quán),那么之后不會(huì)再對(duì)公開(kāi)數(shù)據(jù)的采集者進(jìn)行一一授權(quán)。采集者獲取公開(kāi)數(shù)據(jù)的途徑一般也都是通過(guò)爬蟲(chóng)這樣的主動(dòng)收集的形式,具有一定的收集和清理/整理成本。
這里面一個(gè)有意思的地方在于,有一些數(shù)據(jù)并不是嚴(yán)格意義上的被公開(kāi)數(shù)據(jù),或者說(shuō)只希望在某個(gè)特定范圍內(nèi)被公開(kāi)。舉例來(lái)說(shuō)社區(qū)的運(yùn)營(yíng)者可能只希望社區(qū)的用戶(hù)生成內(nèi)容(UGC)在社區(qū)內(nèi)進(jìn)行公開(kāi),而不希望流傳到互聯(lián)網(wǎng)上。典型的這類(lèi)意愿的表述形式有類(lèi)似于Robots exclusion standard,主要用于向爬蟲(chóng)聲明網(wǎng)站中哪些內(nèi)容不能被讀取。
除此之外公開(kāi)數(shù)據(jù)還有可能僅僅是可以被讀取而不能希望被存儲(chǔ)的,舉例來(lái)說(shuō)比如社交網(wǎng)站中的朋友清單。朋友清單被存儲(chǔ)和對(duì)比之后就可以得到諸如”哪些朋友取消了對(duì)我的關(guān)注“這樣的信息,這里面也存在可能侵害了別人的個(gè)人隱私的問(wèn)題。一般為了防范這樣的越界爬取行為,公司可能會(huì)有針對(duì)性的組織自己的反扒竊(anti-scraping)系統(tǒng),在協(xié)議范疇之外對(duì)數(shù)據(jù)的控制力賦予提供保障。
綜上所述我們可以看到,賦予數(shù)據(jù)的控制力長(zhǎng)久以來(lái)都面臨許多挑戰(zhàn)。且除了第一方數(shù)據(jù)外,沿著數(shù)據(jù)鏈條向下走,這種挑戰(zhàn)會(huì)逐漸增加。這種現(xiàn)象很大程度上源于數(shù)據(jù)作為一種抽象存在,不同于普通物品的可以被復(fù)制,而被復(fù)制的數(shù)據(jù)的控制力將會(huì)被重新的定義和賦予。
因此在數(shù)據(jù)流通的過(guò)程中將數(shù)據(jù)的各種屬性分開(kāi)管理和授權(quán),盡量減少數(shù)據(jù)復(fù)制的出現(xiàn),可以很大程度上降低在整個(gè)鏈條上管理控制力的成本。需要研究的不是如何把數(shù)據(jù)的鏈條切段,而是如何在鏈條的各個(gè)環(huán)節(jié)上更好的完成數(shù)據(jù)控制力的精細(xì)化管理。
新的產(chǎn)業(yè)機(jī)會(huì) — 數(shù)據(jù)流通鏈條中控制力管理的技術(shù)實(shí)踐前面提到,解決數(shù)據(jù)流通鏈條中賦予數(shù)據(jù)控制力的問(wèn)題,主要的方式是針對(duì)不同類(lèi)型的數(shù)據(jù)采取不同的方式,從宏觀(guān)上減少數(shù)據(jù)使用就要復(fù)制的情況出現(xiàn)。那么,在具體實(shí)踐里,針對(duì)個(gè)人數(shù)據(jù)的隱私保護(hù),又有哪些宏觀(guān)分類(lèi)要素與技術(shù)手段呢?
宏觀(guān)來(lái)看,數(shù)據(jù)可以分為個(gè)人識(shí)別信息(PII)和用戶(hù)特征值兩類(lèi)。PII是指像可以在很高精度上在公開(kāi)環(huán)境下定位一個(gè)人的數(shù)據(jù),比如像美國(guó)的SSN,國(guó)內(nèi)的身份證號(hào),郵件地址,甚至有可能是電話(huà)號(hào)碼。用戶(hù)特征值基本可以理解為除了PII以外其它的圍繞個(gè)人行為特征或個(gè)人特性(如生物統(tǒng)計(jì)學(xué)數(shù)據(jù),人口統(tǒng)計(jì)學(xué)數(shù)據(jù)等)的數(shù)據(jù)了。用戶(hù)特征值往往是數(shù)據(jù)挖掘產(chǎn)生價(jià)值的對(duì)象,而PII則是扮演著將多個(gè)特征值統(tǒng)一在一起的角色,由PII形成的圖是數(shù)據(jù)鏈條上公司間進(jìn)行數(shù)據(jù)融合的橋梁。
可以看出,對(duì)PII的控制是數(shù)據(jù)鏈條中形成控制的關(guān)鍵,沒(méi)有PII的兩個(gè)數(shù)據(jù)集是很難整合在一起使用的。針對(duì)PII的控制一般被稱(chēng)為De-identification,目前主要有比如脫敏(Data Masking),匿名(Anonymization)和k-匿名(k-anonymization)由弱到強(qiáng)三種比較常見(jiàn)的方式。
脫敏基本是將比如身份證的一部分隱去,從而在可以接近識(shí)別的前提下盡量保護(hù)數(shù)據(jù)的隱私,類(lèi)似于對(duì)一般數(shù)據(jù)處理中的泛化技術(shù)。拋開(kāi)脫敏過(guò)程中的信息丟失不談,這種方法顯然是缺乏足夠的安全性的。因?yàn)橹灰鎯?chǔ)和沉淀這樣的masked data,就可以最終反推出原始數(shù)據(jù)的內(nèi)容來(lái),因此脫敏的方法在隱私要求比較高的環(huán)境中已經(jīng)不再使用了。
匿名指修改或者移除個(gè)人身份信息,隱藏?cái)?shù)據(jù)和個(gè)人的對(duì)應(yīng)關(guān)系。一般的數(shù)據(jù)源會(huì)自己生成并管理這種對(duì)應(yīng)關(guān)系,由于個(gè)人身份信息的完全隱藏,安全性也會(huì)遠(yuǎn)高于直接對(duì)原始PII進(jìn)行脫敏。同時(shí)的對(duì)于使用PII來(lái)關(guān)聯(lián)數(shù)據(jù)集的這一屬性,也可以靠修改內(nèi)部的對(duì)應(yīng)關(guān)系來(lái)組織使用匿名數(shù)據(jù)在外部進(jìn)行數(shù)據(jù)集關(guān)聯(lián)的操作。
k-匿名在匿名的基礎(chǔ)之上提出了個(gè)人識(shí)別不僅限于PII,任何數(shù)據(jù)形成的集合都能在一定程度上識(shí)別出一個(gè)人來(lái),k在這里指的是用這個(gè)數(shù)據(jù)集進(jìn)行識(shí)別時(shí)可以將識(shí)別的人群縮小為數(shù)量為k的集合。k-匿名是目前通用標(biāo)準(zhǔn)中較高的一類(lèi),其中k的值越高,隱私保護(hù)的效果越好,在Google和Facebook的內(nèi)部數(shù)據(jù)管理中都有大量的使用。
用戶(hù)特征值數(shù)據(jù)主要在價(jià)值挖掘中被體現(xiàn),使用的方法宏觀(guān)上可以分為使用原始數(shù)據(jù)和使用統(tǒng)計(jì)數(shù)據(jù)兩類(lèi)。比如某人在某時(shí)某地進(jìn)行了某次購(gòu)物可以被認(rèn)為是原始數(shù)據(jù),那么某人在過(guò)去的一天里進(jìn)行了3次購(gòu)物可以被認(rèn)為是統(tǒng)計(jì)數(shù)據(jù)。在很多情況下避免原始數(shù)據(jù)的直接使用是不太影響價(jià)值挖掘的同時(shí)可以更好的保護(hù)原始數(shù)據(jù)的。
類(lèi)似的,在鏈條中傳遞用戶(hù)特征數(shù)據(jù)時(shí)所使用的控制方法也比較多,常見(jiàn)的就有泛化(比如給定一個(gè)范圍而不是具體的數(shù)值),統(tǒng)計(jì)(如前所述),加密(比如同態(tài)加密),差分隱私(比如給定的數(shù)值是原始數(shù)值的基礎(chǔ)上增加一個(gè)噪音),合成(比如將原始數(shù)據(jù)轉(zhuǎn)化為代表所需知識(shí)的模型或者由模型生成不同于原始數(shù)據(jù)的新數(shù)據(jù))等等。
涉及多方數(shù)據(jù)的安全運(yùn)算環(huán)境的方式可以從多種角度來(lái)劃分。比如從是否存在可信的第三方(或者對(duì)于該第三方的信任成本有多大)來(lái)談,使用比如GC或者OT來(lái)實(shí)現(xiàn)的MPC可以實(shí)現(xiàn)完全沒(méi)有可信第三方的環(huán)境,而基于某些同態(tài)加密設(shè)計(jì)或者可信硬件的環(huán)境一般是強(qiáng)依賴(lài)于對(duì)于第三方的可信度的,而可信硬件環(huán)境還存在信任硬件產(chǎn)品供應(yīng)方這一個(gè)額外的信任成本。
除了上述的兩類(lèi)(MPC和可信硬件)之外,也存在許多其它方式在聯(lián)合運(yùn)算中保護(hù)原始數(shù)據(jù)的方法,其中就有比如合成數(shù)據(jù)(比如通過(guò)將原始數(shù)據(jù)轉(zhuǎn)換為模型),比如差分隱私(巧妙的選擇在原始數(shù)據(jù)上面增加噪聲從而在保護(hù)原始數(shù)據(jù)敏感性的前提下不會(huì)過(guò)多的干涉運(yùn)算本身),還有比如傳統(tǒng)的泛化(只傳輸包含原始數(shù)據(jù)的一個(gè)范圍)等多種方式。
在實(shí)際應(yīng)用之中,一般會(huì)考慮數(shù)據(jù)的泄露危害程度(比如PII數(shù)據(jù)的泄露會(huì)造成連鎖的數(shù)據(jù)泄露反應(yīng)),數(shù)據(jù)是否容易被沉淀(比如高時(shí)效性的數(shù)據(jù)相對(duì)不那么容易被沉淀)等在達(dá)到安全級(jí)別的前提下,盡可能的保持信息完整性(合成,差分和泛化都會(huì)在不同程度上損失原始信息)的同時(shí)提升整體系統(tǒng)的運(yùn)行效率。
在介紹工程實(shí)踐的技術(shù)類(lèi)型的同時(shí),我們也希望澄清在實(shí)踐中遇到的兩個(gè)比較常見(jiàn)的認(rèn)知誤區(qū):數(shù)據(jù)隱私解決方案,不等同于單一的密碼學(xué)或技術(shù)點(diǎn)創(chuàng)新,是一個(gè)結(jié)合了數(shù)據(jù)科學(xué)、密碼學(xué)、聯(lián)邦學(xué)習(xí)、云計(jì)算的綜合工程,通常是技術(shù)組合的形式;其次,對(duì)于數(shù)據(jù)隱私比較受關(guān)注的MPC(多方安全計(jì)算),最近幾年,MPC在數(shù)學(xué)原理上并沒(méi)有特別大的根本性變化,更多是工程方面的突破與進(jìn)展。
數(shù)據(jù)的流動(dòng)性具有其必然性和合理性,也是AI在產(chǎn)業(yè)中更好發(fā)揮智能的基礎(chǔ),但數(shù)據(jù)價(jià)值挖掘帶來(lái)便利的同時(shí),也面臨著隱私侵犯的隱患。
從當(dāng)下實(shí)踐來(lái)看,通過(guò)給予數(shù)據(jù)擁有方控制力的方式是平衡數(shù)據(jù)價(jià)值挖掘和隱私保護(hù)最有效的方式;而流動(dòng)中的數(shù)據(jù)鏈條復(fù)雜,通常需要在數(shù)據(jù)流通的過(guò)程中將數(shù)據(jù)的各種屬性分開(kāi)管理和授權(quán),盡量減少數(shù)據(jù)復(fù)制的出現(xiàn),從而降低在整個(gè)鏈條上管理控制力的成本。數(shù)據(jù)流動(dòng)過(guò)程中的隱私保護(hù),是動(dòng)態(tài)的、過(guò)程中的數(shù)據(jù)安全與隱私,對(duì)應(yīng)的技術(shù)實(shí)踐也將帶來(lái)新的產(chǎn)業(yè)和創(chuàng)新機(jī)會(huì)。
對(duì)于這個(gè)新興的產(chǎn)業(yè),早期我們所選擇的方案也要迎合市場(chǎng)的階段進(jìn)行漸進(jìn)式推廣,比如數(shù)牘科技的解決方案中就設(shè)計(jì)了數(shù)據(jù)流控制,數(shù)據(jù)擁有方可以控制數(shù)據(jù)流向?yàn)閱蜗蚧螂p向,在現(xiàn)實(shí)環(huán)境中靈活應(yīng)用。數(shù)據(jù)隱私規(guī)范和價(jià)值挖掘是雙向作用、螺旋上升的過(guò)程,只有規(guī)范數(shù)據(jù)使用才可以在匯聚更多數(shù)據(jù)的基礎(chǔ)上迎來(lái)價(jià)值挖掘的下一個(gè)爆發(fā)點(diǎn)。我們很期待未來(lái)十年,在隱私規(guī)范的推動(dòng)下創(chuàng)造出新的數(shù)據(jù)使用范式,推動(dòng)AI的數(shù)據(jù)基礎(chǔ)設(shè)施革命,并能投入其中貢獻(xiàn)一點(diǎn)自己的力量。

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
6月20日立即下載>> 【白皮書(shū)】精準(zhǔn)測(cè)量 安全高效——福祿克光伏行業(yè)解決方案
-
7月3日立即報(bào)名>> 【在線(xiàn)會(huì)議】英飛凌新一代智能照明方案賦能綠色建筑與工業(yè)互聯(lián)
-
7月22-29日立即報(bào)名>> 【線(xiàn)下論壇】第三屆安富利汽車(chē)生態(tài)圈峰會(huì)
-
7.30-8.1火熱報(bào)名中>> 全數(shù)會(huì)2025(第六屆)機(jī)器人及智能工廠(chǎng)展
-
7月31日免費(fèi)預(yù)約>> OFweek 2025具身機(jī)器人動(dòng)力電池技術(shù)應(yīng)用大會(huì)
-
免費(fèi)參會(huì)立即報(bào)名>> 7月30日- 8月1日 2025全數(shù)會(huì)工業(yè)芯片與傳感儀表展
推薦專(zhuān)題
-
10 中東AI迷霧里的中美棋局
- 1 AI 眼鏡讓百萬(wàn) APP「集體失業(yè)」?
- 2 大廠(chǎng)紛紛入局,百度、阿里、字節(jié)搶奪Agent話(huà)語(yǔ)權(quán)
- 3 一文看懂視覺(jué)語(yǔ)言動(dòng)作模型(VLA)及其應(yīng)用
- 4 深度報(bào)告|中國(guó)AI產(chǎn)業(yè)正在崛起成全球力量,市場(chǎng)潛力和關(guān)鍵挑戰(zhàn)有哪些?
- 5 上海跑出80億超級(jí)獨(dú)角獸:獲上市公司戰(zhàn)投,干人形機(jī)器人
- 6 國(guó)家數(shù)據(jù)局局長(zhǎng)劉烈宏調(diào)研格創(chuàng)東智
- 7 下一代入口之戰(zhàn):大廠(chǎng)為何紛紛押注智能體?
- 8 百億AI芯片訂單,瘋狂傾銷(xiāo)中東?
- 9 Robotaxi新消息密集釋放,量產(chǎn)元年誰(shuí)在領(lǐng)跑?
- 10 格斗大賽出圈!人形機(jī)器人致命短板曝光:頭腦過(guò)于簡(jiǎn)單