訂閱
糾錯(cuò)
加入自媒體

探索隱私計(jì)算的江湖:數(shù)據(jù)金礦的守護(hù)者與吹哨人

煤老板和IT精英相遇,兩個(gè)人想比比誰(shuí)更富有,但都不愿告訴對(duì)方自己真正擁有多少財(cái)富,也不想讓第三方掌握原始信息。何解?

以上是圖靈獎(jiǎng)得主姚期智院士提出的“百萬(wàn)富翁假設(shè)”的通俗版演繹,里面涉及大數(shù)據(jù)發(fā)展進(jìn)程中的一個(gè)核心難題:如何厘清數(shù)據(jù)的所有權(quán)和使用權(quán)。在我們?nèi)粘5膽?yīng)用場(chǎng)景中,數(shù)據(jù)的所有權(quán)和使用權(quán)經(jīng)常是混合在一起的,難免會(huì)遭遇顧此失彼的窘境。想象一種神奇的分離術(shù):煤老板和IT精英擁有自身財(cái)富數(shù)據(jù)的所有權(quán),平臺(tái)只能獲得加密數(shù)據(jù)的使用權(quán),而經(jīng)過(guò)“黑盒”的轉(zhuǎn)化,即可得出“誰(shuí)更富有”的結(jié)論。這就是隱私計(jì)算的雛形,專(zhuān)業(yè)表述為“解決互不信任的參與方之間,在保護(hù)隱私信息以及沒(méi)有可信第三方前提下的協(xié)同計(jì)算問(wèn)題”。在數(shù)據(jù)大爆發(fā)的浪潮下,隱私計(jì)算的發(fā)展一日千里。4月18日在北京舉辦的騰訊大數(shù)據(jù)高峰論壇上,第四代數(shù)智融合計(jì)算平臺(tái)“騰訊大數(shù)據(jù)-天工”橫空出世,《騰訊隱私計(jì)算白皮書(shū)》也新鮮出爐(可以在微信公眾號(hào)后臺(tái)輸入“隱私計(jì)算”下載這份白皮書(shū))。行業(yè)龍頭的重磅出擊,標(biāo)志著隱私計(jì)算在國(guó)內(nèi)大數(shù)據(jù)領(lǐng)域已漸入佳境,實(shí)踐模式和方法論體系日趨成型。

失控的隱私與沉睡的金礦在隱私計(jì)算大行其道之前,國(guó)內(nèi)大數(shù)據(jù)領(lǐng)域的局面是:海量數(shù)據(jù)洪水滔天,應(yīng)用落地泥沙俱下。一方面,用戶數(shù)據(jù)隱私泄露問(wèn)題頻繁發(fā)生。網(wǎng)紅奶茶店無(wú)死角攝像頭收集顧客人臉信息,線上交易平臺(tái)幾元錢(qián)就能買(mǎi)上千張人臉照片,如果身份信息也失守,用戶很有可能成為詐騙、洗錢(qián)、涉黑等違法犯罪的犧牲品。另一方面,有效、合規(guī)的數(shù)據(jù)資源非常稀缺,合法的數(shù)據(jù)交易與深度的數(shù)據(jù)挖掘愈發(fā)困難。數(shù)據(jù)已被定性為土地、勞動(dòng)力、資本、技術(shù)之外的第五大生產(chǎn)要素,也成為企業(yè)和平臺(tái)最重要的核心資產(chǎn)。如果不能對(duì)數(shù)據(jù)進(jìn)行充分的保護(hù)和合規(guī)的使用,就等于讓一座價(jià)值連城的金礦徹底沉睡。先從法律上劃定底線,也許是打破混沌格局的首要之策。

我國(guó)不久前審議的《個(gè)人信息保護(hù)法草案》規(guī)定:侵害個(gè)人信息權(quán)益的違法行為,情節(jié)嚴(yán)重的沒(méi)收違法所得,并處5000萬(wàn)元以下或上一年度營(yíng)業(yè)額5%以下罰款——5%的額度甚至超過(guò)了有“最嚴(yán)數(shù)據(jù)保護(hù)”之稱(chēng)的歐盟GDPR。真正的長(zhǎng)效解決方案,還得寄希望于隱私計(jì)算的持續(xù)推廣。根據(jù)國(guó)際知名調(diào)研機(jī)構(gòu)Gartner的分析和預(yù)測(cè):隱私計(jì)算將成為2021年企業(yè)重點(diǎn)關(guān)注的9項(xiàng)技術(shù)之一;到2025年,將有50%的企業(yè)使用隱私計(jì)算挖掘數(shù)據(jù)價(jià)值。

破解的路徑與有益的探索在隱私計(jì)算的江湖上,主要有三大技術(shù)流派:一是以多方安全計(jì)算(MPC)為代表,采用密碼學(xué)方案,以秘密分享(Secret Sharing)、不經(jīng)意傳輸、混淆電路等專(zhuān)業(yè)技術(shù)實(shí)現(xiàn)通用性和性能提升。二是以可信執(zhí)行環(huán)境(TEE)為主,構(gòu)建硬件安全區(qū)域,數(shù)據(jù)僅在該區(qū)域內(nèi)進(jìn)行計(jì)算,在非嚴(yán)苛場(chǎng)景下可發(fā)揮重要價(jià)值。三是分布式機(jī)器學(xué)習(xí)技術(shù)和系統(tǒng)——聯(lián)邦學(xué)習(xí),其通過(guò)同態(tài)加密、差分隱私等方式提高數(shù)據(jù)協(xié)作過(guò)程中的安全性。三大流派交織演進(jìn),相互融合,再加上防篡改、可追溯的區(qū)塊鏈技術(shù)加持,通用型隱私計(jì)算超級(jí)平臺(tái)的誕生似乎并不遙遠(yuǎn)。

時(shí)代的吹哨人與開(kāi)礦的先行者在隱私計(jì)算平臺(tái)的競(jìng)爭(zhēng)中,“騰訊大數(shù)據(jù)-天工”無(wú)疑是其中的佼佼者。自2009年迄今,騰訊大數(shù)據(jù)平臺(tái)歷經(jīng)四代更迭:第一代大數(shù)據(jù)平臺(tái)依托Hadoop生態(tài),圍繞離線計(jì)算模式化構(gòu)建出能夠穩(wěn)定支撐小時(shí)/天級(jí)別的計(jì)算任務(wù)數(shù)據(jù)處理平臺(tái);2012年前后,第二代大數(shù)據(jù)平臺(tái)通過(guò)引入Spark、Storm等實(shí)時(shí)計(jì)算處理框架,讓處理性能邁入毫秒級(jí)別;2015年,第三代大數(shù)據(jù)平臺(tái)朝著機(jī)器學(xué)習(xí)方向發(fā)展,其自研機(jī)器學(xué)習(xí)框架Angel成為國(guó)內(nèi)第一個(gè)從Linux基金會(huì)畢業(yè)的AI項(xiàng)目;從2020年開(kāi)始著手規(guī)劃的第四代數(shù)智融合計(jì)算平臺(tái)“騰訊大數(shù)據(jù)-天工”,以“數(shù)據(jù)協(xié)同、技術(shù)互通、平臺(tái)大腦”技術(shù)理念為基礎(chǔ),未來(lái)將在確保數(shù)據(jù)安全的前提下,推動(dòng)萬(wàn)億級(jí)數(shù)據(jù)分析逐步實(shí)現(xiàn)“自動(dòng)駕駛”。

騰訊數(shù)據(jù)平臺(tái)部總經(jīng)理蔣杰在2012年剛加盟騰訊時(shí),曾對(duì)其負(fù)責(zé)的業(yè)務(wù)領(lǐng)域做了一番“摸底考察”。作為一位已跟數(shù)據(jù)打了十年交道、對(duì)技術(shù)趨勢(shì)高度敏感的專(zhuān)家,他當(dāng)時(shí)的結(jié)論是:“騰訊大數(shù)據(jù)團(tuán)隊(duì)可能落后領(lǐng)先水準(zhǔn)三年左右”。如今站在聚光燈下,蔣杰顯然有更多的底氣。2020年,騰訊大數(shù)據(jù)團(tuán)隊(duì)?wèi){借3072bit業(yè)界最高強(qiáng)度加密和TEE硬件雙保險(xiǎn)技術(shù),獲得了iDash 世界隱私計(jì)算大賽冠軍。這顆皇冠上的明珠,凝結(jié)著幾代工程師的心血。

“騰訊大數(shù)據(jù)-天工”在隱私計(jì)算領(lǐng)域并非單點(diǎn)突破,而是整體推進(jìn)。借助自研技術(shù),從機(jī)器學(xué)習(xí)到大數(shù)據(jù)分析,第四代數(shù)智融合平臺(tái)可以為各個(gè)應(yīng)用場(chǎng)景提供全面保護(hù),去中心化的架構(gòu)則能避免隱私泄露風(fēng)險(xiǎn)。作為第四代數(shù)智融合計(jì)算平臺(tái)的重要組成部分,騰訊Angel PowerFL安全聯(lián)合計(jì)算平臺(tái)也頗受矚目。Angel PowerFL擁有全棧的聯(lián)邦機(jī)器學(xué)習(xí)和深度學(xué)習(xí)功能,可以提供多種隱私保護(hù)機(jī)制,在不同的應(yīng)用場(chǎng)景里為用戶提供差異化的安全保護(hù)級(jí)別。

在跨機(jī)構(gòu)的隱私計(jì)算場(chǎng)景里,跨公網(wǎng)通信是隱私計(jì)算系統(tǒng)的瓶頸。為了解決這一問(wèn)題,Angel PowerFL平臺(tái)采用消息隊(duì)列(MQ)作為通信通道,借助MQ模塊的擁塞控制和消息持久化功能,可以進(jìn)一步增強(qiáng)系統(tǒng)穩(wěn)定性。在MQ的基礎(chǔ)上,騰訊還采用了高效的消息壓縮算法來(lái)減少通信開(kāi)銷(xiāo),提高多方交互效率。作為騰訊云數(shù)據(jù)安全網(wǎng)絡(luò)(DSN)底層引擎,Angel PowerFL堪稱(chēng)金融級(jí)安全強(qiáng)度的隱私計(jì)算平臺(tái),在智慧醫(yī)療、金融風(fēng)控、數(shù)字政務(wù)、推薦廣告等領(lǐng)域已贏得眾多客戶的認(rèn)可——在騰訊大數(shù)據(jù)高峰論壇上,來(lái)自民生銀行、中國(guó)電信、中國(guó)電力科學(xué)研究院等跨行業(yè)的生態(tài)伙伴齊聚一堂,即是明證。

終極目標(biāo)與未竟挑戰(zhàn)在《騰訊隱私計(jì)算白皮書(shū)》的封面上,標(biāo)題中的“數(shù)據(jù)向善”尤為搶眼。這是騰訊“科技向善”理念的延伸,也是隱私計(jì)算發(fā)展的終極目標(biāo)。遠(yuǎn)大前程并非一蹴而就。數(shù)據(jù)合規(guī)是隱私計(jì)算一直致力于解決的行業(yè)痛點(diǎn),從實(shí)際運(yùn)作來(lái)看,還有不小的提升空間。例如,作為底層邏輯的用戶授權(quán)同意機(jī)制,隱私計(jì)算的參與方不應(yīng)以對(duì)外公開(kāi)的是數(shù)據(jù)模型而非原始數(shù)據(jù)為由,規(guī)避協(xié)作環(huán)節(jié)的用戶授權(quán),在本地服務(wù)器中建模的行為,也需要進(jìn)一步規(guī)范;鈹(shù)據(jù)安全的衍生風(fēng)險(xiǎn)亦無(wú)止境。以聯(lián)邦學(xué)習(xí)為例:盡管其無(wú)需參與者直接共享原始數(shù)據(jù),但模型更新仍然有可能泄露參與者訓(xùn)練數(shù)據(jù)的相關(guān)信息,攻擊者可以采用推理判斷具體的數(shù)據(jù)點(diǎn)或數(shù)據(jù)屬性是否被用于訓(xùn)練,或采用逆向?qū)W習(xí)的方法還原原始數(shù)據(jù)。這就要求企業(yè)在模型、輸入、訓(xùn)練數(shù)據(jù)、輸出等維度建立更全面的隱私計(jì)算屏障。此外,隱私計(jì)算參與各方權(quán)利義務(wù)的邊界尚待進(jìn)一步明確。

通常而言,隱私計(jì)算涉及的主體包括個(gè)人信息主體、數(shù)據(jù)持有方、計(jì)算方和結(jié)果方。目前各方之間的法律關(guān)系還有模糊地帶,數(shù)據(jù)挖掘的商業(yè)行為務(wù)求謹(jǐn)慎,防止出現(xiàn)超常規(guī)的高風(fēng)險(xiǎn)作業(yè)。凡心兩扇門(mén),善惡一念間。技術(shù)本身是中性的,去中心化的平臺(tái)對(duì)各方都是敞開(kāi)的,隱私計(jì)算向善路徑的鋪就,離不開(kāi)劣幣懲戒機(jī)制的運(yùn)行和良性生態(tài)的構(gòu)建。陽(yáng)光普照,雨露滋潤(rùn),“天工”才能“開(kāi)物”。

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)