谷歌Gemini“抄襲”百度文心一言?AI訓(xùn)練數(shù)據(jù)陷入大難題
作者:一號(hào)
編輯:小迪
谷歌過(guò)于心急,Gemini推出不到半月,就遭遇兩次“危機(jī)”。
美東時(shí)間12月6日,谷歌推出了迄今為止規(guī)模最大,能力最強(qiáng)的大模型Gemini。其原生多模態(tài)的能力,通過(guò)一條約6分鐘的演示視頻,展現(xiàn)得淋漓盡致,讓人不得不感慨它的強(qiáng)大,就連馬斯克都評(píng)論說(shuō),“(Gemini)令人印象深刻”。
谷歌在AI領(lǐng)域的成就有目共睹,盡管之前推出的Bard表現(xiàn)不盡人意,讓谷歌市值一夜蒸發(fā)了1000億美元。但經(jīng)過(guò)一年沉淀,加上和DeepMind聯(lián)合研發(fā),所以Gemini(雙子星)可是被寄予了厚望。
但是,Gemini發(fā)布后僅一天,就有人指控谷歌“造假”。除了在數(shù)據(jù)對(duì)比上沒(méi)有使用相同條件,演示視頻效果也是經(jīng)過(guò)剪輯的。逼得谷歌不得不給出文檔承認(rèn)視頻是經(jīng)過(guò)加工的。
12月14日,視頻“造假”事件還沒(méi)降溫,谷歌就宣布對(duì)外免費(fèi)開(kāi)放Gemini Pro的API。讓不少人高興得奔走相告。因?yàn)橄噍^于GPT-4收費(fèi)版才能擁有的視覺(jué)模型,Gemini Pro可以直接給平民AI玩家體驗(yàn)AI視覺(jué)能力的機(jī)會(huì)。
但就在API開(kāi)放后不久,就有用戶發(fā)現(xiàn),在Poe上使用Gemini Pro時(shí),如果用簡(jiǎn)體中文連續(xù)詢問(wèn)“你好”和“你是誰(shuí)”這兩個(gè)問(wèn)題時(shí),Gemini Pro會(huì)直接說(shuō)出“我是百度文心大模型”這樣的回答,給網(wǎng)友都看“呆”了。
谷歌Gemini被百度文心一眼“奪舍”了?
微博大V闌夕就發(fā)博展示了這樣的效果,就連進(jìn)一步詢問(wèn)“你的創(chuàng)始人是誰(shuí)”時(shí),它也很干脆地回答:李彥宏。
難道Gemini被百度“奪舍”了?不少人懷疑這是因?yàn)椴┲髟趯?duì)話前面設(shè)置了提示詞,讓Gemini扮演文心一言,但這位博主強(qiáng)調(diào),沒(méi)有任何前置對(duì)話。
本著求真的態(tài)度,我們也去Poe上試用了一下,結(jié)果真的可以復(fù)現(xiàn)。
會(huì)不會(huì)是Poe平臺(tái)上的接口用錯(cuò)了?不過(guò)Poe平臺(tái)可不是什么野雞套殼網(wǎng)站,它是美版知乎Quora推出的AI聊天機(jī)器人平臺(tái),你所熟知的ChatGPT、Claude等知名AI都可以在上面使用。而且如果你使用英文提問(wèn)Gemini,它就會(huì)立刻恢復(fù)正常。并且單就從“作案動(dòng)機(jī)”上來(lái)講,Poe也沒(méi)有必要這么做。
除此之外,還有用戶在谷歌自己的Vertex AI平臺(tái)上,使用中文對(duì)話,也出現(xiàn)了這種情況。因此,Poe的接口使用出錯(cuò),這個(gè)可能基本可以被排除,問(wèn)題應(yīng)該出在Gemini本身。
使用AI生成的數(shù)據(jù)進(jìn)行訓(xùn)練已不新鮮
這樣看下來(lái),要么就是谷歌使用了百度文心一言的語(yǔ)料進(jìn)行訓(xùn)練,要么就是它所使用的語(yǔ)料已經(jīng)被AI“污染”了。
其實(shí)大模型訓(xùn)練使用其他大模型生成的語(yǔ)料這件事情已經(jīng)不是第一次發(fā)生,并且谷歌還是有“前科”的。在上一代Bard時(shí),谷歌就曾被曝出使用ChatGPT的數(shù)據(jù)進(jìn)行訓(xùn)練,并且根據(jù)The Information報(bào)道,這件事情還造成了Jacob Devlin從谷歌離職。
就在上周末,字節(jié)跳動(dòng)也被OpenAI禁止使用API接口,原因也是因?yàn)檎f(shuō)字節(jié)在使用GPT訓(xùn)練自己的AI,違反了使用條例。
如果按照現(xiàn)在每個(gè)模型堆“訓(xùn)練數(shù)據(jù)量”的操作來(lái)看,互聯(lián)網(wǎng)上的人類(lèi)原生的數(shù)據(jù)很快就會(huì)用完,并且各個(gè)模型之間也將會(huì)很相似。因此,獲取一些未被別人拿去訓(xùn)練的數(shù)據(jù),是模型之間保持差異化的一種方法。因此,有些AI公司會(huì)向一些擁有專屬數(shù)據(jù)的公司購(gòu)買(mǎi)數(shù)據(jù)。例如OpenAI就曾表示愿意每年支付高達(dá)八位數(shù)的費(fèi)用,用以獲取彭博社自有的歷史和持續(xù)的金融文件數(shù)據(jù)訪問(wèn)權(quán)限。
另一個(gè)思路,就是選擇使用AI合成的數(shù)據(jù)來(lái)進(jìn)行訓(xùn)練。香港大學(xué)、牛津大學(xué)和字節(jié)跳動(dòng)的幾名研究院就曾嘗試過(guò)使用高質(zhì)量AI合成圖片,來(lái)提升圖像分類(lèi)模型的性能,結(jié)果發(fā)現(xiàn)效果還不錯(cuò),甚至比真實(shí)數(shù)據(jù)訓(xùn)練還要好。
AI生成的內(nèi)容正在“污染”互聯(lián)網(wǎng)
而從另一方面來(lái)看,AI生成的內(nèi)容污染互聯(lián)網(wǎng)也是一個(gè)不得不重視的問(wèn)題了。尤其是生成式AI大爆發(fā)的今年。在文字、圖像、視頻還有音頻等領(lǐng)域,AI生成的內(nèi)容都正在“污染”互聯(lián)網(wǎng)上數(shù)據(jù)內(nèi)容。
就在上個(gè)月,一些網(wǎng)友發(fā)現(xiàn),在谷歌搜索上輸入已故夏威夷歌手Israel Kamakawiwo’ole的名字是,得到的搜索結(jié)果,前幾張圖片都是有AI生成的,而并非真實(shí)照片,并且這是一位以彈奏尤克里里而聞名的音樂(lè)家,但圖片里的他卻在彈吉他。
在文字方面也是,隨著百家號(hào)等媒體平臺(tái)上出現(xiàn)的AI幫寫(xiě)等功能,AI生成的文章已經(jīng)開(kāi)始在互聯(lián)網(wǎng)上“蔓延”,這讓普通人在互聯(lián)網(wǎng)上篩選真實(shí)且有效的信息的效率反而降低了?梢哉f(shuō),AI生成內(nèi)容對(duì)互聯(lián)網(wǎng)語(yǔ)料的“污染”,可能會(huì)導(dǎo)致產(chǎn)生一個(gè)新的需求,那就是幫人們分辨內(nèi)容是否由AI生成的AI。
畢竟,目前訓(xùn)練AI所需要的數(shù)據(jù)還是人類(lèi)所生產(chǎn)的,在數(shù)據(jù)清洗過(guò)程中,需要注意清除一些由其他AI生成的內(nèi)容。一旦互聯(lián)網(wǎng)上AI生成的內(nèi)容越多,越能以假亂真,那么數(shù)據(jù)篩選的難度將越大。并且在大模型出現(xiàn)“幻覺(jué)”以及AI如何產(chǎn)生“智能涌現(xiàn)”這兩個(gè)問(wèn)題沒(méi)有得到徹底解決之前,我想我們都無(wú)法做到徹底信賴AI生成的內(nèi)容。
畢竟一旦AI生成了錯(cuò)誤的內(nèi)容,而另一個(gè)AI拿著這個(gè)內(nèi)容去訓(xùn)練,然后再另一個(gè)AI拿到新的錯(cuò)誤內(nèi)容......這樣“滾雪球”下去,AI最終會(huì)生成什么樣的逆天垃圾,我們真的無(wú)法想象。
原文標(biāo)題 : 新火種AI | 谷歌Gemini“抄襲”百度文心一言?AI訓(xùn)練數(shù)據(jù)陷入大難題

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
即日-6.16立即報(bào)名>> 【在線會(huì)議】olution Talks |Computex 2025關(guān)鍵趨勢(shì)深讀
-
6月20日立即下載>> 【白皮書(shū)】精準(zhǔn)測(cè)量 安全高效——福祿克光伏行業(yè)解決方案
-
7月3日立即報(bào)名>> 【在線會(huì)議】英飛凌新一代智能照明方案賦能綠色建筑與工業(yè)互聯(lián)
-
7月22-29日立即報(bào)名>> 【線下論壇】第三屆安富利汽車(chē)生態(tài)圈峰會(huì)
-
7.30-8.1火熱報(bào)名中>> 全數(shù)會(huì)2025(第六屆)機(jī)器人及智能工廠展
-
7月31日免費(fèi)預(yù)約>> OFweek 2025具身機(jī)器人動(dòng)力電池技術(shù)應(yīng)用大會(huì)
推薦專題
- 1 AI 眼鏡讓百萬(wàn) APP「集體失業(yè)」?
- 2 大廠紛紛入局,百度、阿里、字節(jié)搶奪Agent話語(yǔ)權(quán)
- 3 深度報(bào)告|中國(guó)AI產(chǎn)業(yè)正在崛起成全球力量,市場(chǎng)潛力和關(guān)鍵挑戰(zhàn)有哪些?
- 4 上海跑出80億超級(jí)獨(dú)角獸:獲上市公司戰(zhàn)投,干人形機(jī)器人
- 5 國(guó)家數(shù)據(jù)局局長(zhǎng)劉烈宏調(diào)研格創(chuàng)東智
- 6 下一代入口之戰(zhàn):大廠為何紛紛押注智能體?
- 7 百億AI芯片訂單,瘋狂傾銷(xiāo)中東?
- 8 Robotaxi新消息密集釋放,量產(chǎn)元年誰(shuí)在領(lǐng)跑?
- 9 格斗大賽出圈!人形機(jī)器人致命短板曝光:頭腦過(guò)于簡(jiǎn)單
- 10 “搶灘”家用機(jī)器人領(lǐng)域,聯(lián)通、海爾、美的等紛紛入局