Meta免費(fèi)開(kāi)源AI模型NLLB-200!可精準(zhǔn)翻譯超過(guò)200種語(yǔ)言
近日,Meta公司宣布將免費(fèi)開(kāi)源旗下AI系統(tǒng)NLLB-200 ,該系統(tǒng)是全球第一個(gè)能翻譯200種不同語(yǔ)言的單一AI模型,將為超過(guò)10億人提供高品質(zhì)翻譯內(nèi)容。
Meta公司稱(chēng),將會(huì)把NLLB-200對(duì)外開(kāi)源,同時(shí)向非營(yíng)利機(jī)構(gòu)提供20萬(wàn)美元的資助,以開(kāi)發(fā)該技術(shù)應(yīng)用于更多應(yīng)用程式上。
德國(guó)慕尼黑大學(xué)計(jì)算機(jī)語(yǔ)言學(xué)家Alexander Fraser認(rèn)為,該模型的主要貢獻(xiàn)在于數(shù)據(jù),包含了100種全新語(yǔ)言。
目前,市面上很多翻譯工具并不支持冷門(mén)的語(yǔ)言,也就是少于百萬(wàn)人口使用的語(yǔ)言,而NLLB-200解決了這個(gè)問(wèn)題。
【不遺漏任何語(yǔ)言】
全球有數(shù)十億人,但一直以來(lái)卻沒(méi)有可以翻譯上百種語(yǔ)言的高品質(zhì)翻譯工具,他們無(wú)法通過(guò)自己慣用的語(yǔ)言或母語(yǔ)瀏覽網(wǎng)絡(luò)上的內(nèi)容,或在網(wǎng)絡(luò)社群上參與討論,尤其是對(duì)于非洲、亞洲等地區(qū)有高達(dá)數(shù)億人使用不同種類(lèi)的語(yǔ)言。
為了突破網(wǎng)絡(luò)上的語(yǔ)言障礙,并促進(jìn)元宇宙發(fā)展,Meta的AI研究人員早年已成立NLLB專(zhuān)案,開(kāi)發(fā)AI模型為全世界提供高品質(zhì)的翻譯功能。
據(jù)悉,NLLB是“No Language Left Behind(不遺漏任何語(yǔ)言)”的縮寫(xiě),該AI系統(tǒng)可以高質(zhì)量翻譯世界上多達(dá)200種語(yǔ)言,除了主流語(yǔ)言外,其中還包含多達(dá)55種非洲系語(yǔ)言及其他少數(shù)語(yǔ)言。
在多項(xiàng)指標(biāo)中,相較現(xiàn)有的其他翻譯工具,NLLB-200的翻譯品質(zhì)平均高出44%。在部分非洲和印度語(yǔ)言中,提升幅度相較最新的翻譯系統(tǒng)更提升了70%。
此外,Meta也與維基基金會(huì)合作,希望NLLB-200之后可以提供維基百科翻譯的服務(wù),改善維基百科的翻譯系統(tǒng)。通過(guò)雙方的合作,NLLB-200持續(xù)學(xué)習(xí)其他翻譯器中無(wú)法翻譯的語(yǔ)言,AI模型可以自己學(xué)習(xí)語(yǔ)言中的文字系統(tǒng),得到更準(zhǔn)確的翻譯結(jié)果。
【多語(yǔ)言翻譯系統(tǒng)】
過(guò)去幾年,AI語(yǔ)言翻譯系統(tǒng)的發(fā)展非常快。Meta公司曾經(jīng)指出,目前絕大多數(shù)的AI翻譯系統(tǒng)是屬于“雙語(yǔ)言模型”,只是單純具備一對(duì)一的翻譯能力,比如英語(yǔ)-中文、英語(yǔ)-日語(yǔ)等等,但Meta希望研發(fā)一套“多語(yǔ)言翻譯系統(tǒng)”,突破一對(duì)一的語(yǔ)音翻譯,直接讓多種語(yǔ)言的用戶(hù)可以在同一個(gè)聊天室內(nèi)即時(shí)地用口語(yǔ)進(jìn)行交流。
去年,Meta AI實(shí)驗(yàn)室公布了多語(yǔ)言模型,為AI翻譯帶來(lái)了巨大提升。11月,Meta的多語(yǔ)言模型拿下了WMT國(guó)際機(jī)器翻譯大賽2021的冠軍。
Meta的模型開(kāi)發(fā)策略分為三部分:大規(guī)模的數(shù)據(jù)挖掘、模型擴(kuò)展、有效運(yùn)用運(yùn)算資源。
1.大規(guī)模數(shù)據(jù)挖掘:為訓(xùn)練多語(yǔ)言模型,Meta研發(fā)團(tuán)隊(duì)采用兩種方式:任意語(yǔ)言到英語(yǔ),以及英語(yǔ)到任意語(yǔ)言。Meta應(yīng)用平行數(shù)據(jù)挖掘技術(shù)來(lái)收集爬蟲(chóng)取得的網(wǎng)站翻譯資料,降低手工翻譯成本。
2.模型擴(kuò)展:為了提高多語(yǔ)言模型設(shè)計(jì)的容量,模型規(guī)模從150億個(gè)參數(shù)提高到520億個(gè),并在此基礎(chǔ)上,利用公司最新的GPU內(nèi)存節(jié)省解決方案——Fully Sharded Data-Parallel,將大規(guī)模訓(xùn)練的速度提升了5倍。
3.有效運(yùn)用運(yùn)算資源:為了節(jié)省模型的計(jì)算成本,Meta采用了一套新的運(yùn)算方法,讓模型在不同訓(xùn)練場(chǎng)景中,只使用模型的一部分,而非整體,以此更有效率運(yùn)用硬件資源。
Meta的多語(yǔ)言模型最大特點(diǎn)是針對(duì)訓(xùn)練資源少,或小語(yǔ)種的語(yǔ)言翻譯,該多語(yǔ)言模型在測(cè)試中超過(guò)了目前市面上最好的并且經(jīng)過(guò)專(zhuān)門(mén)訓(xùn)練的雙語(yǔ)模型。Meta認(rèn)為,這套多語(yǔ)言模型為“通用語(yǔ)音翻譯系統(tǒng)”打下了基礎(chǔ)。
Meta的愿景是這套系統(tǒng)可以讓全球大眾廣泛使用,但同時(shí)也將會(huì)成為Meta旗下的VR/AR等穿戴設(shè)備的殺手級(jí)應(yīng)用。
可以想象的是,“通用語(yǔ)音翻譯系統(tǒng)”一旦在元宇宙中實(shí)現(xiàn),可以讓全世界不同語(yǔ)種的用戶(hù),在元宇宙虛擬空間里溝通、開(kāi)會(huì)、玩游戲,將會(huì)比在現(xiàn)實(shí)中更加方便,也將更進(jìn)一步實(shí)現(xiàn)Meta對(duì)發(fā)展元宇宙的野心。

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
6月20日立即下載>> 【白皮書(shū)】精準(zhǔn)測(cè)量 安全高效——福祿克光伏行業(yè)解決方案
-
7月3日立即報(bào)名>> 【在線會(huì)議】英飛凌新一代智能照明方案賦能綠色建筑與工業(yè)互聯(lián)
-
7月22-29日立即報(bào)名>> 【線下論壇】第三屆安富利汽車(chē)生態(tài)圈峰會(huì)
-
7.30-8.1火熱報(bào)名中>> 全數(shù)會(huì)2025(第六屆)機(jī)器人及智能工廠展
-
7月31日免費(fèi)預(yù)約>> OFweek 2025具身機(jī)器人動(dòng)力電池技術(shù)應(yīng)用大會(huì)
-
免費(fèi)參會(huì)立即報(bào)名>> 7月30日- 8月1日 2025全數(shù)會(huì)工業(yè)芯片與傳感儀表展
推薦專(zhuān)題
- 1 AI 眼鏡讓百萬(wàn) APP「集體失業(yè)」?
- 2 大廠紛紛入局,百度、阿里、字節(jié)搶奪Agent話(huà)語(yǔ)權(quán)
- 3 深度報(bào)告|中國(guó)AI產(chǎn)業(yè)正在崛起成全球力量,市場(chǎng)潛力和關(guān)鍵挑戰(zhàn)有哪些?
- 4 上海跑出80億超級(jí)獨(dú)角獸:獲上市公司戰(zhàn)投,干人形機(jī)器人
- 5 國(guó)家數(shù)據(jù)局局長(zhǎng)劉烈宏調(diào)研格創(chuàng)東智
- 6 下一代入口之戰(zhàn):大廠為何紛紛押注智能體?
- 7 百億AI芯片訂單,瘋狂傾銷(xiāo)中東?
- 8 Robotaxi新消息密集釋放,量產(chǎn)元年誰(shuí)在領(lǐng)跑?
- 9 格斗大賽出圈!人形機(jī)器人致命短板曝光:頭腦過(guò)于簡(jiǎn)單
- 10 “搶灘”家用機(jī)器人領(lǐng)域,聯(lián)通、海爾、美的等紛紛入局