谷歌成立新團隊模擬物理世界AI模型
前言:如果能夠克服所有主要障礙,[世界模型]有望在虛擬世界生成、機器人技術和AI決策等領域帶來重大突破,為人工智能與現(xiàn)實世界的融合開辟新的途徑。
作者 | 方文三圖片來源 | 網 絡
谷歌成立新團隊模擬物理世界AI模型
2025年初,谷歌向公眾明確傳達了其在人工智能領域的戰(zhàn)略意圖,表明今年將是公司在此領域發(fā)展的重要時期。
今年1月,谷歌宣布,負責AI Studio項目以及Gemini API開發(fā)的團隊將整合并加入Google DeepMind部門。
此舉是繼去年將Gemini聊天機器人團隊并入DeepMind之后的又一重大戰(zhàn)略決策。
目前,谷歌在人工智能研發(fā)方面的力量已完全整合至DeepMind部門,由2024年諾貝爾化學獎得主德米斯·哈薩比斯領導。
隨著谷歌進一步將人工智能團隊并入DeepMind,這位在游戲開發(fā)、神經科學及人工智能領域均有卓越貢獻的科學家,其影響力將更為顯著。
近期,谷歌已連續(xù)三次將人工智能團隊并入DeepMind,此前已完成了模型研發(fā)、基礎研究以及負責任人工智能團隊的整合。
1月6日,谷歌正式宣布成立一個專項團隊,旨在開發(fā)能夠模擬物理世界的先進人工智能大模型。
該團隊由前OpenAI視頻生成項目Sora的聯(lián)合負責人蒂姆·布魯克斯領銜。
布魯克斯表示:[我們有志于構建一個能夠模擬整個世界的大型生成式模型。]
根據(jù)公司發(fā)布的招聘信息,該團隊將專注于解決[關鍵性新問題],并將模型的性能提升至[最高計算水平]。
這支新成立的團隊將與公司內現(xiàn)有的Gemini、Veo和Genie等項目進行深入合作,致力于提升人工智能對現(xiàn)實世界的認知和模擬能力。
蒂姆·布魯克斯作為OpenAI視頻生成器Sora的共同領導者之一,于10月份離職,轉而加入了谷歌旗下的人工智能研究機構DeepMind。
據(jù)相關報道,布魯克斯加入的新研究團隊將致力于開發(fā)[實時交互生成]工具,并探索如何將他們所構建的模型與現(xiàn)有的多模式模型(例如Gemini)進行整合。
以開發(fā)能夠模擬真實場景的AI工具為目標,Genie 2旨在為實現(xiàn)通用人工智能鋪平道路,并引領人工智能領域的新方向——利用尖端技術實現(xiàn)復雜物理環(huán)境的真實模擬,未來有望廣泛應用于游戲、影視制作、機器人訓練等多個領域。
DeepMind認為,在視頻和多模態(tài)數(shù)據(jù)上進行人工智能訓練是實現(xiàn)通用人工智能(AGI)的關鍵路徑。
世界模型將在諸多領域發(fā)揮重要作用,包括視覺推理與模擬、具身代理的規(guī)劃以及實時互動娛樂等。
Genie 2模型對構建世界模型的積極一面
DeepMind已成功將SIMA技術融入由Genie 2所構建的虛擬世界中,這一技術進步預期將對人工智能的訓練方法和游戲快速原型開發(fā)領域產生深遠影響。
Genie 2模型的推出,體現(xiàn)了谷歌DeepMind在人工智能構建虛擬世界領域的積極參與和競爭態(tài)勢。
該模型作為一種基礎的人工智能工具,能夠將單一圖像轉化為一個具有交互性的3D環(huán)境,并支持長達一分鐘的互動體驗。
該技術在多個維度上展現(xiàn)了其卓越的性能和優(yōu)勢,涵蓋了動作控制、生成反事實場景、長期記憶、長視頻內容生成、多樣化環(huán)境模擬、3D結構建模、物體交互、復雜角色動畫、NPC行為、物理效應、煙霧模擬、光影效果以及快速原型設計等方面。
Genie 2的核心功能在于訓練與評估具身智能體,其通過構建多樣化環(huán)境,能夠生成智能體在訓練過程中未曾遭遇的評估任務。
其工作原理是逐幀進行[像素預測],并利用用戶提供的[引導]信息來調整下一幀的概率分布。
Genie2 的功能包括具備[基礎世界模型的涌現(xiàn)能力],能夠構建出豐富多樣的三維世界,并能夠模擬在虛擬世界中進行各種行為(例如跳躍、游泳等)所產生的結果。
Genie2 實現(xiàn)了讓任何用戶通過[文字]描述來構建他們理想中的世界,選擇他們偏好的[效果圖],隨后進入這個新構建的世界并進行[互動],或者讓AI代理在其中進行[訓練或評估]。
該模型具備從單一圖像中構建可交互3D環(huán)境的能力,并能夠提供長達一分鐘的沉浸式游戲體驗。
該模型集成了物理模擬、照明效果以及非玩家角色(NPC)行為等高級功能。
谷歌將自身定位為研究與原型開發(fā)工具,該工具能夠迅速構建豐富的環(huán)境,從而使得即便在缺乏專業(yè)訓練的情況下,人工智能的評估工作也變得更加簡便。
科技巨頭紛紛入局世界模型競賽
在CES 2025上,黃仁勛宣布推出Cosmos世界模型(Cosmos World Foundation Models,簡稱Cosmos WFMs),該模型專為理解物理世界而設計,能夠預測并生成具有[物理感知]的視頻內容。
除了英偉達,谷歌以及其他一些初創(chuàng)企業(yè)也在積極追求世界模型的開發(fā)。
李飛飛的World Labs已經籌集了2.3億美元資金,用于構建[大世界模型],而Decart和Odyssey等公司也加入了這一領域。
OpenAI先前發(fā)布的Sora模型亦可視為一種[世界模型],它能夠模擬如畫家在畫布上作畫的行為,以及渲染類似Minecraft的用戶界面和游戲世界。
具體而言,世界模型是通過大量圖像、音頻、視頻和文本數(shù)據(jù)的訓練,構建出對世界運作方式的內部表征,并能夠推理行為的后果。
這使得它們能夠更深入地理解和模擬現(xiàn)實世界的規(guī)律。
世界模型的概念源自人類大腦形成的心智模型,我們的大腦能夠將感官獲取的抽象信息整合成對周圍世界的具體理解,形成[模型],這些模型幫助我們預測和感知世界。
世界模型的特點在于其試圖超越單純的數(shù)據(jù),模擬人類的潛意識推理。
例如,棒球擊球手能在極短的時間內決定如何揮棒,是因為他們能夠本能地預測球的軌跡。
這種潛意識推理能力被認為是實現(xiàn)人類級智能的關鍵條件之一。
[世界模型]的意義在于能夠實現(xiàn)復雜的推理和規(guī)劃,并將推動生成式視頻技術的發(fā)展。
Meta的首席AI科學家Yann LeCun認為,世界模型未來可能在數(shù)字和物理領域的復雜預測和規(guī)劃中發(fā)揮作用。
例如,給定一個雜亂無章的房間(初始狀態(tài))和一個整潔的房間(目標狀態(tài)),世界模型可以推理出一系列清潔行動,而不僅僅是根據(jù)觀察到的模式進行操作。
具備這些能力后,[世界模型]可廣泛應用于影視、游戲、自動駕駛以及機器人等行業(yè)。
結尾:
未來的世界模型可能能夠按需生成用于游戲、虛擬攝影等用途的3D世界,從而大幅降低開發(fā)成本和時間。
在過去一年中,人工智能技術在多個方向上持續(xù)取得突破,世界模型被視為下一個重大突破。
盡管距離成熟的[世界模型]還有數(shù)年時間,但這一技術已經展現(xiàn)出巨大的潛力。
部分資料參考:DeepTech深科技:《谷歌再次調整AI團隊,諾獎得主哈薩比斯統(tǒng)領研發(fā)》,量子位:《Sora核心作者掌舵,谷歌世界模型新團隊全球招募》,傳媒1號:《谷歌DeepMind「世界模型」或成AGI突破口》,AI科技大本營:《Sora前負責人帶隊打造[現(xiàn)實世界模擬器],AI領域再掀波瀾》,騰訊科技:《全網熱評的李飛飛世界生成模型,真的能構建物理世界嗎?》,鼓搗AI:《DeepMind發(fā)布世界模型"GPT時刻",Genie2或將顛覆游戲產業(yè)》,硬AI:《[世界模型]——AI下一個[必爭之地],英偉達、谷歌雙雙下場》
原文標題 : AI芯天下丨產業(yè)丨谷歌成立新團隊模擬物理世界AI模型

請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
- 1 AI 眼鏡讓百萬 APP「集體失業(yè)」?
- 2 大廠紛紛入局,百度、阿里、字節(jié)搶奪Agent話語權
- 3 深度報告|中國AI產業(yè)正在崛起成全球力量,市場潛力和關鍵挑戰(zhàn)有哪些?
- 4 上海跑出80億超級獨角獸:獲上市公司戰(zhàn)投,干人形機器人
- 5 國家數(shù)據(jù)局局長劉烈宏調研格創(chuàng)東智
- 6 下一代入口之戰(zhàn):大廠為何紛紛押注智能體?
- 7 百億AI芯片訂單,瘋狂傾銷中東?
- 8 Robotaxi新消息密集釋放,量產元年誰在領跑?
- 9 格斗大賽出圈!人形機器人致命短板曝光:頭腦過于簡單
- 10 “搶灘”家用機器人領域,聯(lián)通、海爾、美的等紛紛入局