谷歌具身智能VLA大模型 —— Gemini Robotics : 將人工智能帶入到物理世界
引言
真正實用的機(jī)器人需要能夠理解周圍的物理世界,并以可靠且安全的方式與之交互。也就是說,基于物理實體的AI智能體必須具備魯棒的人類級具身推理能力,即包含在物理具身世界中操作和運(yùn)行所需的基礎(chǔ)概念的世界知識體系。
作為人類,我們往往將具身推理能力視為理所當(dāng)然—— 例如感知環(huán)境的 3D 結(jié)構(gòu)、解析復(fù)雜的物體間關(guān)系理以及直覺物理規(guī)律理解 —— 但這些能力卻是構(gòu)成具身AI智能體的能力基石。
此外,具身AI智能體更需突破被動理解現(xiàn)實世界空間與物理概念的局限,通過行動直接影響外部環(huán)境,從而彌合被動感知與主動物理交互之間的鴻溝。
隨著機(jī)器人硬件的革新,構(gòu)建能執(zhí)行高靈巧任務(wù)的具身AI智能體迎來歷史性機(jī)遇。2025年3月12日,谷歌Deep Mind發(fā)布了基于多模態(tài)通用大模型Gemini2.0構(gòu)建的兩類大模型:Gemini Robotics(VLA)和Gemini Robotics-ER(VLM)。
Gemini Robotics和Gemini Robotics-ER
1. Gemini Robotics-ER
Gemini Robotics - ER(VLM模型),其中ER 代表 “embodied reasoning”(具身推理),將Gemini的多模態(tài)推理能力擴(kuò)展至物理世界,具備增強(qiáng)的空間和時間理解能力,包括物體檢測、指向、軌跡預(yù)測和抓取預(yù)測等2D空間概念理解能力,以及多視角3D場景理解和3D邊界框檢測等3D空間推理能力。
多視角3D場景理解: 通過關(guān)聯(lián)不同視角的2D點(diǎn)來理解3D場景
1)支持零樣本和少樣本機(jī)器人控制
論文中,研究人員使用Gemini 2.0 Flash和Gemini Robotics-ER兩類模型,分別采用兩種不同的機(jī)器人控制方法進(jìn)行實驗。
零樣本(zero-shot)機(jī)器人控制——通過代碼生成控制機(jī)器人。
少樣本(few-shot)控制——通過上下文學(xué)習(xí)(in-context learning, ICL),基于少量示例適應(yīng)新行為。
兩類模型在模擬環(huán)境中執(zhí)行一組操作任務(wù)的結(jié)果對比
備注:這些任務(wù)涵蓋了不同難度和物體類型,從簡單的抓取任務(wù)(如抬起香蕉)到長時序、多步驟、多任務(wù)的操作(如將玩具放入盒子并關(guān)閉盒子)。
試驗結(jié)果表明,Gemini Robotics-ER 在兩種控制方式下的任務(wù)完成率均表現(xiàn)良好。Gemini Robotics-ER能夠利用上下文學(xué)習(xí)(in-context learning),僅憑少量示例就能提高更復(fù)雜的靈巧雙臂任務(wù)(如折疊衣物)的執(zhí)行能力,并能夠直接輸出末端執(zhí)行器的軌跡以完成任務(wù)。
在零樣本機(jī)器人控制方面,Gemini Robotics-ER任務(wù)完成率相比Gemini 2.0 提高了近2倍。
在少樣本機(jī)器人控制方面,Gemini 2.0 Flash 在模擬環(huán)境中平均成功率達(dá)到51%。然而,Gemini Robotics-ER 在模擬環(huán)境中的平均成功率達(dá)到 65%。
另外,實驗還表明,模型的具身推理能力與下游機(jī)器人控制的性能之間存在強(qiáng)相關(guān)性。Gemini Robotics-ER 可以直接用于機(jī)器人控制,包括:作為感知模塊(如物體檢測),規(guī)劃模塊(如軌跡生成)以及通過生成和執(zhí)行代碼來協(xié)調(diào)機(jī)器人運(yùn)動。
不過,Gemini Robotics-ER作為VLM模型,也存在局限性,尤其是在更復(fù)雜的靈巧操作任務(wù)上。這主要是因為需要額外的中間步驟來將模型的具身推理能力與機(jī)器人執(zhí)行動作關(guān)聯(lián)起來。
2. Gemini Robotics
Gemini Robotics是一種端到端的VLA(視覺-語言-行動)模型,將強(qiáng)大的具身推理先驗與現(xiàn)實世界機(jī)器人的靈巧低級控制相結(jié)合,能夠在不同環(huán)境下解決靈巧任務(wù),并支持不同的機(jī)器人形態(tài)。
Gemini Robotics是Gemini Robotics-ER的一個衍生版本,采用了雙組件架構(gòu):
Gemini Robotics 主干網(wǎng)絡(luò):托管在云端,負(fù)責(zé)視覺-語言推理。
Gemini Robotics 解碼器:運(yùn)行在機(jī)器人控制器上,負(fù)責(zé)動作執(zhí)行。
Gemini Robotics 主干網(wǎng)絡(luò)由Gemini Robotics-ER的一個蒸餾版本(distilled version)組成,其查詢-響應(yīng)延遲已優(yōu)化至小于160ms(相比原始模型減少了數(shù)秒)。為了補(bǔ)償主干網(wǎng)絡(luò)的延遲,Gemini Robotics解碼器在本地執(zhí)行低級控制。
Gemini Robotics模型架構(gòu)概覽
Gemini Robotics 模型實驗驗證結(jié)果
1. 基于原始Gemini Robotics 基礎(chǔ)模型進(jìn)行測試
谷歌研究人員將Gemini Robotics 與π0 re-implement和多任務(wù)擴(kuò)散策略模型(Multi-task Diffusion Policy)這兩種最先進(jìn)的基線模型進(jìn)行對比試驗。所有模型均在開箱即用(out of the box)的條件下進(jìn)行評測,即不進(jìn)行任何任務(wù)特定的微調(diào)或額外提示。
實驗結(jié)果顯示:
Gemini Robotics 在靈巧操作、語言指令理解以及泛化能力方面表現(xiàn)出色。
1)靈巧操作
在該組實驗中,研究人員從數(shù)據(jù)集中隨機(jī)抽取20個任務(wù)進(jìn)行測試,覆蓋洗衣房、廚房、辦公桌以及其它日;顒訄鼍啊
實驗結(jié)果表明,Gemini Robotics在一半的任務(wù)中表現(xiàn)出色,成功率超過80%。尤其是在可變形物體操控方面表現(xiàn)尤為優(yōu)異(如“折疊粉色布料”、“纏繞耳機(jī)線”),而基線模型在這些任務(wù)上表現(xiàn)不佳。
三個模型在20個不同任務(wù)執(zhí)行過程中的成功率對比
問題點(diǎn)在于:某些復(fù)雜的高難度靈巧任務(wù)(比如“插入鞋帶”) ,未經(jīng)過微調(diào)的Gemini Robotics模型執(zhí)行任務(wù)的成功率依然然很低。
2)語言指令理解
在該組實驗中,研究人員選取了25條語言指令,并在5個不同的評估場景中進(jìn)行測試,包括訓(xùn)練場景以及包含未見過物體和容器的全新場景。
實驗結(jié)果表明,在具有挑戰(zhàn)性的場景(包含新物體和細(xì)粒度指令的任務(wù),如“將牙膏放入盥洗架底部隔間” ),Gemini Robotics 的表現(xiàn)優(yōu)于所有基線模型。
針對新物體的帶詳細(xì)指令的 “拾取” 和 “拾取并放置” 任務(wù)的成功率
3)泛化能力
研究人員評估了Gemini Robotics模型在指令泛化、視覺泛化以及動作泛化三個維度上的泛化能力。
三個模型泛化能力試驗結(jié)果對比
Gemini Robotics在所有三種泛化類型上均明顯優(yōu)于基線模型,并能更有效地適應(yīng)各種變化。即使在基線模型發(fā)生災(zāi)難性失。ㄈ缬龅叫抡Z言的指令)的情況下,Gemini Robotics 仍能取得非零成功率。
研究人員推測,Gemini Robotics較強(qiáng)的泛化能力依賴于以下三種原因:
更強(qiáng)大、更高容量的VLM(視覺-語言模型)主干網(wǎng)絡(luò);Gemini 2.0 中最先進(jìn)的視覺編碼器;多樣化的訓(xùn)練數(shù)據(jù)共同提升了模型的泛化能力。
2. 基于微調(diào)后的Gemini Robotics專用模型進(jìn)行測試
研究人員通過對Gemini Robotics模型在小規(guī)模高質(zhì)量數(shù)據(jù)集上進(jìn)行微調(diào),進(jìn)一步測試模型的極限能力,并探索未來可能的優(yōu)化方向,具體研究方向如下:
能否執(zhí)行復(fù)雜長時序靈巧任務(wù);推理能力、語義泛化以及空間理解是否有所增強(qiáng);能否快速適應(yīng)新任務(wù);能否適配到不同實體形態(tài)的的機(jī)器人。
1)長時序靈巧操作任務(wù)
研究人員選擇了6個高難度的長時序任務(wù)來測試經(jīng)過小規(guī)模高質(zhì)量數(shù)據(jù)集訓(xùn)練微調(diào)后的Gemini Robotics模型。這六項任務(wù)分別為:折紙狐貍”、“打包午餐盒”、“拼寫游戲”、“玩紙牌游戲”、“夾取豌豆”、“舀堅果”。
Gemini Robotics 在 ALOHA 機(jī)器人平臺上成功完成多種長時序靈巧任務(wù)
4類模型執(zhí)行6項任務(wù)的成功率對比
實驗結(jié)果表明:
經(jīng)過相同數(shù)據(jù)微調(diào)后,從執(zhí)行6項任務(wù)執(zhí)行的成功率來看,經(jīng)過微調(diào)后的Gemini Robotics專用化模型明顯要優(yōu)于經(jīng)過微調(diào)的兩個基線模型【Multi-task diffusion(specialist) 和 π0 re-implement (specialist))】。
尤其在“舀堅果”、“打包午餐盒”、“玩紙牌游戲”以及“拼寫游戲”這四項任務(wù)中,經(jīng)過微調(diào)后的Gemini Robotics專用化模型執(zhí)行任務(wù)的成功率達(dá)到了80%以上。
2)單步推理、語義泛化以及空間理解能力增強(qiáng)
研究人員將增強(qiáng)推理版本的Gemini Robotics 與未經(jīng)微調(diào)的原始基礎(chǔ) Gemini Robotics 模型進(jìn)行了比較,測試場景均為訓(xùn)練分布外的真實機(jī)器人任務(wù)。
基礎(chǔ)Gemini Robotics 模型與增強(qiáng)推理版本在真實世界評估任務(wù)中的成功率對比
實驗結(jié)果顯示:
在真實世界的分布外任務(wù)中,推理增強(qiáng)版Gemini Robotics在單步推理、語義知識及空間理解的任務(wù)中的成功率獲得顯著提升。
另外,實驗還表明,推理增強(qiáng)版Gemini Robotics模型還可輸出類似人類思維的可解釋中間步驟(與Gemini Robotics-ER的具身推理軌跡高度吻合),大幅提升模型可解釋性。如下圖所示的關(guān)鍵點(diǎn)軌跡可視化,即為模型內(nèi)部思維鏈的具象化映射。
推理增強(qiáng)版Gemini Robotics模型思維鏈預(yù)測軌跡可視化
備注:紅色與藍(lán)色軌跡分別表示模型利用具身推理知識,對左臂(紅)和右臂(藍(lán))未來1秒運(yùn)動路徑的預(yù)測結(jié)果。
3)快速適應(yīng)新任務(wù)
機(jī)器人基礎(chǔ)模型通過利用預(yù)先獲取的機(jī)器人動作和物理交互常識,有望實現(xiàn)快速任務(wù)學(xué)習(xí)。
為了驗證此結(jié)論,研究人員從之前的長時序任務(wù)中選取了8個子任務(wù),并對基礎(chǔ)模型微調(diào),來觀察每個任務(wù)的平均成功率隨演示次數(shù)的變化情況。
各任務(wù)平均成功率隨演示次數(shù)的變化曲線
實驗結(jié)果顯示:
8項任務(wù)中有7項僅需至多100次演示(相當(dāng)于15分鐘至1小時,具體取決于任務(wù)復(fù)雜度),微調(diào)后Gemini Robotics專用模型成功率便已超過70%。
在其中的2項任務(wù)中(“放容器到午餐盒”和“放入生菜”),微調(diào)后的Gemini Robotics專用模型的任務(wù)成功率達(dá)到100%。
在“折紙狐貍:第一折"、“放容器到午餐盒”和“午餐盒拉鏈閉合”這3項復(fù)雜任務(wù)中,微調(diào)后的Gemini Robotics專用模型執(zhí)行任務(wù)的成功率明顯優(yōu)于基線模型。
在“放入生菜”、“澆沙拉醬”和“抽紙牌”這3項相對簡單任務(wù)中,微調(diào)后的π0 re-implement專用模型表現(xiàn)優(yōu)異,在100次演示后,任務(wù)成功率達(dá)到100%。π0-reimplement 的表現(xiàn)略微優(yōu)于 Gemini Robotics。
結(jié)論:強(qiáng)大的視覺語言模型(VLM)主干網(wǎng)絡(luò)能將豐富多元的機(jī)器人動作數(shù)據(jù)轉(zhuǎn)化為對物理交互的深度理解,這是實現(xiàn)新任務(wù)快速學(xué)習(xí)的關(guān)鍵所在。
4)適配新的機(jī)器人形態(tài)
在此次實驗中,研究人員探索基于ALOHA 2平臺動作數(shù)據(jù)訓(xùn)練的Gemini Robotics模型,如何通過少量目標(biāo)平臺數(shù)據(jù)高效適配新實體形態(tài)。
新的實體形態(tài)機(jī)器人實驗對象包括:配備平行夾爪的雙臂Franka機(jī)器人和Apptronik公司研發(fā)的配置五指靈巧手的全尺寸人形機(jī)器人Apollo。
Gemini Robotics模型可經(jīng)微調(diào)操控不同機(jī)器人
備注:上圖為Apollo人形機(jī)器人封裝午餐袋。下圖為雙臂工業(yè)機(jī)器人裝配工業(yè)橡膠帶至滑輪系統(tǒng)。
當(dāng)Gemini Robotics適配到雙臂Franka機(jī)器人新實體形態(tài)后的泛化指標(biāo)細(xì)分
實驗結(jié)果顯示:
當(dāng)Gemini Robotics模型適配到新形態(tài)實體機(jī)器人(雙臂 Franka 機(jī)器人)后,在視覺泛化和動作泛化測試上:
在分布內(nèi)任務(wù)上,執(zhí)行任務(wù)成功率持平或略優(yōu)于先進(jìn)的單任務(wù)擴(kuò)散策略;
在分布外任務(wù)上,執(zhí)行任務(wù)成功率明顯優(yōu)于先進(jìn)的單任務(wù)擴(kuò)散策略;
這在一定程度上表明,經(jīng)過針對新形態(tài)實體機(jī)器人的微調(diào),Gemini Robotics模型能夠成功的將其泛化能力遷移到不同形態(tài)的機(jī)器人。
結(jié)語
Gemini Robotics模型在精細(xì)的柔性布料操作、鉸接物體精準(zhǔn)操控等多樣化任務(wù)中展現(xiàn)突出能力。研究人員把該模型能力突出的原因歸結(jié)于:
強(qiáng)大的視覺語言模型,具備增強(qiáng)的具身推理能力;
針對機(jī)器人任務(wù),采用大規(guī)模機(jī)器人動作數(shù)據(jù)與多樣化的非機(jī)器人數(shù)據(jù)的特定訓(xùn)練方案;
專為低延遲機(jī)器人控制設(shè)計的獨(dú)特架構(gòu)。
Gemini Robotics模型的關(guān)鍵優(yōu)勢在于:成功繼承Gemini Robotics-ER的具身推理特性,能高效遵循開放詞匯指令,并展現(xiàn)強(qiáng)大的零樣本泛化能力。通過微調(diào)實現(xiàn)專項適應(yīng),該模型在新任務(wù)/新實體形態(tài)中達(dá)成較高操作精度,并在挑戰(zhàn)性場景中保持泛化能力。
此外,盡管Gemini Robotics 的初步實驗結(jié)果顯示出了令人期待的泛化能力,但但谷歌研究人員表示,未來工作將會繼續(xù)聚焦于以下幾個關(guān)鍵領(lǐng)域:
1)提升Gemini Robotics模型處理更復(fù)雜場景下的能力。這類場景需要模型同時具備多步推理和精確靈巧操作的復(fù)合能力,尤其是在應(yīng)對從未接觸過的全新場景時。
2)構(gòu)建仿真驅(qū)動數(shù)據(jù)引擎提升 VLA 模型的能力。利用仿真生成視覺多樣化且接觸密集型數(shù)據(jù),發(fā)展面向現(xiàn)實遷移的視覺-語言-動作模型訓(xùn)練范式。
3)擴(kuò)展多具身實驗,減少模型適配新形態(tài)機(jī)器人所需的數(shù)據(jù)量,最終實現(xiàn)零樣本跨機(jī)器人實體形態(tài)的能力遷移。
原文標(biāo)題 : 谷歌具身智能VLA大模型 —— Gemini Robotics : 將人工智能帶入到物理世界

發(fā)表評論
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
7月8日立即報名>> 【在線會議】英飛凌新一代智能照明方案賦能綠色建筑與工業(yè)互聯(lián)
-
7月22-29日立即報名>> 【線下論壇】第三屆安富利汽車生態(tài)圈峰會
-
7月31日免費(fèi)預(yù)約>> OFweek 2025具身機(jī)器人動力電池技術(shù)應(yīng)用大會
-
7.30-8.1火熱報名中>> 全數(shù)會2025(第六屆)機(jī)器人及智能工廠展
-
免費(fèi)參會立即報名>> 7月30日- 8月1日 2025全數(shù)會工業(yè)芯片與傳感儀表展
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書》
推薦專題
- 1 AI 眼鏡讓百萬 APP「集體失業(yè)」?
- 2 一文看懂視覺語言動作模型(VLA)及其應(yīng)用
- 3 “支付+”時代,支付即生態(tài) | 2025中國跨境支付十大趨勢
- 4 中國最具實力AI公司TOP10
- 5 豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
- 6 國家數(shù)據(jù)局局長劉烈宏調(diào)研格創(chuàng)東智
- 7 AI的夏天:第四范式VS云從科技VS地平線機(jī)器人
- 8 上海跑出80億超級獨(dú)角獸:獲上市公司戰(zhàn)投,干人形機(jī)器人
- 9 一場大廠關(guān)于人形機(jī)器人的“生態(tài)暗戰(zhàn)”
- 10 深圳跑出40億超級隱形冠軍:賣機(jī)器人年入6.1億,港股上市