訂閱
糾錯
加入自媒體

谷歌具身智能VLA大模型 —— Gemini Robotics : 將人工智能帶入到物理世界

引言

真正實用的機(jī)器人需要能夠理解周圍的物理世界,并以可靠且安全的方式與之交互。也就是說,基于物理實體的AI智能體必須具備魯棒的人類級具身推理能力,即包含在物理具身世界中操作和運(yùn)行所需的基礎(chǔ)概念的世界知識體系。

作為人類,我們往往將具身推理能力視為理所當(dāng)然—— 例如感知環(huán)境的 3D 結(jié)構(gòu)、解析復(fù)雜的物體間關(guān)系理以及直覺物理規(guī)律理解 —— 但這些能力卻是構(gòu)成具身AI智能體的能力基石。

此外,具身AI智能體更需突破被動理解現(xiàn)實世界空間與物理概念的局限,通過行動直接影響外部環(huán)境,從而彌合被動感知與主動物理交互之間的鴻溝。

隨著機(jī)器人硬件的革新,構(gòu)建能執(zhí)行高靈巧任務(wù)的具身AI智能體迎來歷史性機(jī)遇。2025年3月12日,谷歌Deep Mind發(fā)布了基于多模態(tài)通用大模型Gemini2.0構(gòu)建的兩類大模型:Gemini Robotics(VLA)和Gemini Robotics-ER(VLM)。

Gemini Robotics和Gemini Robotics-ER

1. Gemini Robotics-ER

Gemini Robotics - ER(VLM模型),其中ER 代表 “embodied reasoning”(具身推理),將Gemini的多模態(tài)推理能力擴(kuò)展至物理世界,具備增強(qiáng)的空間和時間理解能力,包括物體檢測、指向、軌跡預(yù)測和抓取預(yù)測等2D空間概念理解能力,以及多視角3D場景理解和3D邊界框檢測等3D空間推理能力。

多視角3D場景理解: 通過關(guān)聯(lián)不同視角的2D點(diǎn)來理解3D場景

1)支持零樣本和少樣本機(jī)器人控制

論文中,研究人員使用Gemini 2.0 Flash和Gemini Robotics-ER兩類模型,分別采用兩種不同的機(jī)器人控制方法進(jìn)行實驗。

零樣本(zero-shot)機(jī)器人控制——通過代碼生成控制機(jī)器人。

少樣本(few-shot)控制——通過上下文學(xué)習(xí)(in-context learning, ICL),基于少量示例適應(yīng)新行為。

兩類模型在模擬環(huán)境中執(zhí)行一組操作任務(wù)的結(jié)果對比

備注:這些任務(wù)涵蓋了不同難度和物體類型,從簡單的抓取任務(wù)(如抬起香蕉)到長時序、多步驟、多任務(wù)的操作(如將玩具放入盒子并關(guān)閉盒子)。

試驗結(jié)果表明,Gemini Robotics-ER 在兩種控制方式下的任務(wù)完成率均表現(xiàn)良好。Gemini Robotics-ER能夠利用上下文學(xué)習(xí)(in-context learning),僅憑少量示例就能提高更復(fù)雜的靈巧雙臂任務(wù)(如折疊衣物)的執(zhí)行能力,并能夠直接輸出末端執(zhí)行器的軌跡以完成任務(wù)。

在零樣本機(jī)器人控制方面,Gemini Robotics-ER任務(wù)完成率相比Gemini 2.0 提高了近2倍。

在少樣本機(jī)器人控制方面,Gemini 2.0 Flash 在模擬環(huán)境中平均成功率達(dá)到51%。然而,Gemini Robotics-ER 在模擬環(huán)境中的平均成功率達(dá)到 65%。

另外,實驗還表明,模型的具身推理能力與下游機(jī)器人控制的性能之間存在強(qiáng)相關(guān)性。Gemini Robotics-ER 可以直接用于機(jī)器人控制,包括:作為感知模塊(如物體檢測),規(guī)劃模塊(如軌跡生成)以及通過生成和執(zhí)行代碼來協(xié)調(diào)機(jī)器人運(yùn)動。

不過,Gemini Robotics-ER作為VLM模型,也存在局限性,尤其是在更復(fù)雜的靈巧操作任務(wù)上。這主要是因為需要額外的中間步驟來將模型的具身推理能力與機(jī)器人執(zhí)行動作關(guān)聯(lián)起來。

2. Gemini Robotics

Gemini Robotics是一種端到端的VLA(視覺-語言-行動)模型,將強(qiáng)大的具身推理先驗與現(xiàn)實世界機(jī)器人的靈巧低級控制相結(jié)合,能夠在不同環(huán)境下解決靈巧任務(wù),并支持不同的機(jī)器人形態(tài)。

Gemini Robotics是Gemini Robotics-ER的一個衍生版本,采用了雙組件架構(gòu):

Gemini Robotics 主干網(wǎng)絡(luò):托管在云端,負(fù)責(zé)視覺-語言推理。

Gemini Robotics 解碼器:運(yùn)行在機(jī)器人控制器上,負(fù)責(zé)動作執(zhí)行。

Gemini Robotics 主干網(wǎng)絡(luò)由Gemini Robotics-ER的一個蒸餾版本(distilled version)組成,其查詢-響應(yīng)延遲已優(yōu)化至小于160ms(相比原始模型減少了數(shù)秒)。為了補(bǔ)償主干網(wǎng)絡(luò)的延遲,Gemini Robotics解碼器在本地執(zhí)行低級控制。

Gemini Robotics模型架構(gòu)概覽

Gemini Robotics 模型實驗驗證結(jié)果

1. 基于原始Gemini Robotics 基礎(chǔ)模型進(jìn)行測試

谷歌研究人員將Gemini Robotics 與π0 re-implement和多任務(wù)擴(kuò)散策略模型(Multi-task Diffusion Policy)這兩種最先進(jìn)的基線模型進(jìn)行對比試驗。所有模型均在開箱即用(out of the box)的條件下進(jìn)行評測,即不進(jìn)行任何任務(wù)特定的微調(diào)或額外提示。

實驗結(jié)果顯示:

Gemini Robotics 在靈巧操作、語言指令理解以及泛化能力方面表現(xiàn)出色。

1)靈巧操作

在該組實驗中,研究人員從數(shù)據(jù)集中隨機(jī)抽取20個任務(wù)進(jìn)行測試,覆蓋洗衣房、廚房、辦公桌以及其它日;顒訄鼍啊

實驗結(jié)果表明,Gemini Robotics在一半的任務(wù)中表現(xiàn)出色,成功率超過80%。尤其是在可變形物體操控方面表現(xiàn)尤為優(yōu)異(如“折疊粉色布料”、“纏繞耳機(jī)線”),而基線模型在這些任務(wù)上表現(xiàn)不佳。

三個模型在20個不同任務(wù)執(zhí)行過程中的成功率對比

問題點(diǎn)在于:某些復(fù)雜的高難度靈巧任務(wù)(比如“插入鞋帶”) ,未經(jīng)過微調(diào)的Gemini Robotics模型執(zhí)行任務(wù)的成功率依然然很低。

2)語言指令理解

在該組實驗中,研究人員選取了25條語言指令,并在5個不同的評估場景中進(jìn)行測試,包括訓(xùn)練場景以及包含未見過物體和容器的全新場景。

實驗結(jié)果表明,在具有挑戰(zhàn)性的場景(包含新物體和細(xì)粒度指令的任務(wù),如“將牙膏放入盥洗架底部隔間” ),Gemini Robotics 的表現(xiàn)優(yōu)于所有基線模型。

針對新物體的帶詳細(xì)指令的 “拾取” 和 “拾取并放置” 任務(wù)的成功率

3)泛化能力

研究人員評估了Gemini Robotics模型在指令泛化、視覺泛化以及動作泛化三個維度上的泛化能力。

三個模型泛化能力試驗結(jié)果對比

Gemini Robotics在所有三種泛化類型上均明顯優(yōu)于基線模型,并能更有效地適應(yīng)各種變化。即使在基線模型發(fā)生災(zāi)難性失。ㄈ缬龅叫抡Z言的指令)的情況下,Gemini Robotics 仍能取得非零成功率。

研究人員推測,Gemini Robotics較強(qiáng)的泛化能力依賴于以下三種原因:

更強(qiáng)大、更高容量的VLM(視覺-語言模型)主干網(wǎng)絡(luò);Gemini 2.0 中最先進(jìn)的視覺編碼器;多樣化的訓(xùn)練數(shù)據(jù)共同提升了模型的泛化能力。

2. 基于微調(diào)后的Gemini Robotics專用模型進(jìn)行測試

研究人員通過對Gemini Robotics模型在小規(guī)模高質(zhì)量數(shù)據(jù)集上進(jìn)行微調(diào),進(jìn)一步測試模型的極限能力,并探索未來可能的優(yōu)化方向,具體研究方向如下:

能否執(zhí)行復(fù)雜長時序靈巧任務(wù);推理能力、語義泛化以及空間理解是否有所增強(qiáng);能否快速適應(yīng)新任務(wù);能否適配到不同實體形態(tài)的的機(jī)器人。

1)長時序靈巧操作任務(wù)

研究人員選擇了6個高難度的長時序任務(wù)來測試經(jīng)過小規(guī)模高質(zhì)量數(shù)據(jù)集訓(xùn)練微調(diào)后的Gemini Robotics模型。這六項任務(wù)分別為:折紙狐貍”、“打包午餐盒”、“拼寫游戲”、“玩紙牌游戲”、“夾取豌豆”、“舀堅果”。

Gemini Robotics 在 ALOHA 機(jī)器人平臺上成功完成多種長時序靈巧任務(wù)

4類模型執(zhí)行6項任務(wù)的成功率對比

實驗結(jié)果表明:

經(jīng)過相同數(shù)據(jù)微調(diào)后,從執(zhí)行6項任務(wù)執(zhí)行的成功率來看,經(jīng)過微調(diào)后的Gemini Robotics專用化模型明顯要優(yōu)于經(jīng)過微調(diào)的兩個基線模型【Multi-task diffusion(specialist) 和 π0 re-implement (specialist))】。

尤其在“舀堅果”、“打包午餐盒”、“玩紙牌游戲”以及“拼寫游戲”這四項任務(wù)中,經(jīng)過微調(diào)后的Gemini Robotics專用化模型執(zhí)行任務(wù)的成功率達(dá)到了80%以上。

2)單步推理、語義泛化以及空間理解能力增強(qiáng)

研究人員將增強(qiáng)推理版本的Gemini Robotics 與未經(jīng)微調(diào)的原始基礎(chǔ) Gemini Robotics 模型進(jìn)行了比較,測試場景均為訓(xùn)練分布外的真實機(jī)器人任務(wù)。

基礎(chǔ)Gemini Robotics 模型與增強(qiáng)推理版本在真實世界評估任務(wù)中的成功率對比

實驗結(jié)果顯示:

在真實世界的分布外任務(wù)中,推理增強(qiáng)版Gemini Robotics在單步推理、語義知識及空間理解的任務(wù)中的成功率獲得顯著提升。

另外,實驗還表明,推理增強(qiáng)版Gemini Robotics模型還可輸出類似人類思維的可解釋中間步驟(與Gemini Robotics-ER的具身推理軌跡高度吻合),大幅提升模型可解釋性。如下圖所示的關(guān)鍵點(diǎn)軌跡可視化,即為模型內(nèi)部思維鏈的具象化映射。

推理增強(qiáng)版Gemini Robotics模型思維鏈預(yù)測軌跡可視化

備注:紅色與藍(lán)色軌跡分別表示模型利用具身推理知識,對左臂(紅)和右臂(藍(lán))未來1秒運(yùn)動路徑的預(yù)測結(jié)果。

3)快速適應(yīng)新任務(wù)

機(jī)器人基礎(chǔ)模型通過利用預(yù)先獲取的機(jī)器人動作和物理交互常識,有望實現(xiàn)快速任務(wù)學(xué)習(xí)。

為了驗證此結(jié)論,研究人員從之前的長時序任務(wù)中選取了8個子任務(wù),并對基礎(chǔ)模型微調(diào),來觀察每個任務(wù)的平均成功率隨演示次數(shù)的變化情況。

各任務(wù)平均成功率隨演示次數(shù)的變化曲線

實驗結(jié)果顯示:

8項任務(wù)中有7項僅需至多100次演示(相當(dāng)于15分鐘至1小時,具體取決于任務(wù)復(fù)雜度),微調(diào)后Gemini Robotics專用模型成功率便已超過70%。

在其中的2項任務(wù)中(“放容器到午餐盒”和“放入生菜”),微調(diào)后的Gemini Robotics專用模型的任務(wù)成功率達(dá)到100%。

在“折紙狐貍:第一折"、“放容器到午餐盒”和“午餐盒拉鏈閉合”這3項復(fù)雜任務(wù)中,微調(diào)后的Gemini Robotics專用模型執(zhí)行任務(wù)的成功率明顯優(yōu)于基線模型。

在“放入生菜”、“澆沙拉醬”和“抽紙牌”這3項相對簡單任務(wù)中,微調(diào)后的π0 re-implement專用模型表現(xiàn)優(yōu)異,在100次演示后,任務(wù)成功率達(dá)到100%。π0-reimplement 的表現(xiàn)略微優(yōu)于 Gemini Robotics。

結(jié)論:強(qiáng)大的視覺語言模型(VLM)主干網(wǎng)絡(luò)能將豐富多元的機(jī)器人動作數(shù)據(jù)轉(zhuǎn)化為對物理交互的深度理解,這是實現(xiàn)新任務(wù)快速學(xué)習(xí)的關(guān)鍵所在。

4)適配新的機(jī)器人形態(tài)

在此次實驗中,研究人員探索基于ALOHA 2平臺動作數(shù)據(jù)訓(xùn)練的Gemini Robotics模型,如何通過少量目標(biāo)平臺數(shù)據(jù)高效適配新實體形態(tài)。

新的實體形態(tài)機(jī)器人實驗對象包括:配備平行夾爪的雙臂Franka機(jī)器人和Apptronik公司研發(fā)的配置五指靈巧手的全尺寸人形機(jī)器人Apollo。

Gemini Robotics模型可經(jīng)微調(diào)操控不同機(jī)器人

備注:上圖為Apollo人形機(jī)器人封裝午餐袋。下圖為雙臂工業(yè)機(jī)器人裝配工業(yè)橡膠帶至滑輪系統(tǒng)。

當(dāng)Gemini Robotics適配到雙臂Franka機(jī)器人新實體形態(tài)后的泛化指標(biāo)細(xì)分

實驗結(jié)果顯示:

當(dāng)Gemini Robotics模型適配到新形態(tài)實體機(jī)器人(雙臂 Franka 機(jī)器人)后,在視覺泛化和動作泛化測試上:

在分布內(nèi)任務(wù)上,執(zhí)行任務(wù)成功率持平或略優(yōu)于先進(jìn)的單任務(wù)擴(kuò)散策略;

在分布外任務(wù)上,執(zhí)行任務(wù)成功率明顯優(yōu)于先進(jìn)的單任務(wù)擴(kuò)散策略;

這在一定程度上表明,經(jīng)過針對新形態(tài)實體機(jī)器人的微調(diào),Gemini Robotics模型能夠成功的將其泛化能力遷移到不同形態(tài)的機(jī)器人。

結(jié)語

Gemini Robotics模型在精細(xì)的柔性布料操作、鉸接物體精準(zhǔn)操控等多樣化任務(wù)中展現(xiàn)突出能力。研究人員把該模型能力突出的原因歸結(jié)于:

強(qiáng)大的視覺語言模型,具備增強(qiáng)的具身推理能力;

針對機(jī)器人任務(wù),采用大規(guī)模機(jī)器人動作數(shù)據(jù)與多樣化的非機(jī)器人數(shù)據(jù)的特定訓(xùn)練方案;

專為低延遲機(jī)器人控制設(shè)計的獨(dú)特架構(gòu)。

Gemini Robotics模型的關(guān)鍵優(yōu)勢在于:成功繼承Gemini Robotics-ER的具身推理特性,能高效遵循開放詞匯指令,并展現(xiàn)強(qiáng)大的零樣本泛化能力。通過微調(diào)實現(xiàn)專項適應(yīng),該模型在新任務(wù)/新實體形態(tài)中達(dá)成較高操作精度,并在挑戰(zhàn)性場景中保持泛化能力。

此外,盡管Gemini Robotics 的初步實驗結(jié)果顯示出了令人期待的泛化能力,但但谷歌研究人員表示,未來工作將會繼續(xù)聚焦于以下幾個關(guān)鍵領(lǐng)域:

1)提升Gemini Robotics模型處理更復(fù)雜場景下的能力。這類場景需要模型同時具備多步推理和精確靈巧操作的復(fù)合能力,尤其是在應(yīng)對從未接觸過的全新場景時。

2)構(gòu)建仿真驅(qū)動數(shù)據(jù)引擎提升 VLA 模型的能力。利用仿真生成視覺多樣化且接觸密集型數(shù)據(jù),發(fā)展面向現(xiàn)實遷移的視覺-語言-動作模型訓(xùn)練范式。

3)擴(kuò)展多具身實驗,減少模型適配新形態(tài)機(jī)器人所需的數(shù)據(jù)量,最終實現(xiàn)零樣本跨機(jī)器人實體形態(tài)的能力遷移。

       原文標(biāo)題 : 谷歌具身智能VLA大模型 —— Gemini Robotics : 將人工智能帶入到物理世界

聲明: 本文由入駐維科號的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號