久久精品国产无限资源,胸大美女又黄的网站,91成人啪国产啪永久地址

當(dāng)前位置： OFweek 人工智能網(wǎng) > 機(jī)器學(xué)習(xí) > 正文

谷歌具身智能VLA大模型 —— Gemini Robotics : 將人工智能帶入到物理世界

2025-06-25 13:46

機(jī)器覺醒時代

關(guān)注

引言

真正實用的機(jī)器人需要能夠理解周圍的物理世界，并以可靠且安全的方式與之交互。也就是說，基于物理實體的AI智能體必須具備魯棒的人類級具身推理能力，即包含在物理具身世界中操作和運(yùn)行所需的基礎(chǔ)概念的世界知識體系。

作為人類，我們往往將具身推理能力視為理所當(dāng)然—— 例如感知環(huán)境的 3D 結(jié)構(gòu)、解析復(fù)雜的物體間關(guān)系理以及直覺物理規(guī)律理解 —— 但這些能力卻是構(gòu)成具身AI智能體的能力基石。

此外，具身AI智能體更需突破被動理解現(xiàn)實世界空間與物理概念的局限，通過行動直接影響外部環(huán)境，從而彌合被動感知與主動物理交互之間的鴻溝。

隨著機(jī)器人硬件的革新，構(gòu)建能執(zhí)行高靈巧任務(wù)的具身AI智能體迎來歷史性機(jī)遇。2025年3月12日，谷歌Deep Mind發(fā)布了基于多模態(tài)通用大模型Gemini2.0構(gòu)建的兩類大模型：Gemini Robotics（VLA）和Gemini Robotics-ER（VLM）。

Gemini Robotics和Gemini Robotics-ER

1. Gemini Robotics-ER

Gemini Robotics - ER（VLM模型）,其中ER 代表 “embodied reasoning”（具身推理），將Gemini的多模態(tài)推理能力擴(kuò)展至物理世界，具備增強(qiáng)的空間和時間理解能力，包括物體檢測、指向、軌跡預(yù)測和抓取預(yù)測等2D空間概念理解能力，以及多視角3D場景理解和3D邊界框檢測等3D空間推理能力。

多視角3D場景理解：通過關(guān)聯(lián)不同視角的2D點(diǎn)來理解3D場景

1）支持零樣本和少樣本機(jī)器人控制

論文中，研究人員使用Gemini 2.0 Flash和Gemini Robotics-ER兩類模型，分別采用兩種不同的機(jī)器人控制方法進(jìn)行實驗。

零樣本（zero-shot）機(jī)器人控制——通過代碼生成控制機(jī)器人。

少樣本（few-shot）控制——通過上下文學(xué)習(xí)（in-context learning, ICL），基于少量示例適應(yīng)新行為。

兩類模型在模擬環(huán)境中執(zhí)行一組操作任務(wù)的結(jié)果對比

備注：這些任務(wù)涵蓋了不同難度和物體類型，從簡單的抓取任務(wù)（如抬起香蕉）到長時序、多步驟、多任務(wù)的操作（如將玩具放入盒子并關(guān)閉盒子）。

試驗結(jié)果表明，Gemini Robotics-ER 在兩種控制方式下的任務(wù)完成率均表現(xiàn)良好。Gemini Robotics-ER能夠利用上下文學(xué)習(xí)（in-context learning），僅憑少量示例就能提高更復(fù)雜的靈巧雙臂任務(wù)（如折疊衣物）的執(zhí)行能力，并能夠直接輸出末端執(zhí)行器的軌跡以完成任務(wù)。

在零樣本機(jī)器人控制方面，Gemini Robotics-ER任務(wù)完成率相比Gemini 2.0 提高了近2倍。

在少樣本機(jī)器人控制方面，Gemini 2.0 Flash 在模擬環(huán)境中平均成功率達(dá)到51%。然而，Gemini Robotics-ER 在模擬環(huán)境中的平均成功率達(dá)到 65%。

另外，實驗還表明，模型的具身推理能力與下游機(jī)器人控制的性能之間存在強(qiáng)相關(guān)性。Gemini Robotics-ER 可以直接用于機(jī)器人控制，包括：作為感知模塊（如物體檢測），規(guī)劃模塊（如軌跡生成）以及通過生成和執(zhí)行代碼來協(xié)調(diào)機(jī)器人運(yùn)動。

不過，Gemini Robotics-ER作為VLM模型，也存在局限性，尤其是在更復(fù)雜的靈巧操作任務(wù)上。這主要是因為需要額外的中間步驟來將模型的具身推理能力與機(jī)器人執(zhí)行動作關(guān)聯(lián)起來。

2. Gemini Robotics

Gemini Robotics是一種端到端的VLA（視覺-語言-行動）模型，將強(qiáng)大的具身推理先驗與現(xiàn)實世界機(jī)器人的靈巧低級控制相結(jié)合，能夠在不同環(huán)境下解決靈巧任務(wù)，并支持不同的機(jī)器人形態(tài)。

Gemini Robotics是Gemini Robotics-ER的一個衍生版本，采用了雙組件架構(gòu)：

Gemini Robotics 主干網(wǎng)絡(luò)：托管在云端，負(fù)責(zé)視覺-語言推理。

Gemini Robotics 解碼器：運(yùn)行在機(jī)器人控制器上，負(fù)責(zé)動作執(zhí)行。

Gemini Robotics 主干網(wǎng)絡(luò)由Gemini Robotics-ER的一個蒸餾版本（distilled version）組成，其查詢-響應(yīng)延遲已優(yōu)化至小于160ms（相比原始模型減少了數(shù)秒）。為了補(bǔ)償主干網(wǎng)絡(luò)的延遲，Gemini Robotics解碼器在本地執(zhí)行低級控制。

Gemini Robotics模型架構(gòu)概覽

Gemini Robotics 模型實驗驗證結(jié)果

1. 基于原始Gemini Robotics 基礎(chǔ)模型進(jìn)行測試

谷歌研究人員將Gemini Robotics 與π0 re-implement和多任務(wù)擴(kuò)散策略模型（Multi-task Diffusion Policy）這兩種最先進(jìn)的基線模型進(jìn)行對比試驗。所有模型均在開箱即用（out of the box）的條件下進(jìn)行評測，即不進(jìn)行任何任務(wù)特定的微調(diào)或額外提示。

實驗結(jié)果顯示：

Gemini Robotics 在靈巧操作、語言指令理解以及泛化能力方面表現(xiàn)出色。

1）靈巧操作

在該組實驗中，研究人員從數(shù)據(jù)集中隨機(jī)抽取20個任務(wù)進(jìn)行測試，覆蓋洗衣房、廚房、辦公桌以及其它日�；顒訄鼍啊�

實驗結(jié)果表明，Gemini Robotics在一半的任務(wù)中表現(xiàn)出色，成功率超過80%。尤其是在可變形物體操控方面表現(xiàn)尤為優(yōu)異（如“折疊粉色布料”、“纏繞耳機(jī)線”），而基線模型在這些任務(wù)上表現(xiàn)不佳。

三個模型在20個不同任務(wù)執(zhí)行過程中的成功率對比

問題點(diǎn)在于：某些復(fù)雜的高難度靈巧任務(wù)（比如“插入鞋帶”），未經(jīng)過微調(diào)的Gemini Robotics模型執(zhí)行任務(wù)的成功率依然然很低。

2）語言指令理解

在該組實驗中，研究人員選取了25條語言指令，并在5個不同的評估場景中進(jìn)行測試，包括訓(xùn)練場景以及包含未見過物體和容器的全新場景。

實驗結(jié)果表明，在具有挑戰(zhàn)性的場景（包含新物體和細(xì)粒度指令的任務(wù)，如“將牙膏放入盥洗架底部隔間” ），Gemini Robotics 的表現(xiàn)優(yōu)于所有基線模型。

針對新物體的帶詳細(xì)指令的 “拾取” 和 “拾取并放置” 任務(wù)的成功率

3）泛化能力

研究人員評估了Gemini Robotics模型在指令泛化、視覺泛化以及動作泛化三個維度上的泛化能力。

三個模型泛化能力試驗結(jié)果對比

Gemini Robotics在所有三種泛化類型上均明顯優(yōu)于基線模型，并能更有效地適應(yīng)各種變化。即使在基線模型發(fā)生災(zāi)難性失�。ㄈ缬龅叫抡Z言的指令）的情況下，Gemini Robotics 仍能取得非零成功率。

研究人員推測，Gemini Robotics較強(qiáng)的泛化能力依賴于以下三種原因：

更強(qiáng)大、更高容量的VLM（視覺-語言模型）主干網(wǎng)絡(luò)；Gemini 2.0 中最先進(jìn)的視覺編碼器；多樣化的訓(xùn)練數(shù)據(jù)共同提升了模型的泛化能力。

2. 基于微調(diào)后的Gemini Robotics專用模型進(jìn)行測試

研究人員通過對Gemini Robotics模型在小規(guī)模高質(zhì)量數(shù)據(jù)集上進(jìn)行微調(diào)，進(jìn)一步測試模型的極限能力，并探索未來可能的優(yōu)化方向，具體研究方向如下：

能否執(zhí)行復(fù)雜長時序靈巧任務(wù)；推理能力、語義泛化以及空間理解是否有所增強(qiáng)；能否快速適應(yīng)新任務(wù)；能否適配到不同實體形態(tài)的的機(jī)器人。

1）長時序靈巧操作任務(wù)

研究人員選擇了6個高難度的長時序任務(wù)來測試經(jīng)過小規(guī)模高質(zhì)量數(shù)據(jù)集訓(xùn)練微調(diào)后的Gemini Robotics模型。這六項任務(wù)分別為：折紙狐貍”、“打包午餐盒”、“拼寫游戲”、“玩紙牌游戲”、“夾取豌豆”、“舀堅果”。

Gemini Robotics 在 ALOHA 機(jī)器人平臺上成功完成多種長時序靈巧任務(wù)

4類模型執(zhí)行6項任務(wù)的成功率對比

實驗結(jié)果表明：

經(jīng)過相同數(shù)據(jù)微調(diào)后，從執(zhí)行6項任務(wù)執(zhí)行的成功率來看，經(jīng)過微調(diào)后的Gemini Robotics專用化模型明顯要優(yōu)于經(jīng)過微調(diào)的兩個基線模型【Multi-task diffusion（specialist）和 π0 re-implement （specialist））】。

尤其在“舀堅果”、“打包午餐盒”、“玩紙牌游戲”以及“拼寫游戲”這四項任務(wù)中，經(jīng)過微調(diào)后的Gemini Robotics專用化模型執(zhí)行任務(wù)的成功率達(dá)到了80%以上。

2）單步推理、語義泛化以及空間理解能力增強(qiáng)

研究人員將增強(qiáng)推理版本的Gemini Robotics 與未經(jīng)微調(diào)的原始基礎(chǔ) Gemini Robotics 模型進(jìn)行了比較，測試場景均為訓(xùn)練分布外的真實機(jī)器人任務(wù)。

基礎(chǔ)Gemini Robotics 模型與增強(qiáng)推理版本在真實世界評估任務(wù)中的成功率對比

實驗結(jié)果顯示：

在真實世界的分布外任務(wù)中，推理增強(qiáng)版Gemini Robotics在單步推理、語義知識及空間理解的任務(wù)中的成功率獲得顯著提升。

另外，實驗還表明，推理增強(qiáng)版Gemini Robotics模型還可輸出類似人類思維的可解釋中間步驟（與Gemini Robotics-ER的具身推理軌跡高度吻合），大幅提升模型可解釋性。如下圖所示的關(guān)鍵點(diǎn)軌跡可視化，即為模型內(nèi)部思維鏈的具象化映射。

推理增強(qiáng)版Gemini Robotics模型思維鏈預(yù)測軌跡可視化

備注：紅色與藍(lán)色軌跡分別表示模型利用具身推理知識，對左臂（紅）和右臂（藍(lán)）未來1秒運(yùn)動路徑的預(yù)測結(jié)果。

3）快速適應(yīng)新任務(wù)

機(jī)器人基礎(chǔ)模型通過利用預(yù)先獲取的機(jī)器人動作和物理交互常識，有望實現(xiàn)快速任務(wù)學(xué)習(xí)。

為了驗證此結(jié)論，研究人員從之前的長時序任務(wù)中選取了8個子任務(wù)，并對基礎(chǔ)模型微調(diào)，來觀察每個任務(wù)的平均成功率隨演示次數(shù)的變化情況。

各任務(wù)平均成功率隨演示次數(shù)的變化曲線

實驗結(jié)果顯示：

8項任務(wù)中有7項僅需至多100次演示（相當(dāng)于15分鐘至1小時，具體取決于任務(wù)復(fù)雜度），微調(diào)后Gemini Robotics專用模型成功率便已超過70%。

在其中的2項任務(wù)中（“放容器到午餐盒”和“放入生菜”），微調(diào)后的Gemini Robotics專用模型的任務(wù)成功率達(dá)到100%。

在“折紙狐貍：第一折"、“放容器到午餐盒”和“午餐盒拉鏈閉合”這3項復(fù)雜任務(wù)中，微調(diào)后的Gemini Robotics專用模型執(zhí)行任務(wù)的成功率明顯優(yōu)于基線模型。

在“放入生菜”、“澆沙拉醬”和“抽紙牌”這3項相對簡單任務(wù)中，微調(diào)后的π0 re-implement專用模型表現(xiàn)優(yōu)異，在100次演示后，任務(wù)成功率達(dá)到100%。π0-reimplement 的表現(xiàn)略微優(yōu)于 Gemini Robotics。

結(jié)論：強(qiáng)大的視覺語言模型（VLM）主干網(wǎng)絡(luò)能將豐富多元的機(jī)器人動作數(shù)據(jù)轉(zhuǎn)化為對物理交互的深度理解，這是實現(xiàn)新任務(wù)快速學(xué)習(xí)的關(guān)鍵所在。

4）適配新的機(jī)器人形態(tài)

在此次實驗中，研究人員探索基于ALOHA 2平臺動作數(shù)據(jù)訓(xùn)練的Gemini Robotics模型，如何通過少量目標(biāo)平臺數(shù)據(jù)高效適配新實體形態(tài)。

新的實體形態(tài)機(jī)器人實驗對象包括：配備平行夾爪的雙臂Franka機(jī)器人和Apptronik公司研發(fā)的配置五指靈巧手的全尺寸人形機(jī)器人Apollo。

Gemini Robotics模型可經(jīng)微調(diào)操控不同機(jī)器人

備注：上圖為Apollo人形機(jī)器人封裝午餐袋。下圖為雙臂工業(yè)機(jī)器人裝配工業(yè)橡膠帶至滑輪系統(tǒng)。

當(dāng)Gemini Robotics適配到雙臂Franka機(jī)器人新實體形態(tài)后的泛化指標(biāo)細(xì)分

實驗結(jié)果顯示：

當(dāng)Gemini Robotics模型適配到新形態(tài)實體機(jī)器人（雙臂 Franka 機(jī)器人）后，在視覺泛化和動作泛化測試上：

在分布內(nèi)任務(wù)上，執(zhí)行任務(wù)成功率持平或略優(yōu)于先進(jìn)的單任務(wù)擴(kuò)散策略；

在分布外任務(wù)上，執(zhí)行任務(wù)成功率明顯優(yōu)于先進(jìn)的單任務(wù)擴(kuò)散策略；

這在一定程度上表明，經(jīng)過針對新形態(tài)實體機(jī)器人的微調(diào)，Gemini Robotics模型能夠成功的將其泛化能力遷移到不同形態(tài)的機(jī)器人。

結(jié)語

Gemini Robotics模型在精細(xì)的柔性布料操作、鉸接物體精準(zhǔn)操控等多樣化任務(wù)中展現(xiàn)突出能力。研究人員把該模型能力突出的原因歸結(jié)于：

強(qiáng)大的視覺語言模型，具備增強(qiáng)的具身推理能力；

針對機(jī)器人任務(wù)，采用大規(guī)模機(jī)器人動作數(shù)據(jù)與多樣化的非機(jī)器人數(shù)據(jù)的特定訓(xùn)練方案；

專為低延遲機(jī)器人控制設(shè)計的獨(dú)特架構(gòu)。

Gemini Robotics模型的關(guān)鍵優(yōu)勢在于：成功繼承Gemini Robotics-ER的具身推理特性，能高效遵循開放詞匯指令，并展現(xiàn)強(qiáng)大的零樣本泛化能力。通過微調(diào)實現(xiàn)專項適應(yīng)，該模型在新任務(wù)/新實體形態(tài)中達(dá)成較高操作精度，并在挑戰(zhàn)性場景中保持泛化能力。

此外，盡管Gemini Robotics 的初步實驗結(jié)果顯示出了令人期待的泛化能力，但但谷歌研究人員表示，未來工作將會繼續(xù)聚焦于以下幾個關(guān)鍵領(lǐng)域：

1）提升Gemini Robotics模型處理更復(fù)雜場景下的能力。這類場景需要模型同時具備多步推理和精確靈巧操作的復(fù)合能力，尤其是在應(yīng)對從未接觸過的全新場景時。

2）構(gòu)建仿真驅(qū)動數(shù)據(jù)引擎提升 VLA 模型的能力。利用仿真生成視覺多樣化且接觸密集型數(shù)據(jù)，發(fā)展面向現(xiàn)實遷移的視覺-語言-動作模型訓(xùn)練范式。

3）擴(kuò)展多具身實驗，減少模型適配新形態(tài)機(jī)器人所需的數(shù)據(jù)量，最終實現(xiàn)零樣本跨機(jī)器人實體形態(tài)的能力遷移。

原文標(biāo)題 : 谷歌具身智能VLA大模型 —— Gemini Robotics : 將人工智能帶入到物理世界