做大腦、推新品、擴(kuò)量產(chǎn),稚暉君的智元想“活”成什么樣?
智元正踐行:以大腦為驅(qū)動(dòng),通過(guò)“一腦多形”快速部署于多種形態(tài)本體;以產(chǎn)品矩陣撬動(dòng)多場(chǎng)景落地,挖掘更多應(yīng)用可能性;以量產(chǎn)滿足需求,提速具身智能走近物理世界的腳步。
作者:呂鑫燚
編輯:狄鑫彤
出品:具身研習(xí)社
“稚暉君”神神秘秘預(yù)告要發(fā)布“好東西”后,智元機(jī)器人仿佛按下了“加速鍵”,帶來(lái)了不止一個(gè)新東西,但“夠不夠好”還要靜待時(shí)間給出答案。
首先,智元機(jī)器人發(fā)布了首個(gè)通用具身基座大模型“智元啟元大模型”(Genie Operator-1),該大模型主打四個(gè)優(yōu)勢(shì),基于人類視頻學(xué)習(xí);小樣本快速泛化;一腦多形;持續(xù)進(jìn)化。
緊接著,稚暉君更新視頻,正式發(fā)布雙足智能交互人形機(jī)器人靈犀X2,能像人一樣自然走路,甚至能騎自行車、踩滑板車。搭載了多模態(tài)交互大模型“硅光動(dòng)語(yǔ)”,通過(guò)視覺(jué)理解和認(rèn)知世界,可以做到與人進(jìn)行無(wú)縫流暢的交互。
據(jù)稚暉君透露,靈犀X2研發(fā)了三個(gè)月,視頻準(zhǔn)備了一個(gè)月,是迄今為止最復(fù)雜的項(xiàng)目。
或許該項(xiàng)目的復(fù)雜點(diǎn)在于團(tuán)隊(duì)對(duì)靈犀X2的創(chuàng)新思考。為了尋找創(chuàng)新性,團(tuán)隊(duì)“套用”了魯迅先生的思想,基于“從來(lái)如此,便對(duì)嗎?”的想法,想一改機(jī)器人外表“鋼筋鐵骨”的固有形態(tài),甚至考慮過(guò)使用化妝的美妝蛋作為材料。不過(guò),最終還是選擇了親和的柔性材料。
圖片來(lái)源:稚暉君
做大腦、推新品、宣布1000臺(tái)機(jī)器人下線,智元機(jī)器人破圈動(dòng)作頻頻,仿佛距離宇樹(shù)科技的曝光度只差一個(gè)秧歌節(jié)目了。
然而上述舉措只是智元對(duì)外輸出的“表象”,其背后指向的是智元機(jī)器人在創(chuàng)始人稚暉君“天才少年”標(biāo)簽背后,打磨無(wú)限生產(chǎn)力的故事。以大腦為驅(qū)動(dòng),通過(guò)“一腦多形”快速部署于多種形態(tài)本體,讓機(jī)器人更聰明;以產(chǎn)品矩陣撬動(dòng)多場(chǎng)景落地,挖掘更多應(yīng)用可能性;以量產(chǎn)滿足需求,提速具身智能走近物理世界的腳步。
構(gòu)想足夠性感,但智元機(jī)器人的東西“好”到能支撐嗎?
做一個(gè)能自主進(jìn)化的大模型
“機(jī)器人公司,你如果不做大模型,那是屬于沒(méi)有未來(lái)的機(jī)器人。”智元新創(chuàng)技術(shù)有限公司研究院執(zhí)行院長(zhǎng)、具身業(yè)務(wù)部總裁姚卯青說(shuō)道。在姚卯青看來(lái),沒(méi)有“智能化”支持、沒(méi)有作業(yè)能力只是硬件,機(jī)器人能做的事情非常有限。
具體來(lái)看,“大模型”智能化高低決定的是人形機(jī)器人理解物理世界的程度和落地技能的水平。但這份“高低”也正是當(dāng)下產(chǎn)業(yè)發(fā)展的瓶頸。
由于“大腦”智能化受限,導(dǎo)致其泛化能力差,使得人形機(jī)器人在新場(chǎng)景的成功率大幅下降;不同本體的數(shù)據(jù)難以共用,致使數(shù)據(jù)采集成本高;大模型自身無(wú)法實(shí)現(xiàn)持續(xù)進(jìn)化,迭代速度較慢。
為了解決上述瓶頸各家都找了多種技術(shù)路線的解決方法,例如通過(guò)分層端到端模型訓(xùn)練的方式,集百家所長(zhǎng)提升泛化能力;推出具身操作算法,通過(guò)視頻生成大模型進(jìn)行后訓(xùn)練,基于全過(guò)程零真機(jī)樣本數(shù)據(jù),實(shí)現(xiàn)多平臺(tái)泛化等。
智元機(jī)器人的GO-1也是延續(xù)上述脈絡(luò)而誕生的。
據(jù)智元機(jī)器人方面介紹,其提出了Vision-Language-Latent-Action(ViLLA)架構(gòu),由多模態(tài)大模型(VLM)與混合專家模型(MoE)組成,彌合視覺(jué)、語(yǔ)言與動(dòng)作之間的鴻溝。
基于ViLLA架構(gòu),GO-1大模型能結(jié)合互聯(lián)網(wǎng)視頻和真實(shí)人類示范進(jìn)行學(xué)習(xí),可以更好地理解物理世界;在極少數(shù)據(jù)甚至零樣本下,實(shí)現(xiàn)技能泛化到新場(chǎng)景、新任務(wù),降低了具身模型的使用門檻及訓(xùn)練成本;支持不同機(jī)器人形態(tài)間遷移,適配到不同本體;搭配智元數(shù)據(jù)回流系統(tǒng),從實(shí)際執(zhí)行遇到的問(wèn)題數(shù)據(jù)中持續(xù)進(jìn)化學(xué)習(xí)。
舉個(gè)例子,機(jī)器人得到用戶下達(dá)的“掛衣服”指令后,大模型工作任務(wù)流為:根據(jù)眼前的畫(huà)面,理解用戶指令對(duì)應(yīng)的任務(wù)要求,然后調(diào)動(dòng)訓(xùn)練時(shí)學(xué)習(xí)過(guò)的掛衣服視頻,自動(dòng)設(shè)想掛衣服涉及到的操作步驟,最后執(zhí)行并完成。
圖片來(lái)源:智元機(jī)器人
GO-1大模型加持下,機(jī)器人能用更低成本學(xué)得更快,用較小的數(shù)據(jù)量掌握更泛化的能力,且能快速部署在不同身體中,并在實(shí)際應(yīng)用中持續(xù)進(jìn)化自主學(xué)習(xí)。這是一套較為完整的大模型解決方案路線,形成了“數(shù)據(jù)-泛化-成本-進(jìn)化”的自驅(qū)動(dòng)發(fā)展閉環(huán)。
據(jù)智元機(jī)器人官方表示,GO-1大模型在測(cè)試中取得了較為不錯(cuò)的成績(jī),但究竟有幾斤幾兩還需等待真機(jī)部署實(shí)地打工時(shí)刻之際見(jiàn)分曉。
將視角放大,實(shí)際上智元機(jī)器人做大模型這件事,有兩個(gè)標(biāo)桿性的意義。
其一,整機(jī)廠現(xiàn)階段仍依賴于GPT等大模型,其發(fā)展較為被動(dòng),通用大模型或行業(yè)大模型和人形機(jī)器人的適配度有限,成為人形機(jī)器人更聰明進(jìn)化的掣肘;
其二,大摩的報(bào)告清晰可見(jiàn)國(guó)內(nèi)在大模型的短板,這條彎道超車的機(jī)會(huì)不僅留給了大模型創(chuàng)企,還留給了整機(jī)廠,機(jī)會(huì)導(dǎo)向的是中國(guó)在人形機(jī)器人領(lǐng)域再下一城。
踩自行車而來(lái),跟你做一次情感交流
無(wú)論是設(shè)計(jì)語(yǔ)言還是主打特點(diǎn),靈犀X2和其前輩靈犀X1都有些差別。
回顧一下靈犀X1,其采用了串并聯(lián)混合構(gòu)型手臂和差分驅(qū)動(dòng)雙肩關(guān)節(jié)設(shè)計(jì),整臂重量為2.5kg。基于智元X-Lab自研的PowerFlow兩款模塊化關(guān)節(jié),全身實(shí)現(xiàn)了三十多個(gè)主動(dòng)自由度。
圖片來(lái)源:智元機(jī)器人
從外觀上來(lái)看,靈犀X1看起來(lái)還有些“僵硬”,直角肩的形態(tài)和橢圓形的腦部構(gòu)型,仿佛缺少了點(diǎn)溫度。畢竟靈犀系列面向To C市場(chǎng),聚焦的是養(yǎng)老方向。當(dāng)該系列以“養(yǎng)老伙伴”角色出現(xiàn)在日常生活中,或許更具親和力的外表能提高人類對(duì)于機(jī)器人的接受度。
而這也是靈犀X2做得最多改變的地方。
從外表來(lái)看,靈犀X2采用柔性材料外殼,能做到更抗摔。“圓滾滾”的上半身,還做到了細(xì)微起伏的“呼吸感”,看起來(lái)更具“柔和感”;趧(dòng)作模態(tài)集成至模型中,靈犀X2學(xué)會(huì)了人類的小動(dòng)作,如暗中觀察、坐下的時(shí)候偷偷蕩腿、走路時(shí)胳膊自由擺動(dòng)甚至還“到處扣扣”。
這些小動(dòng)作仿佛讓靈犀X2多了幾分生命力,也更貼合一個(gè)“養(yǎng)老伙伴”的角色。當(dāng)然,稚暉君給其的定位已經(jīng)不再局限于“養(yǎng)老”而是“吉祥三寶”。
從技術(shù)路線來(lái)看,靈犀X2全身?yè)碛?/span>28個(gè)自由度,未使用任何并聯(lián)結(jié)構(gòu)。配備小腦控制器Xyber-Edge、域控制器Xyber-DCU、智能電源管理系統(tǒng)Xyber-BMS及核心關(guān)節(jié)模組Powerflow等核心組件。通過(guò)結(jié)合深度強(qiáng)化學(xué)習(xí)和模仿算法學(xué)習(xí),靈犀X2展現(xiàn)了走路、奔跑、轉(zhuǎn)身、踩滑板車、玩平衡車、騎自行車等高難度動(dòng)作。
圖片來(lái)源:稚暉君
在交互能力方面,靈犀X2搭載了基于VLM的多模態(tài)交互大模型“硅光動(dòng)語(yǔ)”,能通過(guò)人類的面部表情和語(yǔ)音語(yǔ)調(diào)精準(zhǔn)判斷情感狀態(tài),并做出相應(yīng)的回應(yīng)。在回答“你和狗狗同時(shí)掉進(jìn)水里,我應(yīng)該先救誰(shuí)”的時(shí)候,靈犀X2也會(huì)迅速給出答案“先救狗狗”。此外,靈犀X2能通過(guò)遠(yuǎn)程裸眼3D交流,不過(guò)當(dāng)人臉圖片出現(xiàn)在其腦部顯示屏幕的時(shí)候,多少有點(diǎn)“恐怖谷效應(yīng)”。
相比于靈犀X1作為彩蛋,出現(xiàn)在聚光燈照射下的線下發(fā)布會(huì),靈犀X2的發(fā)布略顯簡(jiǎn)單,一支不到13分鐘在辦公室完成的視頻里,稚暉君通過(guò)三大維度講述了這款靈犀X2的技能點(diǎn)和團(tuán)隊(duì)思考。雖然簡(jiǎn)單但足夠有料,也確實(shí)和市面上其他人形機(jī)器人產(chǎn)品呈現(xiàn)出不一樣的技能點(diǎn)。
而且在辦公室跑來(lái)跑去的靈犀X2,和稚暉君娓娓道來(lái)的講述,也更符合外界對(duì)于這位“天才少年”的印象。
但值得一提的是,該視頻發(fā)布后出現(xiàn)了不同的聲音,部分業(yè)內(nèi)人士認(rèn)為這支視頻很難服眾。靈犀X2騎自行車的片段只有中間騎行部分,沒(méi)有上車、下車的部分,很容易聯(lián)想到稚暉君當(dāng)年能研發(fā)出自動(dòng)駕駛自行車技能。是真靈犀X2在騎自行車,還是自行車自己動(dòng),或許還要看智元接下來(lái)如何回應(yīng)。
智元想“活”成什么?
2024年,智元搞出過(guò)最大的動(dòng)靜就是“開(kāi)源”。
其一,智元機(jī)器人開(kāi)源了百萬(wàn)真機(jī)數(shù)據(jù)集AgiBot World,該數(shù)據(jù)集是全球首個(gè)全功能、全場(chǎng)景、高質(zhì)量的人形機(jī)器人百萬(wàn)真機(jī)數(shù)據(jù)集,100多種數(shù)據(jù)中,家居占40%、餐飲20%、工業(yè)20%、商超10%以及辦公場(chǎng)景10%,其中80%的任務(wù)均為長(zhǎng)程任務(wù)。
其二,靈犀X1面向全球正式開(kāi)源,軟硬件全套圖紙和代碼上線到GitHub,開(kāi)發(fā)指南上線至智元機(jī)器人官網(wǎng)。
開(kāi)源是促動(dòng)行業(yè)整體前行的重要路徑之一,通過(guò)前輩的成熟經(jīng)驗(yàn)為后來(lái)者鋪路,避免行業(yè)參與者陷入重復(fù)造輪子,消耗大量時(shí)間和資金成本。小鵬汽車創(chuàng)始人何小鵬在分享自家機(jī)器人時(shí),也曾表示,沒(méi)有500億做不好機(jī)器人。
此外,在成熟經(jīng)驗(yàn)基礎(chǔ)上前行能在短時(shí)間內(nèi)形成技術(shù)差異化路線,避免產(chǎn)業(yè)陷入同質(zhì)化發(fā)展。開(kāi)源的成功案例早在四足機(jī)器狗身上上演過(guò),當(dāng)年MIT開(kāi)源四足機(jī)器狗技術(shù)成果后,加速了四足機(jī)器人的產(chǎn)業(yè)化進(jìn)程,國(guó)內(nèi)外涌現(xiàn)了一批優(yōu)秀四足機(jī)器人企業(yè)。
實(shí)際上,開(kāi)源并不是智元機(jī)器人必須完成的任務(wù),也沒(méi)有義務(wù)分享技術(shù)推動(dòng)平權(quán)。從這一點(diǎn)可見(jiàn),或許智元想做的不只是一家機(jī)器人公司,如果以后視鏡來(lái)看其或許想成為“集大成者”,建立多維度商業(yè)壁壘,成為中國(guó)具身智能繞不開(kāi)的核心玩家。
但這條路注定困難重重。
首當(dāng)其沖的就是智元自身要承擔(dān)大量成本,這便要求智元無(wú)論是融資能力還是自造血能力都要跟得上發(fā)展步伐。
畢竟,除了真機(jī)數(shù)據(jù)采集外,智元在供應(yīng)鏈上也有不少自研部分。硬件方面,自研了核心的關(guān)節(jié)模組,包括電機(jī)、減速器、編碼器等。軟件方面,自研了具身智能的大腦和發(fā)布的大模型。還開(kāi)源了中間件、操作系統(tǒng)、AimRT等。據(jù)了解,智元還在研發(fā)高自由度的靈巧手,多款產(chǎn)品在早期打樣階段。
多條腿走路的智元,在觸碰多種發(fā)展可能性的同時(shí),也將比友商遇見(jiàn)更多困難。
原文標(biāo)題 : 做大腦、推新品、擴(kuò)量產(chǎn),稚暉君的智元想“活”成什么樣?

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
即日-6.16立即報(bào)名>> 【在線會(huì)議】Solution Talks |Computex 2025關(guān)鍵趨勢(shì)深讀
-
6月20日立即下載>> 【白皮書(shū)】精準(zhǔn)測(cè)量 安全高效——福祿克光伏行業(yè)解決方案
-
7月3日立即報(bào)名>> 【在線會(huì)議】英飛凌新一代智能照明方案賦能綠色建筑與工業(yè)互聯(lián)
-
7月22-29日立即報(bào)名>> 【線下論壇】第三屆安富利汽車生態(tài)圈峰會(huì)
-
7.30-8.1火熱報(bào)名中>> 全數(shù)會(huì)2025(第六屆)機(jī)器人及智能工廠展
-
7月31日免費(fèi)預(yù)約>> OFweek 2025具身機(jī)器人動(dòng)力電池技術(shù)應(yīng)用大會(huì)
推薦專題
- 1 AI 眼鏡讓百萬(wàn) APP「集體失業(yè)」?
- 2 大廠紛紛入局,百度、阿里、字節(jié)搶奪Agent話語(yǔ)權(quán)
- 3 深度報(bào)告|中國(guó)AI產(chǎn)業(yè)正在崛起成全球力量,市場(chǎng)潛力和關(guān)鍵挑戰(zhàn)有哪些?
- 4 上海跑出80億超級(jí)獨(dú)角獸:獲上市公司戰(zhàn)投,干人形機(jī)器人
- 5 國(guó)家數(shù)據(jù)局局長(zhǎng)劉烈宏調(diào)研格創(chuàng)東智
- 6 下一代入口之戰(zhàn):大廠為何紛紛押注智能體?
- 7 百億AI芯片訂單,瘋狂傾銷中東?
- 8 Robotaxi新消息密集釋放,量產(chǎn)元年誰(shuí)在領(lǐng)跑?
- 9 格斗大賽出圈!人形機(jī)器人致命短板曝光:頭腦過(guò)于簡(jiǎn)單
- 10 “搶灘”家用機(jī)器人領(lǐng)域,聯(lián)通、海爾、美的等紛紛入局