一個大腦、兩類終端,一文看懂特斯拉2022 AI Day
文|盧瀅西 周文斌
“特斯拉是有四個輪子的機(jī)器人,而Optimus就是有兩條腿的機(jī)器人!
北京時間10月1日,特斯拉CEO馬斯克在2022年AI Day上,正式發(fā)布人形機(jī)器人擎天柱Optimus原型機(jī),展示了人形機(jī)器人在汽車工廠搬運箱子、澆植物、移動金屬棒的視頻。
“擎天柱”在搬運箱子
馬斯克一直在強(qiáng)調(diào)“我們就是想盡快設(shè)計出有用的量產(chǎn)機(jī)器人”,售價要在2萬美元左右,3~5年內(nèi)實現(xiàn)量產(chǎn)。這決定了機(jī)器人的整體設(shè)計路線,走的并不是如波士頓動力一樣“高大上”的實驗室路線。
除了人形機(jī)器人的炫酷之外,作為機(jī)器人和智能汽車共同應(yīng)用的部分,自動駕駛也是此次AI DAY的重要組成部分。
這次AI DAY上,特斯拉從基礎(chǔ)訓(xùn)練、Occupancy系統(tǒng)、車道和物體、規(guī)劃、人工智能編譯器和推理、自動貼標(biāo)、模擬、數(shù)據(jù)引擎這八個部分,整體介紹了自家自動駕駛從環(huán)境感知、數(shù)據(jù)收集、訓(xùn)練、處理、到應(yīng)用的整套流程。
而從這次介紹中我們也發(fā)現(xiàn),特斯拉的自動駕駛技術(shù)方案于8月底毫末在AI DAY上提出的方向都頗有許多一致性。
比如雙方都對云端訓(xùn)練的重視,并投入了大量的資源在超算中心和云端訓(xùn)練算法上。比如在車端推理上基于Attention的 transformer做前融合,比如仿真訓(xùn)練,以及自然語言處理等等。
這其實都在說明,無論是國外還是國內(nèi),自動駕駛在工程化上的探索,終于走到了相互交集的時候。下面一起來看看具體內(nèi)容。
3年量產(chǎn)、售價2萬美元,人形機(jī)器人有哪些技術(shù)細(xì)節(jié)?
1、“擎天柱”的整體情況
在去年AI Day上介紹特斯拉機(jī)器人的概念以后,“擎天柱”一共迭代了三個版本。最新一代的“擎天柱”身高170cm,體重73kg,用電功率在靜坐時為100W,快走時500W,全身有200多個自由度,手部27個自由度。
“擎天柱”的內(nèi)部構(gòu)造
設(shè)計“擎天柱”的過程中,為了減少功耗,特斯拉將配電和計算集中到軀干中心,在軀干里裝了一個2.3千瓦時的電池組,并且還搭載著特斯拉自研的SoC芯片,配備Wi-Fi和LTE連接網(wǎng)絡(luò)。特斯拉官方稱,這個電池組能夠維持機(jī)器人一整天的工作,但有媒體根據(jù)已知的數(shù)據(jù)測算,如果不間斷地工作,“擎天柱”的續(xù)航時間大概在1.5-2小時之間。
在大腦部分,特斯拉的全自動駕駛系統(tǒng)FSD直接被應(yīng)用在擎天柱身上,但由于人形機(jī)器人的需求和形式與汽車仍然存在差異,因此,還做了三方面的改變。
首先,基于多個感官傳感輸入,讓機(jī)器人能夠處理視覺數(shù)據(jù)并做出決策;其次,有很多無線連接和音頻支持通信。另外,在硬件上,“擎天柱”也需要確保安全性,包括保護(hù)機(jī)器人本身和機(jī)器人周圍的人,這就涉及到機(jī)器人的四肢控制。
機(jī)器人的結(jié)構(gòu)基礎(chǔ)上,人形機(jī)器人復(fù)用了特斯拉汽車基于物理的生產(chǎn)能力以及模擬能力,讓用于汽車撞擊實驗的軟件也來做機(jī)器人的撞擊實驗,進(jìn)行損害破壞的控制,防止昂貴的“大腦”過度損傷。同時,“擎天柱”身上有很多的執(zhí)行器,通過這些執(zhí)行器可以讓人形機(jī)器人完成比如上樓、下蹲、拿東西等各類任務(wù)。
2、“擎天柱”靠什么動起來?
實現(xiàn)這些動作就需要設(shè)定相應(yīng)的指標(biāo),而這些設(shè)計也來自于一些生物學(xué)的非線性原理。通過展示出機(jī)器人在進(jìn)行上樓梯、下蹲等動作時,關(guān)節(jié)會呈現(xiàn)什么樣的壓力曲線,來滿足安全性的相關(guān)要求。另外,動作的實施也對執(zhí)行器的扭矩提出相關(guān)要求。
那么“擎天柱 ”的執(zhí)行器是如何設(shè)計、生產(chǎn)出來的呢?
在機(jī)器人身上,執(zhí)行器所執(zhí)行的工作與關(guān)節(jié)所要承受的壓力相關(guān),在實踐之前需要先進(jìn)行驗證,將相關(guān)參數(shù)放到優(yōu)化模型中來適應(yīng)不同的場景,根據(jù)任務(wù)所需能耗和時間來對執(zhí)行器的成本進(jìn)行詳細(xì)設(shè)計。因此,特斯拉先對“擎天柱”的28個結(jié)構(gòu)執(zhí)行器進(jìn)行共性分析,測試如何讓執(zhí)行器可以滿足多于一個關(guān)節(jié)的要求,再進(jìn)行點云解析。
點云解析
發(fā)布會上透露,執(zhí)行器一共有6種不同的設(shè)計,它們的扭矩、輸出力和質(zhì)量都完全不同。機(jī)器人身體不同部分的關(guān)節(jié)自由度各不相同,因此需要在極限情況下對執(zhí)行器進(jìn)行測試。AI DAY的現(xiàn)場,通過一段提起一架將近半噸的鋼琴的視頻,對執(zhí)行器的承壓能力進(jìn)行了演示。
6種不同設(shè)計的執(zhí)行器
在手部的抓取上,特斯拉的人形機(jī)器人團(tuán)隊為“擎天柱”設(shè)計了金屬基件,通過金屬基件驅(qū)動機(jī)器人的手,能夠抓取很小、很薄的東西。此外,“擎天柱”的手指上還裝有手指驅(qū)動器,離合機(jī)制讓機(jī)器人即使不打開手也能夠進(jìn)行活動。
“擎天柱”的手部關(guān)節(jié)展示
3、“擎天柱”如何實現(xiàn)看得見、走得穩(wěn)?
“擎天柱”機(jī)器人采用了和汽車一樣的感知方案——用攝像頭輸入數(shù)據(jù),以神經(jīng)網(wǎng)絡(luò)進(jìn)行計算。同時,在運動、規(guī)劃和控制性上,特斯拉已經(jīng)在汽車場景上積累了不少經(jīng)驗,形成了一套FSD系統(tǒng),而運動規(guī)劃的沉淀又可以復(fù)用到機(jī)器人上,生成機(jī)器人運動學(xué)模型進(jìn)行相應(yīng)的路徑規(guī)劃。
為了讓人形機(jī)器人對時間和空間形成一定的記憶,特斯拉對“擎天柱”進(jìn)行了一系列的訓(xùn)練,改善了占用網(wǎng)絡(luò)使用方法,使得機(jī)器人能夠更準(zhǔn)確、快速地識別行駛區(qū)域。此外,還運用了大量的渲染,讓人形機(jī)器人能夠與現(xiàn)實環(huán)境更好地互動。
機(jī)器人看到的世界
在人形機(jī)器人關(guān)鍵的運動控制方面,雖然“擎天柱”目前能夠?qū)崿F(xiàn)整體的平衡,但在現(xiàn)實中,機(jī)器人不僅要有對于自身物理存在的感知以及對周圍環(huán)境的完整感知,還需要讓運動軌跡和機(jī)器人可以提供的支撐力量更好地結(jié)合,防止跌跌撞撞的情況發(fā)生,扭矩是其中非常重要的一個因素。
只有使用傳感器和計算機(jī)視覺對周圍世界的感知進(jìn)行動態(tài)評估,才能確保機(jī)器人保持良好的姿態(tài)和步態(tài)。
為此,特斯拉通過對動作進(jìn)行捕捉后,做可視化處理,形成“關(guān)鍵幀”。軀干、手、腿的位置都會做詳細(xì)的關(guān)鍵幀分析,再將這些數(shù)據(jù)映射到機(jī)器人身上,更好地實現(xiàn)軌跡優(yōu)化。
目前,特斯拉已經(jīng)搜集了很多數(shù)據(jù)并建立了可用的數(shù)據(jù)庫,通過軌跡優(yōu)化程序讓機(jī)器人能夠更好地了解自己的物理位置以及物理軌跡。
運動軌跡
這個被網(wǎng)友戲稱,跟小米的“鐵大”住在同一個養(yǎng)老院的“擎天柱”雖然目前功能并不完善,甚至走得都不算穩(wěn)健,但馬斯克對人形機(jī)器人的未來依然充滿信心:“擎天柱預(yù)計產(chǎn)量非常高,未來可達(dá)數(shù)百萬臺。價格將比汽車低得多,可能不到2萬美元!
16萬客戶,年底全球推出,特斯拉自動駕駛有哪些進(jìn)展?
這次AI DAY 除了人形機(jī)器人之外,自動駕駛也是重要組成部分。
會上,特斯拉Autopilot負(fù)責(zé)人Ashok Ellaswamy表示,2021年特斯拉FSD Beta只有2000名客戶,但如今這一數(shù)字增長到16萬,而這一成果,來源于自動駕駛團(tuán)隊對75,000多個神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練。
而在具體實踐方面,自動駕駛面臨哪些問題、挑戰(zhàn),以及解決方案,這次AI DAY上特斯拉也從基礎(chǔ)訓(xùn)練、Occupancy系統(tǒng)、車道和物體,規(guī)劃、人工智能編譯器和推理、自動貼標(biāo)、模擬、數(shù)據(jù)引擎這八個部分分別進(jìn)行了細(xì)致的講解。
特斯拉自動駕駛實踐模型
1、路線規(guī)劃與計算
首先是路線規(guī)劃方面,特斯拉向觀眾展示了一個十字路口行人過馬路場景,自動駕駛的車輛要繞過行人實現(xiàn)左轉(zhuǎn),如何把握最好的轉(zhuǎn)向時機(jī)、是從行人的前方通過,還是從后方繞行、以及如何防止和周圍的車輛發(fā)生碰撞,都是路線規(guī)劃方面的問題。
在這個場景中,特斯拉自動駕駛可以通過大量的計算實現(xiàn)路線規(guī)劃和障礙物的規(guī)避。
簡單來說,就是自動駕駛首先通過感知系統(tǒng)識別感知到障礙物,比如圖片中正在過馬路的路人,然后通過對它的行進(jìn)軌跡、行進(jìn)速度計算得出它可能的行進(jìn)路線。
就像這樣,特斯拉需要將這個路口周圍所有的障礙物的軌跡都計算出來,然后再根據(jù)自己行動速度進(jìn)行路線規(guī)劃,看是從他的前方通過,還是從后面繞行。
這個過程說起來簡單,但實際的決策會涉及到許多規(guī)劃的問題,比如后方突然來車,就需要用到防碰撞系統(tǒng)。因此整個系統(tǒng)具體可以包括軌跡評分、碰撞計算、平順性分析、進(jìn)入性可行性分析四個部分。
2、Occupancy網(wǎng)絡(luò)和視頻訓(xùn)練庫
在路線規(guī)劃系統(tǒng)背后,就需要應(yīng)用到大量的計算和強(qiáng)大的環(huán)境感知,也就是后面提到的Occupancy,即占用網(wǎng)絡(luò)。通過占據(jù)網(wǎng)絡(luò),特斯拉可以讓模型獲得預(yù)測物體所占據(jù)空間的能力,并在向量空間里生成由一個個立方體組成的環(huán)境。
有這個環(huán)境作為基礎(chǔ),特斯拉自動駕駛在行駛過程中,路線規(guī)劃就會可以避開這些“立方體”,車輛可以在不必識別出具體是什么障礙物的情況下做出避讓動作。除此之外,F(xiàn)SD還可以借助該數(shù)字環(huán)境識別道路坡度/曲率,讓車輛根據(jù)實際道路情況提前預(yù)測加速/減速,進(jìn)一步提高安全性和舒適度。
由于數(shù)據(jù)訓(xùn)練都是基于大量原始視頻文件,所以特斯拉為此專門設(shè)計了一個視頻訓(xùn)練庫,它可以存儲大量的視頻原始文件并直接提供給服務(wù)器使用。
相比普通的存儲服務(wù)器,這個視頻訓(xùn)練庫可以讓訓(xùn)練速度提升30%,存儲文件的空間下降11%,讀取速度最小每秒讀寫次數(shù)提升4倍。
3、自動標(biāo)注與仿真訓(xùn)練
擁有了數(shù)據(jù),緊接著而來的問題就是對數(shù)據(jù)進(jìn)行標(biāo)注和處理。
為了完成這個任務(wù),特斯拉內(nèi)部有一個由1.4萬個GPU組成的超級計算機(jī)。這1.4萬GPU,有4千個用在了汽車貼標(biāo)測試上,有1萬個用在了數(shù)據(jù)訓(xùn)練。在此之外,特斯拉還有許多視頻緩存方面的應(yīng)用,因為在數(shù)據(jù)訓(xùn)練的時候,需要大量的圖像同時導(dǎo)入導(dǎo)出,而要保證這些圖像的流暢,就需要對緩存進(jìn)行非常好的處理。
當(dāng)然,即使有4千個GPU用作數(shù)據(jù)標(biāo)注,但如果所有的標(biāo)注都依靠人工,那光特斯拉每天收集的數(shù)據(jù)就需要人工處理幾個月的時間。所以特斯拉為此還開發(fā)了一個“數(shù)據(jù)自動標(biāo)注”系統(tǒng)。
除了數(shù)據(jù)自動標(biāo)注之外,特斯拉還在做的一個事情是仿真模擬的自動生成,這是一個類似數(shù)字孿生的的概念。通過模擬仿真,特斯拉可以在系統(tǒng)中對自動駕駛進(jìn)行訓(xùn)練,按AI DAY上的說法,這可以將自動駕駛的訓(xùn)練效率提高1000倍。
仿真訓(xùn)練是針對有標(biāo)數(shù)據(jù)的,然后再把這些數(shù)據(jù)導(dǎo)入到數(shù)據(jù)引擎,看看這些仿真訓(xùn)練的數(shù)據(jù)是否成立,如果不成立,就再返回去再重新計算。
仿真訓(xùn)練的一個好處是,它可以模擬許多現(xiàn)實環(huán)境中不存在的情況,這些情況通過實際的路測很難遇到,但我們無法保證這些情況不會出現(xiàn),如果一旦出現(xiàn),系統(tǒng)沒有準(zhǔn)備,那結(jié)果可能將是致命的。
而模擬仿真可以將這些現(xiàn)實極難碰到,或者不可能出現(xiàn)的情況模擬出來,用作自動駕駛訓(xùn)練。為此,特斯拉模擬了舊金山的交通數(shù)據(jù),這個數(shù)據(jù)如果人類來做需要一兩周甚至幾個月的時間,但是用模擬器來做,一夜之間就能完成。
4、DOJO超級計算機(jī)
說到這里,其實我們會發(fā)現(xiàn),數(shù)據(jù)、訓(xùn)練一直是特斯拉自動駕駛的關(guān)鍵詞,而要完成這么多的訓(xùn)練,算力就成為了其中的關(guān)鍵。
用特斯拉工程師的話說, 算力是訓(xùn)練的基本糧食,沒有算力,訓(xùn)練會很難執(zhí)行,或者效率會非常低。所以在這次AI DAY上,特斯拉也著重介紹了自家的超級計算機(jī)——DOJO。
DOJO來自日語“道場”,也有訓(xùn)練場的意思。而在特斯拉內(nèi)部,DOJO就是專門用來進(jìn)行模擬訓(xùn)練的,它往往要面對規(guī)模極大的模型,包含數(shù)以億計的數(shù)據(jù)、參數(shù)。
為了解決這些問題,特斯拉的方法是將25個D1芯片集成在一個訓(xùn)練瓦片(Tile)上,讓每個訓(xùn)練瓦片都具備54P算力和13.4TB/S對分帶寬。6個訓(xùn)練瓦片、20片接口處理器又可以組成一個托盤,兩個托盤又可以形成一個機(jī)柜,許多個機(jī)柜組合在一起,就形成了超算DOJO。
簡單理解,其實超算DOJO就是無數(shù)個D1芯片的疊加累計。 當(dāng)然這最后的效果是非常明顯的,因為每臺ExaPOD的訓(xùn)練性能都具備1.1E算力、1.3T高速內(nèi)存、13TB高帶寬內(nèi)存,4臺即相當(dāng)72個GPU機(jī)柜的訓(xùn)練性能。
可以說,DOJO的出現(xiàn),實現(xiàn)人工智能訓(xùn)練的超高算力,同時擴(kuò)展帶寬、減少延遲、節(jié)省成本的需求。
總的來說,在這次AI DAY上,特斯拉整體介紹了自家自動駕駛從環(huán)境感知、數(shù)據(jù)收集、訓(xùn)練、處理、到應(yīng)用的整套流程。
而這一切的實現(xiàn),又都是從圍繞著特斯拉汽車周圍的八個攝像頭的視覺識別開始的。
通常,當(dāng)一輛特斯拉的汽車行駛在路上的時候,自動駕駛首先會對汽車周圍的路況進(jìn)行識別,比如墻、其他汽車、或者建筑等等,然后再導(dǎo)入到神經(jīng)系統(tǒng)中,通過這個數(shù)據(jù)的導(dǎo)入導(dǎo)出進(jìn)行計算,然后對未來這這些汽車行動進(jìn)行規(guī)劃,然后再結(jié)合地圖信息,比如知道的車在什么位置,下一個路口需要往什么方向轉(zhuǎn)彎等等,然后再結(jié)合一些其他數(shù)據(jù),最終實現(xiàn)車輛障礙物的規(guī)避和路線規(guī)劃。
整套邏輯的理論,都是汽車只專注于開好當(dāng)前這段路,這就像人類駕駛員的開車邏輯一樣。這套邏輯和毫末在8月底剛剛舉辦的AI DAY上提出的方向頗有許多一致性。
這種一致性,也表現(xiàn)在其他方面,比如對云端訓(xùn)練的重視,投入了大量的資源在超算中心和云端訓(xùn)練算法上。比如在車端推理上基于Attention的 transformer做前融合,比如仿真訓(xùn)練,以及自然語言處理等等。
這其實都在說明,自動駕駛在工程化上的探索,終于走到了相互交集的時候。
原文標(biāo)題 : 一個大腦、兩類終端,一文看懂特斯拉2022 AI Day

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
6月20日立即下載>> 【白皮書】精準(zhǔn)測量 安全高效——福祿克光伏行業(yè)解決方案
-
7月3日立即報名>> 【在線會議】英飛凌新一代智能照明方案賦能綠色建筑與工業(yè)互聯(lián)
-
7月22-29日立即報名>> 【線下論壇】第三屆安富利汽車生態(tài)圈峰會
-
7.30-8.1火熱報名中>> 全數(shù)會2025(第六屆)機(jī)器人及智能工廠展
-
7月31日免費預(yù)約>> OFweek 2025具身機(jī)器人動力電池技術(shù)應(yīng)用大會
-
免費參會立即報名>> 7月30日- 8月1日 2025全數(shù)會工業(yè)芯片與傳感儀表展
推薦專題
- 1 AI 眼鏡讓百萬 APP「集體失業(yè)」?
- 2 大廠紛紛入局,百度、阿里、字節(jié)搶奪Agent話語權(quán)
- 3 深度報告|中國AI產(chǎn)業(yè)正在崛起成全球力量,市場潛力和關(guān)鍵挑戰(zhàn)有哪些?
- 4 上海跑出80億超級獨角獸:獲上市公司戰(zhàn)投,干人形機(jī)器人
- 5 國家數(shù)據(jù)局局長劉烈宏調(diào)研格創(chuàng)東智
- 6 下一代入口之戰(zhàn):大廠為何紛紛押注智能體?
- 7 百億AI芯片訂單,瘋狂傾銷中東?
- 8 Robotaxi新消息密集釋放,量產(chǎn)元年誰在領(lǐng)跑?
- 9 格斗大賽出圈!人形機(jī)器人致命短板曝光:頭腦過于簡單
- 10 “搶灘”家用機(jī)器人領(lǐng)域,聯(lián)通、海爾、美的等紛紛入局