| 創(chuàng)澤機(jī)器人 |
| CHUANGZE ROBOT |
具身大模型是人形機(jī)器人的“大腦”,主導(dǎo)“感知-認(rèn)知-控制”交互閉環(huán)。傳統(tǒng)大模型專注于單一或少數(shù)模態(tài)的任務(wù)處理,缺乏與物理世界直接交互的能力。具身大模型 作為人形機(jī)器人的“大腦”,從“感知-認(rèn)知-控制”層面賦能機(jī)器人,強(qiáng)調(diào)與物理世界的交互,需具備多模態(tài)感知、自主決策、實(shí)時(shí)交互執(zhí)行、通用與泛化等能力。
人形機(jī)器人目前尚未實(shí)現(xiàn)大規(guī)模應(yīng)用,主要原因或非硬件能力不足,而是大模型存在瓶頸。 從產(chǎn)業(yè)進(jìn)程來(lái)看,當(dāng)前機(jī)器人肢體層技術(shù)已較為成熟,而大模型的發(fā)展遠(yuǎn)落后于硬件。當(dāng)前階段的具身大模型已具備認(rèn)知、推理與規(guī)劃能力,不足之處在于難以可靠處理復(fù)雜物理世界的不確定性,同時(shí)泛化能力明顯較弱。
具身大模型主流框架為分層式與端到端式,路徑尚未收斂。傳統(tǒng)決策采用分層架構(gòu),包括感知與互動(dòng)、高層規(guī)劃、低層執(zhí)行以及反饋與增強(qiáng),通過(guò)大小腦分層,人形機(jī)器 人更容易落地,但分層范式存在錯(cuò)誤累積的問(wèn)題,且在跨多樣任務(wù)泛化時(shí)表現(xiàn)不佳。端到端框架基于感知環(huán)境和機(jī)器人狀態(tài)直接輸出具體的機(jī)器人執(zhí)行命令,將感知、語(yǔ) 言理解、規(guī)劃、動(dòng)作執(zhí)行和反饋優(yōu)化集成到一個(gè)統(tǒng)一的框架中,具備高集成度與較強(qiáng)泛化能力,VLA模型是端到端決策的核心。
海外具身大模型:1)典型的完全端到端架構(gòu)具身大模型包括谷歌DeepMindRT-2 與特斯拉FSD。RT-2 致力于通過(guò)端到端的神經(jīng)網(wǎng)絡(luò)將視覺(jué)和語(yǔ)言信息直接映射為機(jī)器 人動(dòng)作;特斯拉Optimus 可沿用汽車FSD 系統(tǒng)的技術(shù)棧,實(shí)現(xiàn)多模態(tài)輸入與實(shí)時(shí)動(dòng)作輸出。2)典型的分層具身大模型包括Figure Al Helix、英偉達(dá)GROOT N1與Physical Intelligence πo Helix采用“系統(tǒng)S1 (快思考)+系統(tǒng)S2 (慢思考)”雙系統(tǒng)架構(gòu);GROOT N1同樣采用雙系統(tǒng)架構(gòu),并利用流匹配技術(shù)來(lái)生成動(dòng)作;π。采用“預(yù)訓(xùn)練 VLM+ 動(dòng)作專家模塊”的VLA 模型。
國(guó)內(nèi)具身大模型:架構(gòu)持續(xù)創(chuàng)新,能力對(duì)標(biāo)海外,典型模型包括智元機(jī)器人G0-1、 星動(dòng)紀(jì)元ERA-42、 銀河通用GraspVLA、 靈初智能Psi R1及字節(jié)Seed GR-3。G0-1 開(kāi)創(chuàng)性提出VLLA 架構(gòu),采用“VLM+MoE (混合專家)”; ERA-42 模型是國(guó)內(nèi)個(gè)真正意義上的端到端原生機(jī)器人大模型;GraspVLA 模型將VLM 與動(dòng)作專家集成,是 個(gè)合成大數(shù)據(jù)驅(qū)動(dòng)的基礎(chǔ)抓取大模型:Psi R1模型采用快慢腦架構(gòu);GR-3 采用40億參數(shù)的混合變換器架構(gòu),泛化抓取-放置能力超越πo 數(shù)據(jù)是驅(qū)動(dòng)具身大模型迭代升J的關(guān)鍵,目前主流數(shù)據(jù)訓(xùn)練方案為真機(jī)、仿真與視頻數(shù)據(jù)相結(jié)合。伴隨具身智能轉(zhuǎn)向端到端大模型,數(shù)據(jù)需求從低量單一模態(tài)數(shù)據(jù)逐步升 J為海量、多模態(tài)、高精度和跨任務(wù)長(zhǎng)程數(shù)據(jù),其中真機(jī)數(shù)據(jù)價(jià)值Z高,獲取難度Z大,是具身智能落地的可靠數(shù)據(jù)源。
目前真實(shí)數(shù)據(jù)采集方式主要分為VR遙操作采集、 機(jī)械臂主從控制采集、數(shù)據(jù)手套遙操作等。目前主流廠家數(shù)據(jù)采集及訓(xùn)練方案多樣,特斯拉數(shù)采方案或轉(zhuǎn)向視頻學(xué)習(xí),而銀河通用以物理仿真數(shù)據(jù)為主、真實(shí)數(shù)據(jù)為輔。

![]() |
| 機(jī)器人底盤 Disinfection Robot 消毒機(jī)器人 講解機(jī)器人 迎賓機(jī)器人 移動(dòng)機(jī)器人底盤 商用機(jī)器人 智能垃圾站 智能服務(wù)機(jī)器人 大屏機(jī)器人 霧化消毒機(jī)器人 展廳機(jī)器人 服務(wù)機(jī)器人底盤 具身智能教育機(jī)器人 智能配送機(jī)器人 導(dǎo)覽機(jī)器人 |