| 創(chuàng)澤機(jī)器人 |
| CHUANGZE ROBOT |
當(dāng)大模型還在數(shù)字世界"紙上談兵",具身智能已悄然打響一場(chǎng)關(guān)于"物理數(shù)據(jù)"的靜默戰(zhàn)爭(zhēng)。這不是算法的較量,而是關(guān)乎百萬(wàn)小時(shí)真實(shí)交互數(shù)據(jù)的軍備競(jìng)賽——誰(shuí)掌握了高質(zhì)量、多模態(tài)的物理世界數(shù)據(jù),誰(shuí)就握住了通往通用人工智能(AGI)的鑰匙。
2026年4月,上海浦東的智元機(jī)器人數(shù)據(jù)采集工廠里,上百臺(tái)人形機(jī)器人正在"冰球場(chǎng)"式的布局中同步訓(xùn)練。數(shù)據(jù)采集員操控機(jī)械臂完成抓取飲品杯、裝袋、打包吸管的動(dòng)作,每天重復(fù)約200次,只為采集一條有效軌跡數(shù)據(jù)。這一幕,正是具身智能產(chǎn)業(yè)"數(shù)據(jù)饑渴"的縮影。
一、數(shù)據(jù)荒漠:具身智能的阿喀琉斯之踵
具身智能正站在歷史性拐點(diǎn)。2025年,ZG次將"具身智能"寫入政府工作報(bào)告;2026年4月,智元合作伙伴大會(huì)吸引30多個(gè)和地區(qū)的2500余名嘉賓參會(huì),空中客車高J副總裁格雷格·翁巴赫驚嘆:"ZG有超過(guò)150家企業(yè)在研發(fā)具身智能機(jī)器人"。
然而,繁榮表象下暗藏致命瓶頸。行業(yè)共識(shí)認(rèn)為,實(shí)現(xiàn)具身智能的"涌現(xiàn)"能力至少需要百萬(wàn)小時(shí)來(lái)自真實(shí)世界的物理交互數(shù)據(jù),目前積累的數(shù)量尚不足5%(白皮書數(shù)據(jù))。這種數(shù)據(jù)稀缺性,與當(dāng)年大語(yǔ)言模型(LLM)訓(xùn)練時(shí)互聯(lián)網(wǎng)文本數(shù)據(jù)的豐沛形成鮮明對(duì)比。
更嚴(yán)峻的是數(shù)據(jù)獲取的"不可能三角":精度、規(guī)模、成本三者難以兼得。真機(jī)遙操作數(shù)據(jù)精度Z高,但成本呈指數(shù)J上升——據(jù)科創(chuàng)板日?qǐng)?bào)報(bào)道,光是"倒牛奶"這一個(gè)動(dòng)作就可能需要采集近百條訓(xùn)練數(shù)據(jù),而真實(shí)場(chǎng)景采集時(shí),一小時(shí)僅能采集20條有效軌跡數(shù)據(jù),且存在30%的行為偏差。相比之下,互聯(lián)網(wǎng)視頻數(shù)據(jù)規(guī)模龐大卻缺乏物理真實(shí)性,合成數(shù)據(jù)成本低卻面臨"仿真到現(xiàn)實(shí)"(Sim2Real)的遷移鴻溝。
帕西尼感知科技創(chuàng)始人許晉誠(chéng)指出:"當(dāng)前具身智能所能使用的數(shù)據(jù)量?jī)H為大語(yǔ)言模型的幾百分之一"。這種數(shù)量J的差距,構(gòu)成了具身智能發(fā)展的"數(shù)據(jù)鴻溝"。
二、三條數(shù)據(jù)路線的"金字塔"博弈
遙操作數(shù)據(jù)當(dāng)前占據(jù)金字塔D端。2024年9月,智元機(jī)器人在上海張江啟用行業(yè)個(gè)數(shù)據(jù)采集工廠,占地4000平方米,分割為家居、餐飲、工業(yè)等不同主題場(chǎng)景,每日超100臺(tái)機(jī)器人同步訓(xùn)練,單機(jī)單日可產(chǎn)生上萬(wàn)條高質(zhì)量軌跡數(shù)據(jù)。2025年,智元開源了百萬(wàn)真機(jī)數(shù)據(jù)集AgiBot World,覆蓋80余種日常生活技能,長(zhǎng)程數(shù)據(jù)規(guī)模較Google的Open X-Embodiment高出10倍,場(chǎng)景覆蓋面擴(kuò)大100倍。
但真機(jī)遙操作的瓶頸同樣明顯。韓國(guó)企業(yè)Robotis為挑戰(zhàn)智元,選擇在烏茲別克斯坦建設(shè)11萬(wàn)平方米的數(shù)據(jù)工廠,利用當(dāng)?shù)爻杀緝?yōu)勢(shì)降低采集成本。這揭示了一個(gè)殘酷現(xiàn)實(shí):純遙操作路徑在經(jīng)濟(jì)和工程上均不可持續(xù)。
動(dòng)作捕捉數(shù)據(jù)正在崛起為"中間路線"。2024年斯坦福大學(xué)李飛飛團(tuán)隊(duì)發(fā)布的DexCap系統(tǒng),通過(guò)可穿戴的相機(jī)背心和手套上的SLAM相機(jī),以低成本、抗遮擋方式采集高質(zhì)量3D手部運(yùn)動(dòng)數(shù)據(jù)。國(guó)內(nèi)諾亦騰推出的PN Studio系統(tǒng),使用航天J傳感器標(biāo)定方式,能在1000平方米范圍內(nèi)實(shí)現(xiàn)Z多5人全身和手指的動(dòng)作捕捉。2025年,諾亦騰在深圳龍華區(qū)揭牌運(yùn)營(yíng)機(jī)器人跨本體數(shù)據(jù)工廠,推進(jìn)"無(wú)本體數(shù)據(jù)采集"的規(guī)模化——將傳感器直接穿戴在操作者身上,實(shí)現(xiàn)數(shù)據(jù)采集與機(jī)器人本體解耦。
更具顛覆性的是無(wú)本體數(shù)據(jù)采集。2024年斯坦福大學(xué)提出的UMI(Universal Manipulation Interface)框架,確立了"手持夾爪+GoPro手腕攝像頭"的核心范式,讓人類手部成為"通用的數(shù)據(jù)接口"。國(guó)內(nèi)初創(chuàng)公司鹿明機(jī)器人推出的FastUMI Pro,將單條數(shù)據(jù)采集時(shí)間從50秒縮短至10秒,綜合成本降至傳統(tǒng)方法的五分之一。
合成數(shù)據(jù)則是規(guī);A(yù)訓(xùn)練的"終極答案"。NVIDIA推出的MimicGen方案,僅需5次人類演示即可生成1000個(gè)雙手靈巧任務(wù)演示;銀河通用基于十億量J仿真數(shù)據(jù),發(fā)布了個(gè)全仿真預(yù)訓(xùn)練具身大模型GraspVLA。然而,合成數(shù)據(jù)面臨物理保真度難題——軟體形變、復(fù)雜摩擦、細(xì)顆粒物學(xué)等現(xiàn)象,傳統(tǒng)剛體物理引擎難以準(zhǔn)確模擬(白皮書第4章)。
三、Scaling Law初現(xiàn):數(shù)據(jù)規(guī)模正在重塑競(jìng)爭(zhēng)格局
2026年初,具身智能領(lǐng)域迎來(lái)"Scaling Law"的初步驗(yàn)證。
Generalist AI發(fā)布的GEN-1模型,將數(shù)據(jù)規(guī)模推向50萬(wàn)小時(shí)真實(shí)世界操作數(shù)據(jù),模型性能和任務(wù)成功率從64%大幅提升至99%。這一躍遷印證了:與LLM類似,具身智能模型能力同樣隨數(shù)據(jù)規(guī)模增長(zhǎng)而涌現(xiàn)。
更具標(biāo)志性的是觸覺數(shù)據(jù)的突破。戴盟科技發(fā)布的Daimon-Infinity數(shù)據(jù)集,包含觸覺、視覺、動(dòng)作軌跡及語(yǔ)音文本等多模態(tài)信息,其中1萬(wàn)小時(shí)數(shù)據(jù)已面向行業(yè)開源。實(shí)測(cè)表明,觸覺數(shù)據(jù)的引入能顯著降低模型訓(xùn)練對(duì)數(shù)據(jù)規(guī)模的依賴——相比視覺信息,觸覺能直接感知接觸關(guān)系與物體特性,避免多視角采集帶來(lái)的冗余與遮擋。
北京石景山區(qū)投用的全國(guó)Z大人形機(jī)器人訓(xùn)練基地,更讓機(jī)器人掌握"頭發(fā)絲J"的觸覺感知——0.01牛的力度識(shí)別精度,相當(dāng)于一根頭發(fā)絲輕輕落在手指上的壓力。
然而,數(shù)據(jù)規(guī)模的擴(kuò)張并非簡(jiǎn)單的"堆量"。智元機(jī)器人提出的ADC(對(duì)抗數(shù)據(jù)采集)模式,通過(guò)增加數(shù)據(jù)的信息密度和多樣性,以20%的數(shù)據(jù)量達(dá)到傳統(tǒng)方案2.7倍的效果。配合"HIL-SERL"強(qiáng)化學(xué)習(xí)系統(tǒng),機(jī)器人能在真實(shí)世界中1-2.5小時(shí)內(nèi)學(xué)會(huì)多種高精度、靈巧操作任務(wù),成功率接近100%。
四、自動(dòng)駕駛的鏡鑒:從"高精地圖"到"數(shù)據(jù)飛輪"
具身智能的數(shù)據(jù)困境,與自動(dòng)駕駛的發(fā)展歷程驚人相似。
自動(dòng)駕駛早期依賴高精地圖——將"實(shí)時(shí)理解環(huán)境"簡(jiǎn)化為"在已知地圖定位",雖加速技術(shù)落地,卻帶來(lái)路徑依賴:制作成本高、鮮度維護(hù)難、泛化能力受限(白皮書第3章)。Z終,行業(yè)轉(zhuǎn)向"影子模式"——利用量產(chǎn)車在日常行駛中實(shí)時(shí)回傳數(shù)據(jù),經(jīng)云端融合處理,實(shí)現(xiàn)動(dòng)態(tài)更新。
這一轉(zhuǎn)變對(duì)具身智能的啟示深刻:真正的智能體現(xiàn)在對(duì)未知環(huán)境的適應(yīng),而非對(duì)預(yù)采數(shù)據(jù)的記憶。然而,具身智能面臨更嚴(yán)峻的"冷啟動(dòng)"困境——自動(dòng)駕駛可與汽車銷售同步啟動(dòng)數(shù)據(jù)采集,而機(jī)器人尚未大規(guī)模進(jìn)入真實(shí)場(chǎng)景,數(shù)據(jù)飛輪在啟動(dòng)前是斷裂的。
破解之道在于"仿真優(yōu)先,真機(jī)驗(yàn)證"的混合范式。自動(dòng)駕駛的工程化實(shí)踐表明,云端并行仿真可在數(shù)小時(shí)內(nèi)完成相當(dāng)于數(shù)百萬(wàn)公里路測(cè)的場(chǎng)景覆蓋,實(shí)現(xiàn)算法版本的快速迭代。NVIDIA Cosmos平臺(tái)提供預(yù)訓(xùn)練的生成式世界基礎(chǔ)模型,開發(fā)者可直接生成合成數(shù)據(jù)或微調(diào)使用,加速物理AI系統(tǒng)開發(fā)。
國(guó)內(nèi)流形空間(Manifold AI)d創(chuàng)的WMA(World Model Action)路線,以世界模型作為機(jī)器人的基礎(chǔ)模型,自研通用空間世界模型WorldScape,具備"推理想象-行動(dòng)"三位一體能力,已在無(wú)人機(jī)領(lǐng)域?qū)崿F(xiàn)落地突破。
五、商業(yè)化前夜:數(shù)據(jù)驅(qū)動(dòng)的漸進(jìn)式演進(jìn)
具身智能的"GPT-3.5時(shí)刻"尚未到來(lái),但商業(yè)化路徑已日漸清晰。
D一階段:少量數(shù)據(jù)構(gòu)建原型能力。當(dāng)前多數(shù)企業(yè)處于此階段,利用數(shù)十至數(shù)百條高質(zhì)量演示數(shù)據(jù),訓(xùn)練機(jī)器人掌握特定結(jié)構(gòu)化任務(wù)。然而,a16z的深度洞察指出:實(shí)驗(yàn)室里95%成功率的策略,一旦進(jìn)入真實(shí)倉(cāng)庫(kù),光照、背景、視角、物體材質(zhì)發(fā)生變化,成功率可能迅速跌至60%(白皮書第5章)。
第二階段:聚焦場(chǎng)景,大量數(shù)據(jù)驅(qū)動(dòng)迭代。國(guó)內(nèi)已建成或計(jì)劃在建的具身智能訓(xùn)練場(chǎng)達(dá)20余家,其中10家公開披露的訓(xùn)練場(chǎng)總面積超過(guò)4萬(wàn)平方米。上海張江"麒麟"訓(xùn)練場(chǎng)、北京石景山觸覺感知數(shù)訓(xùn)中心、天津帕西尼超J數(shù)據(jù)工廠(年產(chǎn)近2億條數(shù)據(jù)),正形成覆蓋制造業(yè)、物流、家居等垂直場(chǎng)景的數(shù)據(jù)基礎(chǔ)設(shè)施。
第三階段:海量數(shù)據(jù)實(shí)現(xiàn)高階功能閉環(huán)。未來(lái)"云-邊-端"協(xié)同架構(gòu)下,云端將利用大規(guī)模算力進(jìn)行持續(xù)技能訓(xùn)練,邊緣側(cè)承擔(dān)實(shí)時(shí)協(xié)同與隱私計(jì)算,機(jī)器人本體成為標(biāo)準(zhǔn)化通用移動(dòng)計(jì)算平臺(tái)。商業(yè)模式也將從一次性硬件銷售,轉(zhuǎn)向"智能即服務(wù)"的訂閱模式——用戶像在應(yīng)用商店購(gòu)買軟件一樣,按需訂閱機(jī)器人技能(白皮書第5章)。
六、投資啟示:在數(shù)據(jù)洪流中錨定價(jià)值
從數(shù)據(jù)視角審視,具身智能產(chǎn)業(yè)呈現(xiàn)五大投資機(jī)會(huì):
1. 感知技術(shù)創(chuàng)新:觸覺傳感器、靈巧手等多模態(tài)感知設(shè)備,正從"被動(dòng)采集"走向"感算一體"。帕西尼DexH13靈巧手集成近2000顆自研高精度觸覺傳感器,實(shí)現(xiàn)15種多維觸覺感知。
2. 數(shù)據(jù)采集與治理:覆蓋采集、清洗、標(biāo)注、存儲(chǔ)的全生命周期管理體系,是推動(dòng)行業(yè)標(biāo)準(zhǔn)化的底層基建。簡(jiǎn)智機(jī)器人實(shí)現(xiàn)"采集完成后2小時(shí)內(nèi)新鮮數(shù)據(jù)送達(dá)模型"的目標(biāo),需要系統(tǒng)性工程能力支撐。
3. 垂直場(chǎng)景解決方案:工業(yè)精密裝配、倉(cāng)儲(chǔ)柔性物流等領(lǐng)域,已展現(xiàn)清晰商業(yè)化前景。德馬科技與智元合作搭建的物流數(shù)據(jù)采集工廠,正構(gòu)建可持續(xù)迭代的"數(shù)據(jù)-模型-場(chǎng)景"技術(shù)閉環(huán)。
4. 真機(jī)失敗數(shù)據(jù)的價(jià)值:被忽視的負(fù)面樣本對(duì)模型能力提升至關(guān)重要。智元ADC模式證明,對(duì)抗性數(shù)據(jù)能以更少樣本實(shí)現(xiàn)更強(qiáng)效果。
5. 世界模型的長(zhǎng)期潛力:螞蟻靈波發(fā)布的LingBot-VA模型,創(chuàng)"邊推演、邊行動(dòng)"框架,在LIBERO基準(zhǔn)測(cè)試中任務(wù)成功率達(dá)98.5%。盡管仍需耐心,世界模型被視為通往具身"GPT-3.5時(shí)刻"的潛在路徑。
七、數(shù)據(jù)即權(quán)力,物理即未來(lái)
站在2026年的門檻回望,具身智能正在重演大語(yǔ)言模型的"數(shù)據(jù)故事"——從稀缺到豐沛,從昂貴到普惠,從封閉到開源。但這一次,戰(zhàn)場(chǎng)從數(shù)字比特轉(zhuǎn)向物理原子,數(shù)據(jù)從文本 token 變?yōu)槎嗄B(tài)的"狀態(tài)-動(dòng)作-反饋"軌跡。
這不是一場(chǎng)短跑,而是一場(chǎng)以五年、十年為尺度的馬拉松。正如國(guó)際先進(jìn)技術(shù)應(yīng)用推進(jìn)中心(深圳)發(fā)布的白皮書所言:"發(fā)展具身智能是多領(lǐng)域融合的系統(tǒng)性工程,數(shù)據(jù)是跨領(lǐng)域的真實(shí)樞紐,貫穿全部鏈條"。
當(dāng)智元的數(shù)據(jù)采集工廠每天產(chǎn)出上萬(wàn)條數(shù)據(jù),當(dāng)帕西尼的天津超J工廠年產(chǎn)近2億條多模態(tài)數(shù)據(jù),當(dāng)Generalist AI驗(yàn)證50萬(wàn)小時(shí)數(shù)據(jù)的Scaling Law——我們看到的不僅是技術(shù)的進(jìn)步,更是一個(gè)關(guān)于"如何教會(huì)機(jī)器理解物理世界"的宏大敘事正在展開。
數(shù)據(jù)即權(quán)力,物理即未來(lái)。在這場(chǎng)靜默的數(shù)據(jù)戰(zhàn)爭(zhēng)中,Z終的贏家不屬于技術(shù)Z先進(jìn)者,而屬于那些能深刻理解產(chǎn)業(yè)節(jié)奏、準(zhǔn)確定位數(shù)據(jù)生態(tài)位,并構(gòu)建起持續(xù)迭代能力的企業(yè)。

![]() |
| 機(jī)器人底盤 Disinfection Robot 消毒機(jī)器人 講解機(jī)器人 迎賓機(jī)器人 移動(dòng)機(jī)器人底盤 商用機(jī)器人 智能垃圾站 智能服務(wù)機(jī)器人 大屏機(jī)器人 霧化消毒機(jī)器人 展廳機(jī)器人 服務(wù)機(jī)器人底盤 具身智能教育機(jī)器人 智能配送機(jī)器人 導(dǎo)覽機(jī)器人 |