| 創(chuàng)澤機(jī)器人 |
| CHUANGZE ROBOT |
商超大模型機(jī)器人把具身智能大模型從“溫馨的桌面實(shí)驗室”拉進(jìn)了“硬核的商超前線”。它不僅是一套測試集,更是一個揭示當(dāng)前大模型在復(fù)雜擁擠空間中有多“笨拙”的照妖鏡。
商超大模型機(jī)器人的核心設(shè)計圍繞如何高效、逼真地在仿真器中復(fù)現(xiàn)一個極度擁擠且充滿變數(shù)的零售商超環(huán)境。其實(shí)現(xiàn)聚焦三個關(guān)鍵模塊:程序化商店與動態(tài)消耗模擬(環(huán)境構(gòu)建)、海量資產(chǎn)與幾何物理優(yōu)化(底層加速)、長程任務(wù)與基準(zhǔn)評測體系(驗證閉環(huán))。
關(guān)鍵模塊一:程序化“暗店”環(huán)境生成
這個模塊要解決的,是“如何源源不斷地生成不重樣的復(fù)雜超市”。
1、動態(tài)陳列與貨架消耗 (Shelf Depletion) :真實(shí)的超市貨架不是永遠(yuǎn)填滿的,商品會被不斷拿走。如圖 3 所示,仿真器不僅能程序化地排列商品,還能模擬隨時間推移商品被拿走后的“缺貨(Depletion)”狀態(tài),這迫使機(jī)器人需要學(xué)會在散亂、非規(guī)則排列的物品中進(jìn)行目標(biāo)識別和抓取,極大提升了任務(wù)的隨機(jī)性和真實(shí)感。
2、物理材質(zhì)與光影多樣性:如圖 5 所示,管線內(nèi)置了多種天花板、墻壁和地板的高質(zhì)量紋理,結(jié)合不同的光照條件,確保生成的每一家“暗店”在視覺分布上都有所區(qū)別,從而強(qiáng)化模型視覺特征提取的泛化能力。
關(guān)鍵模塊二:海量資產(chǎn)與幾何物理優(yōu)化
解決“成千上萬個商品導(dǎo)致的物理碰撞計算爆炸”問題。
1、豐富的高保真 3D 資產(chǎn):如圖 4 所示,團(tuán)隊收集并清理了海量的日常雜貨、食品包裝等商品 3D 資產(chǎn),這些物品在形狀、尺寸和抓取難度上各不相同。
2、幾何近似與物理加速 (Geometry Approximation) :這是保證該基準(zhǔn)測試可用性的核心工程 Trick。
由于貨架上的商品極其密集,使用原始的復(fù)雜三角網(wǎng)格計算碰撞會導(dǎo)致極高的延遲。如圖 6 和圖 7 所示,系統(tǒng)為每一個高精模型生成了高度簡化的凸包幾何體(Convex Hull / Simplified Geometries)。在渲染時,相機(jī)看到的是精美的原始網(wǎng)格;但在物理引擎計算碰撞時,使用的是這些極簡模型。
3、極致的性能跨越:圖 10 的仿真時間對比有力地證明了這一點(diǎn)。當(dāng)場景中貨架和商品數(shù)量激增時,使用了優(yōu)化網(wǎng)格的場景(藍(lán)色柱)其仿真速度比使用原始網(wǎng)格(紅色柱)快了三倍以上,出色解決了大規(guī)模復(fù)雜擁擠環(huán)境仿真的算力瓶頸。
關(guān)鍵模塊三:任務(wù)錨點(diǎn)規(guī)劃與大模型“水土不服”驗證
驗證目前在桌面任務(wù)上大殺四方的通用大模型,在這個新基準(zhǔn)里有多脆弱。
1、啟發(fā)式錨點(diǎn)姿態(tài) (Anchor Poses) :為了在擁擠的貨架中自動化生成專家的示范軌跡,如圖 8 所示,運(yùn)動規(guī)劃器(Motion Planner)利用商品附近的啟發(fā)式錨點(diǎn)姿態(tài),引導(dǎo)機(jī)械臂避開貨架層板的遮擋,成功規(guī)劃出在逼仄空間內(nèi)的安全抓取和放置路徑。
2、視覺輸入與模型評測:如圖 9 所示,系統(tǒng)會提取多視角的相機(jī)畫面(包括頭D、腕部等)輸入給模型。實(shí)驗結(jié)果令人警醒:目前許多號稱能夠泛化通用任務(wù)的 SOTA 具身大模型,在 RoboBenchMart 中面對貨架上的密集商品時,由于缺乏對深度和高度空間幾何的理解,極易發(fā)生碰撞或抓空,這揭示了現(xiàn)有模型在感知擁擠三維環(huán)境時的致命缺陷。
![]() |
| 機(jī)器人底盤 Disinfection Robot 消毒機(jī)器人 講解機(jī)器人 迎賓機(jī)器人 移動機(jī)器人底盤 商用機(jī)器人 智能垃圾站 智能服務(wù)機(jī)器人 大屏機(jī)器人 霧化消毒機(jī)器人 展廳機(jī)器人 服務(wù)機(jī)器人底盤 具身智能教育機(jī)器人 智能配送機(jī)器人 導(dǎo)覽機(jī)器人 |