北大的研究團隊近期推出了一項具身導航系統,可使機器人無需額外訓練或建圖,僅通過口頭指令在室內環境中自如移動。這一系統包括指令分析、視覺感知、完成估計和決策測試等多個關鍵任務,需要不同領域的知識,這些任務由一個大模型專家團隊協同完成。
作者啟發于現實中專家討論行為,設計了DiscussNav導航系統,通過賦予大語言模型(LLM)和多模態大模型(MLM)專家角色和任務,構建了具備不同專長的視覺導航專家團隊。
在這一系統中,導航機器人會在每一步移動前主動與專家討論,以理解人類指令中所需的動作和提及的物體標志。然后,它會根據這些物體標志類型傾向性地感知周圍環境,估計指令的完成情況,并做出初步的移動決策。
值得注意的是,在決策過程中,機器人會同時生成多個獨立的預測結果,并在這些結果之間出現不一致時,向決策測試專家求助,以篩選出最終的移動決策。這一方法不同于傳統方法,無需額外預訓練,通過與大模型專家的互動,直接解決了機器人導航訓練數據稀缺的問題,并具備零樣本能力。
DiscussNav系統在經典的視覺語言導航數據集Room2Room上的表現顯著超越了所有零樣本方法,甚至勝過了經過訓練的方法。
研究團隊還在Turtlebot4移動機器人上進行了真實室內場景導航實驗,結果表明,該系統在真實世界中的表現明顯優于之前最優的零樣本方法和經過預訓練微調的方法,展現出良好的從模擬環境到真實環境的遷移能力。
作者指出,這一系統具備四個強大的能力,包括識別開放世界物體、識別細粒度的導航標志物體、糾正其他專家在討論中的錯誤信息,以及排除不一致的移動決策。
此外,作者還提出,深入研究如何有效利用仿真數據和大模型從海量數據中學到的先驗知識是未來具身智能研究的發展方向。盡管受到數據規模和真實環境探索成本的限制,但大模型的進展為具身智能提供了新方向,將推動其發展。
在總體上,北大的DiscussNav系統代表了具身導航領域的一項重要突破,使機器人能夠根據口頭指令自如導航,同時具備零樣本能力,這對未來的智能機器人和自動化應用具有重要意義。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。