目前大模型技術已從單純的大語言模型(LLM)發展到圖像-語言多模態模型(VLM)乃 至圖像-語言-動作多模態模型(VLA),其中圖像-語言-動作多模態模型(VLA)的推出,實 現了數據與處理任務的躍升。從文本到圖像再到現實世界,大模型的數據模態逐漸豐富,數 據規模的數量級迅速增長,大模型的應用場景和價值量也成比例擴張。
在人形機器人領域,AI 大模型將會從感知(語音、視覺)、決策、控制等多方面與人形 機器人結合,形成感知、決策、控制閉環,提升機器人的智能水平。
未來人形機器人大模型的方向將會是感知-決策-控制一體化的端到端通用大模型,集合 大規模數據集管理、云邊端一體計算架構、多模態感知與環境建模等技術。
1 微軟 ChatGPT
在機器人領域的應用主要體現在兩個方面:自然語言交互和自動化決 策。在自然語言方面,機器人可以通過 ChatGPT 來理解人類的自然語 言指令,并根據指令進行相應的動作;在自動化決策方面,機器人可以 通過 ChatGPT 來生成任務方案,根據任務要求做出相應的決策。
柏林工業大學和 Google Robotics 團隊 PaLM-E
是最大的多模態視覺語言模型,在 PaLM 模型基礎上,引入了具身化和 多模態概念,實現了指導現實世界機器人完成相應任務的功能。
2 谷歌 RT-2
全球第一個控制機器人的視覺-語言-動作(Vision-Language-Action, VLA)模型,通過將 VLM 預訓練與機器人數據相結合,能夠端到端直接 輸出機器人的控制。
斯坦福大學李飛飛團隊 VoxPoser
智能系統 VoxPose 可以從大模型 LLM 和視覺語言模型 VLM 中提取可行 性和約束,以構建 3D 仿真環境中的值地圖,供運動規劃器使用,用于 零樣本地合成機器人操縱任務的軌跡,從而實現在真實世界中的零樣 本機器人操縱。
3 Meta 和 CMU 團隊 RoboAgent
采用了大規模機器人數據集進行訓練,考慮到機器人在現實世界中的 訓練和部署效率問題,Meta 將數據集限制到了 7500 個操作軌跡中,并 基于此讓 RoboAgent 實現了 12 種不同的復雜技能,包括烘焙、拾取物 品、上茶、清潔廚房等任務,并能在 100 種未知場景中泛化應用。
4 英偉達 Eureka
該系統以 OpenAI 的 GPT-4 為基礎,本質是一種由大模型驅動的算法生 成工具,能訓練實體機器人執行例如“轉筆”、“開抽屜”、“拿剪 刀”、“雙手互傳球”等多種復雜動作。
5 英偉達 GR00T
目標是成為人形機器人通用大模型,旨在讓人形機器人理解自然語言文本、語音、視頻,以模仿人類運動,并與現實世界互動。
6 阿里云機器人大模型
方案集成了通義千問、通義萬相等基礎模型及阿里云物聯網平臺,可賦予機器人知識庫問答、工藝流程代碼生成、機械臂軌跡規劃、3D 目標 檢測和動態環境理解等全方位能力,不僅可以大幅降低機器人開發的 門檻,還讓機器人輕松完成靈活性更高的非標任務,推動機器人在更廣 泛的應用場景落地。
7 華為盤古大模型
“盤古”大模型具備強大的語義理解、動態規劃、多模態信號理解等能 力,將為人形機器人大模型的開發提供智能化決策基礎。依托盤古大模 型的數據處理能力,可建立豐富且高質量的人形機器人數據集,并且充分發揮盤古大模型的多模態能力,實現復雜任務場景下綜合感知和任 務分解,提升各類泛化場景下的具身智能操作水平。
機器人底盤 Disinfection Robot 消毒機器人 講解機器人 迎賓機器人 移動機器人底盤 商用機器人 智能垃圾站 智能服務機器人 大屏機器人 霧化消毒機器人 紫外線消毒機器人 消毒機器人價格 展廳機器人 服務機器人底盤 核酸采樣機器人 智能配送機器人 導覽機器人 |