具身智能:工業場景或率先落地,發展仍面臨多維度挑戰︱2025潛力賽道展望

隨着人工智能的快速發展,能夠給機器人帶來顛覆性改變的具身智能被寄予厚望。

具身智能是基於物理身體(智能體)進行感知和行動的智能系統,通過智能體與環境的交互獲取信息、理解問題、做出決策並實現行動,從而產生智能行爲與適應性。具身智能與人工智能的發展息息相關,IDC認爲,具身智能是將人工智能融入各類物理本體形成的智能系統。

全球範圍內,具身智能被視爲一條極具空間和高成長性的藍海賽道。目前,小鵬、特斯拉等新能源車企,智元機器人、銀河通用、星動紀元、宇數科技、傅利葉等國內初創企業在具身智能機器人領域已取得顯著成果,華爲、阿里、美團、百度等互聯網大廠也紛紛入局,具身智能已成爲產業鏈公司明確的發力方向。

具身智能三大功能:感知與交互、自決策、自學習

目前在智能工廠所應用的機器人,更多是在完成一些自動化任務。比如,機械臂需要部署在特定的環境,完成一個任務時,其實是在執行自動化工程師寫好的代碼並進行調校後的指令,是在完成一些規則的、固定的行動路線,比如抓舉等操作,可能會輔以計算機視覺等技術,但始終是“換湯不換藥”。而具身智能有別於此,具備感知與交互、自決策、自學習三大功能。

東土科技人工智能研究院院長祝一蒙告訴第一財經,“在大模型問世後,我們現在做的具身智能是通過一個大語言模型去解析用戶的自然語言命令,再通過一個視覺語言模型去觀察機器人周圍的環境,通過這兩個模型直接把用戶的自然語言命令轉化成機器人要執行的動作。”

這就涉及到具身智能的感知與交互功能。具身交互指的是智能體在物理或模擬空間中與人類和環境進行交互,需要具有主動的認知、語言理解能力、目標驅動的探索、常識推理並將自然語言的信息整合到動作序列中,大語言模型在其中起到關鍵作用。

具有感知能力的智能體必須在物理世界中移動並與環境互動,這就需要對三維空間和動態環境更加了解。與僅僅識別圖像中的物體不同,業內認爲,未來具身感知的主要發展方向是以智能體爲中心的視覺推理,上述“視覺語言模型”也爲此類。

“比如我和機器人說一句‘把這杯水放到手機的左邊’,以前需要自動化工程師拿一個示教器去告訴這個機器人把這杯水放過去要經歷哪些路徑點,每走到一個路徑點時要用什麼樣的速度和加速度,包括每個關節用什麼樣的力矩,然後走過去。但是現在我們可以通過自然語言直接告訴他任務,後面的路徑規劃和運動控制,都交給大模型去自動完成。”祝一蒙對第一財經解釋稱,這就是具身智能的自決策。

具身智能機器人企業中科光電創始人、董事長吳易明對第一財經表示,在具身智能下,大腦基於眼睛感知能力,指揮機械手做不同工件,不是識別工件(標記信息)後根據人爲不同工件設定好的不同工件的程序執行任務,而是有眼睛感知到工件後,基於自主理解的任務要求,智能分析工件的結構,各要素空間關係,再自主生成工藝、動作和各種運動參數,甚至進行交互和迭代,實現自主作業。“這樣的機器人就類似於一個熟練工,拿到了工件的圖紙,知曉任務目標就能幹了。”

最初這個熟練工僅具備兩年經驗,而在工廠應用兩年後,通過大模型的自學習能力,具身智能機器人能夠成長爲一個四年甚至更長經驗的工程師。這就是具身智能的自學習特點。

人形機器人是具身智能終極方案之一,工業場景或率先落地

人形機器人被認爲是具身智能的絕佳載體。

2024年一批人形機器人進入商用測試階段,目前科研教育場景是人形機器人的主要應用場景。IDC預計,2025年人形機器人將在商用服務、特種作業領域從事運動速度、節拍要求較低的生產服務任務,預計將實現千臺量級的小規模商用。

“人形機器人是機器人+端側AI非常好的應用,也是建立物理世界和大模型連接橋樑的比較好的載體,它是個很優的終極方案之一,但不是最終極的方案。”某具身智能機器人初創企業聯合創始人對第一財經表示,“就像人的很多運動特性和感知能力不如部分動物,人形機器人是目前所處物理環境的一個友好方案之一。”

事實上,具身智能並不侷限於人形或機械臂等,而是可以根據具體應用場景來選擇合適的物理形態。任何能夠在物理空間環境中行動並形成互動的機器人,如協作機器人、移動機器人、商用服務機器人等,通過融合人工智能技術、軟件產品,都有望發展成爲具身智能機器人。也就是說,具身智能機器人的關鍵在於具身智能的底層技術,而非機器人的物理形狀。

“具身智能機器人能夠像人一樣自主使用傳統工具,比如你要砸釘子,我就可以找到榔頭,我能認識榔頭,像人一樣抓榔頭去砸釘子。能夠像人一樣使用傳統工具,所以就能夠操控機牀等其他設備,這就是整個機器人的適用範圍,把它做成人的樣子,它就是個人形機器人。”吳易明表示。

業內認爲,工業領域或是具身智能機器人率先應用落地的場景。

前小鵬機器人產品設計負責人孫兆治此前表示,產線或者工業環境相對來說能夠做到結構化或者半結構化,而討論較多的養老環境或家務環境其實是一個非結構化的環境,它的corner case會非常多,技術成熟到應對這些場景之前,可以優先落地到半結構化場景或者結構化場景,相對來說在產線上或者工業應用相對可控一些。

上述具身智能機器人初創企業聯合創始人也有類似觀點。“工業和有限範圍、有邊界條件、非開放型的場景會率先應用。工業應用場景的每個節拍都很清晰,在訓練過程中能夠有的放矢地進行原子動作,以及建立基於不同垂類領域的原子動作體系。預計2025-2026年,在一些簡單場景,包括搬運、分揀等,具身智能機器人都能夠做一些事情。而對服務娛樂領域這種高泛化性的人機交互場景,需要機器人八面玲瓏,對它的算法要求也更高,這種情況的應用可能會更晚一些。”

具身智能發展面臨多維度挑戰

具身智能機器人產業鏈主要包括硬件、算法與模型、數據、算力等方面,其性能表現高度依賴於軟件與硬件的全方位進化。作爲新興技術,具身智能的發展也面臨着多維度挑戰。

硬件是一切的基礎。具身智能產業鏈需要穩定供給的高性能硬件,否則無法根據算法和數據進行硬件的快速優化和修改。“硬件方面,關節、本體領域國內做得還是不錯的。我們的部分產品可能在某些性能上與國外存在差距,但現有的工業機器人、協作機器人等都奠定了硬件基礎。”上述聯合創始人表示。

算法方面,該人士認爲,國內外起跑線差不了太多;端側算力領域,華爲等很多企業正在奮力追趕。

數據也是困難的環節之一。機器人與物理世界的感知與交互,所需要積累應用的數據也多源於物理世界,高質量的數據是訓練高性能具身智能機器人的基礎。

以工業領域爲例,工業環境複雜,數據難以積累與有效打通,給AI在工業領域的滲透帶來了阻力。“AI需要行業數據的訓練,以對行業和領域加深瞭解。但工業數據的採集比較困難,目前任何一個行業都沒有相對規範的標準,同時數據採集過程中也經常會有‘噪音’,數據的有效性難以保證,這也給AI實際應用效果打了折扣。此外,工業領域往往會涉及更多數據安全相關問題,這也給AI應用在工業領域帶來了困難。”祝一蒙告訴第一財經。

目前,行業正在通過聯盟、跨界合作與建設開源數據集等方式,共同構建高質量、大規模的具身智能數據集,解決數據稀疏和碎片化的問題,同時促進降低研發成本,加速技術迭代,促進生態繁榮。

從投資角度看,頭部人形機器人的本體研發集成廠商已經經歷多輪融資,估值較高,行業整體投資熱點正從人形機器人本體向具身智能模型和其它上游零部件遷移。總體而言,具身智能賽道有望繼續成爲市場投資熱點,第一財經也將持續保持關注。