☰

具身智能GPT-2時刻！國內公司做出全球最大端到端統一具身大模型

作者：蛋醬

近日，關於 Open AI 被投企業 Physical Intelligence (PI) 的一系列報道，讓人們關注到具身智能大模型引發的機器人時代變革。

目光轉回國內，我們同樣在中國公司中發現了這場變革浪潮的先行者。據機器之心瞭解，國內初創公司自變量機器人（X Square），是國內唯一一家從第一天就選擇了端到端統一大模型技術路線的公司，與 PI 的技術路線不謀而合。這家公司正在訓練的 Great Wall 操作大模型系列的 WALL-A 甚至從參數規模上已經超過了 PI。

今年 4 月，機器之心曾對自變量機器人公佈的 Demo 進行報道，其中基於他們自研的端到端統一具身大模型，雙臂機器人可利用低成本硬件即實現對不規則物體的精細操作（如抓握、拾取、切割等），以及摺疊衣服、沖泡飲料等複雜任務，展現出相當程度的泛化性能。

當前，自變量機器人的模型效果已達到驚人水準，體現在包括處理長序列複雜任務，以及泛化性、通用性等方面。

視頻鏈接：https://mp.weixin.qq.com/s/Mwt-NuGPUcsLSNPxxapdAA

拉拉鍊對機器人來說極爲困難，機器人除了僅依靠位置控制來完成微小拉鍊頭的插入，滑塊與鏈齒的精準對齊和適度力度的拉動，還需要實時應對布料變形帶來的干擾，並能夠準確判斷拉鍊的咬合狀態以及處理布料卡住等異常情況。

視頻鏈接：https://mp.weixin.qq.com/s/Mwt-NuGPUcsLSNPxxapdAA

織物操作是操作任務中最困難和複雜的任務之一。織物是柔性無序物體，晾曬/整理/摺疊衣物任務面臨識別並理解柔性物體的拓撲結構的挑戰（比如衣物展開要從完全無序狀態中識別領口/袖子等結構；衣架插入要理解衣物的前後層次；衣物摺疊要理解摺疊的結構），對模型的感知和理解能力要求很高。其次，在疊衣服的過程中，織物的運動和摩擦有大量隨機性，形態極難預測，需要模型進行實時感知和修正，要求極強的魯棒性。

這種處理複雜任務以及「泛化」的能力，正是自變量機器人團隊對機器人「Scaling Law」的探索成果，他們希望用單一的大模型來驅動端到端的機器人 manipulation。

目前，這家成立不到一年的中國初創企業，已經做出了世界上最大規模的端到端統一具身大模型「WALL-A」，並在多個維度上超過了所有已知模型。

自變量機器人認爲，目前 Great Wall 系列的 WALL-A 類似於「GPT-2」，伴隨着模型的不斷迭代，機器人領域的「ChatGPT」時刻可能會在不久後來到。

令大家好奇的是，這家年輕的初創公司，將會如何實現這一宏偉目標？

近日，自變量機器人接受了機器之心的採訪，介紹了他們正在進行的有關於技術邊界的探索，以及這場機器人浪潮下的一些思考。

世界上最大規模的端到端統一具身大模型

機器之心：X Square 正在訓練的 WAll-A 是一個怎樣的模型？

WALL-A 是世界上最大規模的端到端統一具身大模型。在多個維度上，我們的模型都超過了目前已知的所有模型的能力。

比如，從任務複雜度層面來說，我們能夠做拉拉鍊、扣扣子、整理衣物等精細、隨機且涉及複雜拓撲結構的任務；從通用性、泛化性層面來說，我們可以做到用極少的樣本，完成各種物理環境變量、動作模式的泛化和遷移。

「通用性」和「泛化性」是定義這一代具身智能技術最核心的要素。只有達到足夠的通用性、泛化性和可遷移性，才能實現在自由環境中，不受預設環境和預設物體限制的自由操作，纔是真正區別於「自動化」及以往專用機器人的新一代機器人。

機器之心：爲什麼將其定義爲機器人領域的「大統一」模型？

第一個維度，是我們實現了端到端的縱向統一。從最原始的視頻、傳感器信號，到最後機器人的速度、位姿、力矩，完全用一個模型解決，中間沒有任何切分的步驟，排除了分層所帶來的噪聲。

第二個維度，是我們實現了任務的橫向統一，所有的任務放在同一個模型中訓練，推理的時候也用同一模型進行操作。

對於一切操作任務，一個單一的模型即可解決所有問題，因此稱之爲「大統一」模型。

據我們所知，不只是 PI，海外的明星創業公司目前都在走這條路線，但國內只有我們在走。

機器之心：這種「大統一」模型與大語言模型、多模態大模型以及之前的機器人模型的關係是？

統一具身模型的技術方向，既完全不同於傳統機器人學習的小模型技術，也完全不同於以往語言、多模態大模型的技術。

首先，大模型的技術棧和小模型完全不同，兩者之間沒有什麼可遷移性。和大模型背景的同學們討論的更多是計算圖優化、混合精度訓練如何收斂、並行調度之類的問題；和做機器人或者小模型的同學們討論的更多是模型的某個設計能夠起到什麼樣的作用或者某個 Bound 是否太鬆。即使都聊起模型，大模型和小模型的同學們視角也完全不同：大模型最重視的是否方便 Scale Up，小模型更重視「可分析」和「結構設計」。

其次，這件事在數據工程方面有着更高的要求。目前有幾十個模型在支撐我們的數據系統。同時，公司自研了一系列數據採集設備。

此外，在所有 AI 領域的細分賽道中，機器人的門檻幾乎是最高的，因爲和語言或者視覺有明顯區別的一點是，機器人領域中的 Domain Knowledge 實在太多，怎麼站在大模型的語境下看這些 Domain Knowledge 很重要。另外機器人模型涉及的模態空前的多和複雜，對模型要求的重點也和以往的語言或多模態模型很不一樣，如果不是同時有兩方面的背景，可能很難把這件事完成好。

機器之心：所以你們的技術團隊是按照怎樣的思路組建的？目前是怎樣一個構成？

創始人兼 CEO 王潛本碩畢業於清華大學，是全球最早在神經網絡中引入注意力機制的學者之一。博士期間，王潛在美國頂級機器人實驗室參與了多項 Robotics Learning 的研究，方向覆蓋了機器人多個前沿領域。

聯合創始人兼 CTO 王昊博士畢業於北京大學，在粵港澳大灣區數字經濟研究院（IDEA 研究院）期間擔任封神榜大模型團隊負責人，發佈了國內首個多模態大模型「太乙」，首批百億級大語言模型「燃燈 / 二郎神」及千億級大語言模型「姜子牙」，模型累計下載量數百萬。

王潛：面對機器人大模型這波潮流，很多團隊可能因爲「沉沒成本」和「路徑依賴」而止步不前。我自己是全球最早引入 Attention 機制的學者之一，在人工智能浪潮興起的時候，我意識到純 AI 在落地方面的天花板，所以我出國去搞機器人；在機器人方面，我研究過當時最前沿的 topic，因而非常瞭解許多技術路徑的瓶頸和天花板，把該經歷和糾結的都經歷了；從 20 年左右自己就看得很清楚通用機器人這事做成只有統一大模型這一條路；所以我們從第一天開始團隊的組建和技術的探索就是完全爲這個方向設置的，包括我們的技術框架和方向從第一天開始就沒有改過。

王昊：我覺得王潛在這裡的作用是決定性的，我還真沒見過這樣既懂機器人又真懂大模型的人。我自己切身的感受是機器人這個領域門檻實在太高了，而懂機器人的人裡又確實幾乎沒人有過 scaling up 的經驗，即使像原來 Google 的那批人離開了大平臺的基礎設施支持，能否做到以前的事情也是一個很大的問號。

原生的「Robotics Learning + 大模型」的創業組合，讓 X Square 從第一天起就具備原始創新、對技術路徑本質思考的基因。

機器之心：端到端和統一模型是唯一的路徑嗎？

王潛：首先解釋下「端到端」。從 2016 年開始，我已經認定，端到端是解決 manipulation 問題唯一可行的路徑，本質上是因爲 manipulation 和所有其他 AI / 機器人任務都有本質的區別，即涉及到的物理過程的複雜性遠遠超過其他任務。這個特點決定了任何分層分步的方法都很難徹底解決這一問題，因爲模型不是完美的，每分出一個步驟，都一定會引入不準確的中間結果，即不可控的噪聲。

拿最常見的分層方法中的 3D 重建來說，經常出現很多毛刺空洞之類缺陷，有時缺陷很小，人肉眼看的時候都不太能注意得到，但在物理接觸中，哪怕一點點的毛刺都會導致結果完全不同。這類問題在每個步驟中都會疊加，最後得到的東西完全不可控。另外，每一個步驟都會丟棄掉大量的信息，而往往在最後控制的時候這些信息反而是重要的。

這也是我們團隊與很多 CV / 自動駕駛背景團隊最大的不同。很多人會覺得 manipulation 的核心在於 Spatial Intelligence（空間智能），只要能理解三維空間關係，這個問題自然迎刃而解，但據我們所知，做到這裡只是問題的一半而已。

但在去年的時候，甚至直到今天，很多人並不真正相信端到端，或者說不認爲統一是長期的趨勢。去年只有我們在說端到端，大家普遍是不信的，但現在不說端到端都不好意思出門了（笑）。

2017 年，一個非常有名的機器人教授當面跟我說：「你搞的這種端到端的路線永遠只能是 Toy Model，永遠不可能走通。」我到今天還記得很清楚。一直到今年初，端到端在國內都仍然是非主流的判斷，我們去年下半年說要做端到端，大家還是以不信爲主，說實話我們得謝謝馬斯克，特斯拉 FSDv12 給了大家很大的衝擊。到了今年年中，端到端就已經「氾濫」了，大家都爭相恐後擠到這條賽道上。

至於統一模型，端到端的共識形成尚且如此困難，統一模型的理解就更難了，因爲它更加反直覺。直到今天，國內仍然只有我們實際上在走這條路。

之所以說「Foundation Model」是反直覺的道路，因爲人們基於自身的經驗，本能的會覺得把數據集中在一個領域做專家模型的效果會更好，但今天我們看到，「通才模型」纔是真正能夠打破天花板，在相同投入下達到更高能力的正確路徑。

這條路線其實在其他領域已經有比較好的結果。例如，ChatGPT 是端到端的統一模型，也是所有任務統一的模型。又比如剛纔提到的特斯拉 FSD，雖然只做一個領域任務，但是也是端到端完全統一和所有任務的完全統一。

王昊：還有關鍵的一點，機器人做學習最困難的點，是數據；要徹底解決數據問題，只有通過把所有任務的數據放到一個統一模型裡面，靠學習所有任務中一致的 Common Structure，比如物理規律、物體特徵，這也需要 Foundation Model 來解決。

機器人的「GPT-2 時刻」與 Scaling Law

數據質量 >> 數據多樣性 >> 數據量

機器之心：業界近來常說「機器人領域的 Scaling Law」，怎麼理解？

王潛：很多人說到 Scaling Law，想到的一個詞叫「大力出奇跡」，我覺得這是對 Scaling Law 庸俗和表面化的理解。關於這點，王昊應該有更深的感觸。

王昊：因爲我算是國內當時最早做大模型方向的一批人，包括在國內最早發佈了百億模型，但當時靠規模或者大力並沒有明顯地「出奇跡」。ChatGPT 出來之後，在最早期的時候大家都發現單純做大數據規模根本復現不出來，直到有人開始從 ChatGPT 上直接拉數據做微調，纔有了第一批做出來的大模型。

爲什麼會有這種情況出現，我覺得核心還是數據的質量。我們自己訓練的感受是：數據質量對模型影響極大，好的數據可能幾千條甚至幾百條就有非常明顯的效果，差的數據哪怕幾千萬上億條，反而會讓模型越訓練越差，這都是我們在訓練語言大模型和多模態大模型實踐過程中切實看到過的，這個可能確實和一般人心中的「大力出奇跡」不一樣。

王潛：確實，數據質量在 Scaling Law 裡纔是最核心的要素，其次是數據的多樣性，排在最後的纔是數據量。

當然也不是說數據量完全就不重要了，有些探討 Scaling Law 的工作在每一個模型上只有幾十條到幾百條數據的結果，我們覺得意義似乎比較有限。真正給出機器人 Scaling Law 決定性證據的是 RT-X，因爲它確實是在一個模型上放了幾十萬條數據。

大模型 + 機器人，路徑走通了

機器之心：基於哪些背景，你們選擇在 2023 年底成立這家公司？

王潛：通用機器人發展的主要瓶頸在於智能而非硬件。以往，學術界和工業界有過非常多次向通用機器人的衝擊，每次大家都抱有很大的希望，但後來都發現這個問題的困難程度遠超過預期。在 AI 總體發展的過程中，我們逐漸發現莫拉維克悖論非常堅硬，機器人操作就是所有 AI 任務中最困難的一個，在 AI 本身有大的突破之前解決不太現實。

ChatGPT 從根本上改變了 AI 整個領域，對機器人來說有兩個點：一是很多以前覺得極其困難的問題獲得了突飛猛進的發展，例如 Planning、Reasoning、Language Interaction；二是從方法論上指明瞭解決機器人通用操作這一最核心問題的路線，一下子就看得很清楚了，對大家的解釋成本一下子變得很低。

我自己從 2016 年開始做端到端的機器人模型，19 年到 21 年基本上看清楚了統一大模型這個大方向，但那個時候不管是資本還是學術界的主流，讓大家理解和接受這種方法論都是有極大的障礙的。有了 ChatGPT 之後，「既然對 NLP 這麼複雜的任務這套路線能夠 work，對機器人這個複雜度類似的任務應該也能 work」，這種邏輯被大家所理解了。

所以我的決心是 22 年下的，但 23 年上半年我還在考慮是否在美國做這個大模型與機器人深度耦合的創業更容易成，到年中逐漸明確了這件事情在中國做有本質的優勢。正好這與王昊在具身智能上的想法相契合，所以我們就一起組建了這個團隊。

王昊：過去我一直做大模型，在長期的實踐過程中，大家逐漸觸碰到了一個本質困難：大語言模型對真實世界的幻覺始終難以消除。大語言模型就像一個生活在純文本世界裡的「大腦」，它可以通過海量的文字習得知識，但始終缺乏最基礎的物理認知和現實世界的直接互動，實際上 AI 也就難以獲得真正的理解力和解決實際問題的能力。具身智能讓 AI 能夠通過感知和與真實環境交互來學習，這正是通往通用人工智能的關鍵路徑。關於具身智能大模型的技術路線，很早之前我和王潛就開始了非常深度的探討，也非常認同彼此的技術判斷。

機器之心：你們如何確定現在是做這件事的正確時刻？

王潛：2015 年前後，深度學習開始系統引入機器人領域特別是 manipulation 領域，當時大家是抱有很大的期望的，包括現在 Physical Intelligence 的 Sergey Levine 和我們走的端到端的路線，也包括其他人走的分層分步的路線，大家都覺得打破了之前的天花板之後，應該能直接取得類似當時在 CV 或者圍棋上取得的那種很大的成功。

但到了 2018 年左右，情況比較清楚了：單純靠深度網絡 + 強化學習做不成 manipulation，核心問題還是在數據效率。

機器人的數據獲取實在太難了，更關鍵的是數據需求隨着任務複雜性的提升是指數級增長，就決定了像圍棋或者圖像識別那樣解決機器人任務是不可行的。所以當時最主流的想法是大規模做 simulation 然後做 Sim2Real，我自己也在這個方向上探索了很長時間。但到了 2019 年，我的結論是從理論上來說，至少對 manipulation 這個領域，Sim2Real 的天花板是低而且難以突破的 —— 這條路線不 make sense。

今天各種公開的實驗結果都能證明這個判斷，但是當時，大家其實面臨着除此以外無路可去的困境。我當時認爲我們需要走類似當時 OpenAI 在走的路線。

後來，兩個標誌性事件發生了：谷歌 RT-1 和 ChatGPT。

谷歌 RT-1 的出現，可以說革新了機器人領域的研究範式。RT-1 的革命性有幾點，第一是突破了之前佔據主流的 RL（強化學習）+Sim2Real 範式所面臨的明顯的天花板，人類第一次看到了通用機器人的希望；第二是指出了機器人模型同樣可能具有 Scaling Law，這一點在之後的 RT-X 中得到了確證。

但是機器人上即使出現了 Scaling Law，這條路是否能走到終點仍然是個巨大的問號，本質上還是因爲機器人特有也是最困難的數據問題。2015 年做機器人的時候，大部分很好的工作都是幾百幾千條數據，對比之下，當時 CV 和 NLP 的數據量就在幾百萬、幾千萬這個數量級，處在那個時間點上，很難想象機器人面臨的這個問題能夠有類似 CV 和 NLP 領域的突破。

這個時候一錘定音的是 ChatGPT。在 ChatGPT 上我們第一次明確地看到了 In-Context Learning，或者可以叫 Zero-Shot Learning 的發生，當然之前也有逐漸出現 Fine-Tuning 和 Few-Shot Learning，但 In-Context Learning 是最終出現的極致，就是我們所謂的「涌現」。

儘管訓練這樣一個模型耗費的數據量很大，但有了這個基礎模型之後，訓練任何一個新任務的邊際數據成本都被降低到極小。當我們考慮一個通用模型的時候，我們會發現我們第一次有了用有限的數據量做無限種類的任務的可能性，平均下來每個任務需要的數據量就會縮小到近乎無限小。這裡的核心是統一模型帶來的學習跨任務 Common Structure 的能力起到了至關重要的作用，而這件事在 OpenAI 做出結果之前沒有得到過重視。

人們基於自身的經驗，本能的會覺得把數據集中在一個領域做專家模型的效果會更好，但今天我們看到通才模型纔是真正能夠打破天花板，在相同投入下達到更高能力的正確路徑。

機器之心：在學術界能做這件事嗎？

事實上，我們已經明顯看到學術界落後於我們及美國其他 Startup 半年左右。這一點和曾經的 NLP 領域已經有些相似了。

學術界的導向過於偏重 Novelty 且缺乏工程化能力。機器人大模型一定是系統級創新和工程落地的結果。大到方向性的判斷和投入，小到具體的技術框架的改進，這些事情非常重要；我們每天都在做相應的創新和優化。我們認爲這個東西一定要以一個 Startup 的形式來做，且公司的創始核心團隊本身需要具備學術前瞻性和工程化能力。

機器之心：對於一家初創公司來說，實現「端到端通用機器人大模型」這個目標會很難嗎？

首先感謝投資人們的支持：天使輪的時候，我們是在只有 idea 和技術的時候融到了錢；我們的商業計劃書從大的技術方向和落地方向，從天使輪起就沒有改過。我們後續融資也很順利，一方面是因爲我們的進展超過了預期；另一方面也得益於更多的機構認可我們。我們堅信，在正確的方向上，一定會彙集各方支持。

這可能是數百年來，中國第一次有機會在大產業上從零到一的階段就領先世界，某種意義上也是歷史的使命。在這個情況下，長期來看就一定還是在中國去做，可能要更好一點。

將人類從繁瑣的體力勞動中解放出來

機器之心：你們的目標是「將人類從繁瑣的體力勞動中解放出來」，如何理解？

大家一直都說莫拉維克悖論，人們想的是 AI 能幫人們去做體力勞動等人不願意做的事，然後人自己去寫詩、畫畫。但實際上大家現在看到，AI 先做出來的是 AIGC 這些寫詩畫畫的東西。反而物理世界的東西，人真正希望它幫忙做的事，AI 目前還難做到。

人和動物的區別是什麼？一個是使用語言，一個是使用工具。語言上，GPT 已經某種意義上已經解決這個問題了；工具層面，就是我們要做的，讓機器人能夠脫離相對比較「笨」的狀態。

機器之心：自變量爲什麼選擇了輪式機器人這種產品形式？人形機器人賽道的火爆，你怎麼看待？

移動一個東西，你可以用底盤，也可以用很多其他方式，比如雙足、四足。

我覺得底盤是最成熟的應用方式。綜合考慮的話，要看具體場景究竟需要什麼級別的通過性。我是覺得說人們日常生活中能接觸到的大部分室內環境，輪式是足夠的。

最關鍵的是成本，哪怕以後每種應用方式都非常成熟，我覺得成本永遠都是一個大的問題。

機器之心：那未來的話，你們會拿自己的技術去賦能其他家的產品？

會的，這是我們很重要的一個方向。

機器之心：對於機器人大模型，五年到十年內會有一個什麼樣的趨勢？

一般來說，人們特別容易低估中期的進展。我覺得可以把中期的，比如五年十年的想象力放大一些。在長一些的時間尺度上看，我們已經接近於我們希望實現的通用機器人了，我比大部分人都更加樂觀一點。

關於未來具身智能的發展，這一代要解決的問題是通用性、泛化性以及處理複雜問題。我們希望行業能夠持續良性發展。之前有一段時間，國內陷入卷視頻 Demo 的浪潮，很多失真的 demo 視頻中所展現的能力往往並不能代表背後的模型水平，其實這些很大程度上過度消耗了投資人及消費者的預期。

具身智能GPT-2時刻！國內公司做出全球最大端到端統一具身大模型

相關資訊