3D 視覺派:斯坦福具身智能人物關係圖

“蘇昊、黃其興、祁芮中臺、盧策吾、朱玉可、王鶴、王世全、弋力、莫凱淳……他們從 3D 視覺出發,改寫了機器人的故事走向。”

作者 | 賴文昕 陳彩嫺

編輯 | 陳彩嫺

2009 年,當蘇昊第一次走進位於斯坦福 Serra Mall 353 號的蓋茨大樓時,他剛經歷完一場對人工智能的思想掙扎。

那時他剛參加完搭建 ImageNet。導師李飛飛從普林斯頓轉到斯坦福任教後,他也隨之從美國東部來到硅谷。在普林斯頓的算法課上,著名計算機科學家 Robert Schapire 認爲,“計算機視覺的解決還要 200 年”。蘇昊嘗試與他的朋友顧春輝(伯克利博士)交流傾訴,顧春輝寬慰他,說視覺正處於黎明前的黑暗,但下一句是“可能還要黑暗 30 年”。

這難免使他對個人的學術命運與職業生涯感到擔憂與迷惘。

結果,事物的發展出人意料——僅 3 年後,AlexNet 誕生,計算機視覺的星星之火迅速燎原,大規模數據集 ImageNet 也成爲推動 2D 視覺崛起的幕後大功臣。蘇昊初出茅廬就參與 ImageNet,這樣的機會千載難逢。

但相比鵲起聲名,這段經歷起伏帶給他的最大影響,或許是對創造歷史的認知:

真正能夠改變歷史的時間點,早已在黎明前的黑暗中蟄伏許久。

01

風起 3D:從 ShapeNet 到 PointNet

記得第一次在克拉克中心見到蘇昊時,弋力就對這個師兄的印象深刻,覺得他“對 3D 視覺的發展有非常好的、有預見性的看法”。

那是 2014 年。當時蘇昊正在向 Leonidas J. Guibas “推銷”一個遠大的研究計劃:構建一個 3D 領域的大規模幾何物體數據集,對標 ImageNet。

弋力從清華本科開始接觸 3D 人臉生成,對 3D 視覺很感興趣,到斯坦福後也想繼續研究這個方向。當時 3D 視覺領域的研究還是以三維重建、運動恢復結構等傳統的課題爲主,很少有人將重點放在數據上,蘇昊的想法很超前。

也因爲超前,Leonidas 一開始很猶豫。Leonidas 是斯坦福幾何計算組的主任,也是蘇昊、弋力的博士導師。但蘇昊堅持認爲這個想法值得放手一搏,在師兄黃其興的支持和幫助下,花大量的時間與精力去說服 Leo,在組裡力推。Leonidas 看到了初始數據集和初步的研究成果後同意在 2014 年開始大規模 3D 數據的收集工作。

蘇昊

蘇昊的本科就讀於北京航空航天大學,導師是李未。2005 年,李未將蘇昊引薦給沈向洋,沈向洋成爲蘇昊在北航讀博的共同導師,蘇昊也由此進入微軟亞研(MSRA)實習,並在那裡首次接觸到人工智能。

在 MSRA,蘇昊先跟着周明研究了一年自然語言處理,然後又跟着孫劍研究了兩年計算機視覺。那三年正是 MSRA 的黃金時代,蘇昊的右邊坐着徐立,後面坐着何愷明。

後來沈向洋轉去美國,將蘇昊推薦給李飛飛。2008 年,蘇昊到普林斯頓學習,正好參與了李飛飛當時正在主導的大規模數據集 ImageNet 項目。2009 年,蘇昊跟着李飛飛從普林斯頓轉到斯坦福,在 ImageNet 之後又與李佳等人合作了 Object Bank。

那時深度學習還沒火,沒有人知道 ImageNet 會在未來引爆視覺圈,但蘇昊已經開始相信神經網絡。

2010 年蘇昊到吳恩達組實習時,一度想將 Object Bank 變成端到端的工作應用到 ImageNet 上——這正是後來 AlexNet 的思路。但這個想法沒有獲得吳恩達的支持。AlexNet 爆火後,蘇昊在惋惜的同時,更加篤定端到端的研究前景,於是決定轉向與機器人更近的 3D 視覺研究,加入了 Leonidas 門下。

Leonidas 是幾何算法出身,後來研究方向拓展到圖形學領域的幾何處理,尤其是形狀分析。形狀分析對 3D 視覺中的數據結構、幾何結構、語義屬性與功能信息等研究十分關鍵,因此當時斯坦福的許多 3D 視覺愛好者,如黃其興、蘇昊、祁芮中臺,都聚集到了幾何計算組。

黃其興

從進入 Leonidas 組起,蘇昊就開始嘗試將 3D 視覺與深度學習結合起來。當時,對比 2D 視覺,3D 視覺在深度學習時代的發展相對遲滯。蘇昊分析原因,認爲是因爲缺少大數據的驅動。2D 視覺有 ImageNet,所以發展迅速,因此建一個 3D 視覺領域的大規模數據集迫在眉睫。

無巧不成書。不只蘇昊一個人關注到 3D 數據匱乏的問題。

2014 年,普林斯頓的肖建雄、宋舒然等人發表了 ModelNet——這是一個小規模的 3D 數據集;同時,斯坦福的兩位博士生 Manolis Savva 與 Angel Chang 也準備了一個小的 3D 數據集,與 ModelNet 有異曲同工之處。

Manolis 是圖形學博士,師從圖靈獎與奧斯卡獎得主 Pat Hanrahan,而 Angel Chang 是自然語言處理背景,與陳丹琦師出同門,師從 Christopher Manning。與 ModelNet “撞車”之後,Manolis 就找蘇昊討論,蘇昊提出 ModelNet 與 Manolis 手上正準備發表的數據集都太小,建議他們一起合作一個大規模數據集。

他們一拍即合。弋力也很認可蘇昊的想法,也全情投入。他們計劃將這個數據集命名爲“ShapeNet”,顧名思義,是以物體的形狀爲核心,蘇昊、Manolis Savva、弋力與 Angel Chang 也就成了 ShapeNet 的最初四位核心成員。

弋力

由於蘇昊之前參與過 ImageNet,對大規模數據集的數據收集與標註有經驗,因此蘇昊指揮、弋力執行,工作推進地很順利。2014 年,他們完成了第一版 ShapeNet,主要是圍繞 3D 數據的收集、清洗、形狀分類與物體對齊展開。

2015 年,他們開始加標註。弋力和蘇昊提出了新的部件分割標註算法,並將 Manolis 與 Angel 先前的工作納了進來。第二版 ShapeNet 添加了部件分割標註、物體幾何尺寸等信息,並將元信息與形狀標註對齊,使得物體的 3D 形狀與信息知識更加豐富。

普林斯頓的 ModelNet 標註少,只有語義信息,且只有一個類別的標註信息能做分類。而蘇昊等人認爲,相比二維數據,三維數據的優勢恰恰在於不僅能做分類,其包含了更多的幾何結構、更豐富的世界知識,能夠承載大量的物理信息,因此標註十分重要。

2016 年,他們開始在圈內宣傳 ShapeNet,但當時研究 3D 數據分析的人還很少,關注度並不高。與此同時,當時已博士畢業、到豐田芝加哥研究所工作的黃其興也繼續支持 ShapeNet 的研究工作。

最終,他們完成了包含超過 300 萬個模型、3135 個類別的 ShapeNet,也是全球第一個大規模 3D 數據集,堪比 2D 領域的 ImageNet。

但由於 2016 年左右數據知識產權保護的呼聲日益升高,尤其是 CVPR 發生了 SUNCG 數據集侵權事件,最終 ShapeNet 只開放了一部分數據允許公開下載。

與 ImageNet 不同的是,ShapeNet 不僅一樣能做語義對齊、檢測分類等基礎任務,而且由於 3D 數據天然包含更多物體信息,ShapeNet 宛如一個天然的知識庫,信息標註能與物理世界更好對齊。

論文鏈接:https://arxiv.org/pdf/1512.03012

ShapeNet 的出現大大推動了 3D 視覺領域的發展,3D 視覺的研究也從基於經驗的算法設計逐漸轉變爲大數據驅動的研究範式,進入黃金髮展期。

只有構建大量的數據與豐富的標註支持,3D 領域的研究者才能更好地去設計三維深度學習網絡。2017 年,蘇昊與祁芮中臺(Charles R. Qi)、範浩強等人基於 ShapeNet 開發了 PointNet、PointNet++、PSGN 等算法,驗證了將深度學習用於 3D 點雲的可行性。

蘇昊等人在 3D 領域的成果,最先影響到自動駕駛領域。

PointNet 在深度三維點雲處理的地位與 2D 領域的 ResNet 相當,是每一個研究三維點雲的人都繞不開的經典網絡。PointNet 也因此成爲自動駕駛領域的核心算法,被廣泛引用。

具體來說,在自動駕駛中,環境感知所收集的數據往往是非結構化數據,傳統的 2D 網絡(如 CNN)無法對其進行很好的點雲分類,而蘇昊等人從 3D 視角提出的 PointNet 則提供了很好的解法。

3D 視覺崛起後,PointNet 與 PointNet++ 作爲三維深度學習的經典工作,也成爲了全球各高校研究 3D 必讀的論文,如今兩篇論文的谷歌學術引用量都超過了 1 萬。

而 PointNet 與 PointNet++ 的核心作者祁芮中臺,從斯坦福博士畢業後也選擇了進入自動駕駛領域:2019 年,祁芮中臺加入 Waymo,主導搭建了 Waymo 新一代自動駕駛感知系統。2024 年 3 月,他又從 Waymo 離開,加入了特斯拉的 FSD 部門,目前在研究端到端自動駕駛大模型。

祁芮中臺(Charles R. Qi)

在 2D 視覺領域,ImageNet 推動了 ResNet、AlexNet、LeNet 等等經典二維網絡架構的誕生;而在 3D 視覺領域,ShapeNet 則加速了 PointNet、PointNet++、SparseConveNet 等等經典三維網絡架構的出現。

從 2017 年到 2019 年間,三維深度學習實現了巨大突破。研究者不僅使用 3D 神經網絡來處理點雲(如 PointNet),還有處理稀疏性(如 SparseConvNet),以及利用 Mesh 作爲圖形學中的三維表徵進行深度學習研究。

對於新一代 3D 視覺的崛起與其即將催生的系列產業,ShapeNet 功不可沒。也因此,ShapeNet 被譽爲“3D 視覺領域的 ImageNet”,在 2018 年獲得幾何處理會議(SGP)的最佳數據集獎。

但解決 2D 與 3D 的感知問題,只是蘇昊對人工智能想象的起點。

3D 視覺鋪墊了具身智能的可行性。

2016 年前後,在 ShapeNet 與 PointNet 發佈的時候,也是自動駕駛創業的最紅火時期。完成這兩個工作後,蘇昊等人也成爲了 3D 視覺領域的先鋒人物。那時將 3D 應用於自動駕駛感知已是一門顯學,但蘇昊卻將目光投向一個未知數更大的賽道:

機器人。

02

萌芽

總的來說,從 2D 到 3D,從 ImageNet 到 ShapeNet,蘇昊在學術生涯的早期就到達了計算機視覺的巔峰。

2016 年 ShapeNet 出來後,PointNet 的誕生只是時間問題,蘇昊隱約能感覺到:在大數據的驅動下,計算機視覺在感知方向上的研究已經七七八八,接下來難有更大的突破。彼時,硅谷的一些 CV 頂尖學者如 Jitendra Malik、李飛飛也提出相似看法,認爲視覺的下一步應該是與機器人結合。

蘇昊在吳恩達組實習時,對機器人研究耳濡目染。吳恩達組成名的一手絕活是用強化學習倒飛直升機,而這一工作的開拓者正是後來加州大學伯克利分校的機器人大佬 Pieter Abbeel。Pieter Abbeel 開拓了人工智能與機器人結合的方向,蘇昊也從那時開始對機器人感興趣,並認識到控制的重要性。

那時,蘇昊就在思考:接下來視覺要解決的問題不是“感知”本身,而是“感知什麼”。

視覺中所謂的感知對象,包含了大量人所定義的知識與概念,還有一些人無法定義、但有感知的概念。“感知的對象從哪裡來?如果說感知是從物理的信號到概念的映射,那麼是誰定義了概念的空間?”蘇昊認爲這是視覺智能接下來的十年要回答的問題。

他認可笛卡爾的觀點,“智能是在智能體與環境的交互中涌現,是感覺運動行爲的結果。”也就是說,如果感知不與交互閉環、即無法被定義。因此蘇昊認爲,計算機視覺的下一個問題,就是與機器人結合,打通感知與控制,實現機器人從感知到控制的閉環。

大約 2016 年在斯坦福,對機器人狂熱的不只蘇昊一人。當時在斯坦福當博士後的盧策吾也對這個新方向十分感興趣。

盧策吾

盧策吾 2009 年從中科院碩士畢業,爾後到香港中文大學讀博,導師是賈佳亞。博士期間,盧策吾主要研究計算機視覺,但從那時起他就經常思考:通用人工智能(AGI)的本質是什麼?

盧策吾有一個感覺:視覺只是人工智能的一個分支,人工智能應該將視覺與其他的技術分支(如語音、語言)整合起來,形成一個真正通用且統一的智能體,並與人進行交互。而這個智能體的終極體現,就是機器人。

但在當時,深度學習前夜,將人工智能的各個分支整合是個天方夜譚。盧策吾將自己的想法與周圍人交流,大家都覺得他說得有道理、但不大可能實現,因爲當時各項技術的發展都還不成熟。

到 2015 年去斯坦福後,他先後在李飛飛組與 Leonidas 組,卻發現兩個組都開始探索機器人,與他的想法不謀而合。在深度學習的推力下,視覺技術逐步成熟,跳出視覺思考更大的科學問題也成爲可能。

盧策吾在斯坦福當博士後的那段時間,正好是具身智能的萌芽期。

他先在李飛飛組。一開始是李飛飛和學生們討論要開始研究機器人,自然的盧策吾和朱玉可兩個人就經常一起討論。盧策吾與朱玉可都很感興趣,但又都不知道從何開始。

朱玉可本科畢業於浙江大學,2013 年就加入李飛飛組,最初做的是視覺知識庫,2015 年才和盧策吾一起轉機器人。當時 Danfei Xu、範麟熙(Jim Fan)還沒來。

朱玉可

於是他們就跑到蓋茨樓對面的咖啡店喝咖啡、討論機器人要怎麼研究。盧策吾和朱玉可有一個習慣,就是喜歡在研究間隙一起組隊去喝咖啡,因爲在實驗室要說英文,去咖啡廳用中文討論更自然輕鬆。

起初盧策吾很樂觀,覺得“花兩年就能把具身智能搞出來”,就開始投入研究。“後來才發現,那時的組會就像 1956 年的達特茅斯會議,以爲人工智能馬上就要爆發,結果要過幾十年。”盧策吾事後向雷峰網回憶。他也是真正進入這個領域後才發現,通用機器人是一個龐大的系統,絕非朝夕之功。

Leonidas 組與李飛飛組很少交流,盧策吾由於同時向兩個老闆彙報,經常穿梭在兩個 Lab 之間,對兩邊的風格都有所瞭解:

李飛飛認爲,機器人要研究對世界的本質理解,即世界模型;而在 Leonidas 那邊,蘇昊則認爲要從 3D 切入,通過模型與環境的交互、抽象出對世界的理解,從而減少模型對真實環境數據的依賴,完成從感知到控制的閉環。兩邊的思路有所交叉,又各有側重。

盧策吾與朱玉可一開始是從關係理解入手。盧策吾認爲,解決機器人首先要深度理解每個物體之間的關係、以及物體是如何被操作的,所以他首先做了一篇視覺關係檢測的工作;朱玉可發表了大規模圖片語義理解數據集 Visual Genome。如今這兩篇工作都成爲了從視覺研究機器人的經典論文,引用量均超過一千。

完成這個工作後,盧策吾就遷到了 Leonidas 組,與蘇昊、祁芮中臺一塊。爾後李飛飛組加入徐丹飛、Jim Fan 等人,繼續沿着機器人方向研究。2024 年英偉達成立通用具身智能體研究實驗室 GEAR,GEAR 的兩位技術領導正是朱玉可與 Jim Fan。

範麟熙(Jim Fan)

判斷 3D 要與機器人結合後,蘇昊就開始給 Leonidas 組招了好幾個學控制與強化學習方向的學生,嚴夢媛、王鶴、邵林等人都是在 2016 年前後加入幾何計算組,同期姚班學生淦創在 Leonidas 組訪問,也由蘇昊指導。

蘇昊認爲,要搞懂控制,就要從靜態的視覺、圖形學往動態的力走,就要把物理系的人招進來,而嚴夢媛與王鶴都是物理背景出身,都曾在全國物理競賽(CPho)上獲得出色名次:嚴夢媛是 CPho 金牌、全國最佳女選手,保送北大物理系;王鶴是 CPho 銀牌,保送清華微電子與納米電子學系。

盧策吾剛到 Leonidas 組時,組裡主要是蘇昊、祁芮中臺,他們三人的工位並排。弋力、王鶴等人進組後,蘇昊與弋力就坐到了盧策吾的斜對面,王鶴坐在盧策吾後面。與李飛飛組的多元文化不同,Leonidas 組基本全是中國人,中文是組內的半官方語言,大家經常在實驗室裡直接說中文。

在李飛飛組,盧策吾與朱玉可的社交方式是喝咖啡。到 Leonidas 組之後,蘇昊等人的社交風格就是喜歡一起開車去遠的地方找中餐館一起吃飯。有段時間,蘇昊、盧策吾、弋力與王鶴等人幾乎每天都聚在一起吃飯,對具身智能進行各種天馬行空的討論。

在以往,深度學習與機器人的學者是兩個世界的人,兩邊是完全不同的思想體系。在斯坦福讀博的尾聲,蘇昊與王鶴、弋力等人一直在探討如何將 3D 視覺與強化學習結合起來。

王鶴

盧策吾也重視 3D 與控制,但除此之外,他認爲機器人研究還有一個很重要的板塊:硬件。軟件出身的人往往不願意碰硬件,直到 2019 年左右,大家才慢慢意識到要上真機,但在那時盧策吾就意識到要跟真機結合。

斯坦福的各個學科都是世界頂尖,機器人領域也不例外,於是盧策吾就去找斯坦福的機器人學者合作,機緣巧合之下認識了潮汕同鄉王世全。

王世全的本科畢業於浙江大學,2012 年到斯坦福讀博,導師爲 Mark Cutkosky和Oussama Khatib。Oussama 時任國際機器人學會主席,2016 年盧策吾找到王世全時,王世全剛剛獲得機器人頂會 IROS最佳論文,並已在IJRR、TRO等機器人頂刊發表多篇論文。

彼時王世全正在籌備通用機器人方向的創業,約盧策吾到他家裡長談。第一次見面,盧策吾從AI的角度、王世全從機器人的角度,兩人一起梳理了通用機器人的整個系統,也是在那時,盧策吾才第一次意識到,具身智能不僅要“大腦”好、“身體”也要好,兩者缺一不可。而且,本體能力邊界的突破也有許多的不確定性,需要用頂尖的技術來解決。

他們一拍即合,斯坦福的氛圍是,外面總有一堆風投在鼓動學生創業,所以他們一有想法,馬上就拿到了投資。2016 年 6 月,王世全、盧策吾、鍾書耘與葉熙陽就成立了非夕科技。除了盧策吾,其他三人都是機器人出身。

王世全

2016 年到 2018 年間,硅谷的視覺圈已經開始討論“具身智能”的概念,美國從 2017 年開始就設立了具身智能相關的科研經費,但整體來說研究熱度並不高。

ECCV 2018 期間,弋力與蘇昊、盧策吾、黃其興等人一起組織了一個題爲“仿真環境中的視覺學習與具身智能體”(“Visual Learning and Embodied Agents in Simulation Environments”)的 workshop,希望去推動具身智能的發展,但更多人只是出於興趣關注。

那時大家都隱約感到具身智能是未來,但整個領域還沒能立即轉身。

2018 年蘇昊從斯坦福博士畢業後,由於 Leonidas 沒有堅決轉機器人,幾何計算組就中斷了在強化學習上的研究。弋力與王鶴轉回 3D 視覺研究,嚴夢媛、邵林轉到 Jeannette Bohg 組研究機器人與交互感知,淦創加入IBM-MIT研究院研究直覺物理。如今嚴夢媛在 OpenAI 任職,邵林爲新加坡國立大學助理教授,淦創爲麻省理工大學助理教授。

03

各自戰鬥

2016 年,盧策吾從斯坦福回到上海交通大學任教;2017 年,蘇昊以 CPT 實習的身份加入加州大學聖地亞哥分校(UCSD)任教,2018 年博士畢業。而弋力、王鶴、莫凱淳等人則留在斯坦福繼續讀博。2018 年到 2021 年是具身智能的起點,他們分散在各地,獨自探索。從時間線看,中美高校在具身智能上的研究差距並不大。

盧策吾是國內第一個堅決探索具身智能的學者。他在上海交大招了方浩樹等學生,創立了具身智能研究團隊;同時與王世全等人聯合創業、發力非夕科技。與在斯坦福時只從一個擅長的點(視覺)切入不同,回國後,盧策吾對具身智能系統進行了全面分析並佈局。

“整個具身智能系統是一個大的體系結構,這意味着裡面的每一塊,從具身的感知、仿真、推理到執行,以及各個模塊的工具棧,還有數據的採集與評估等等,都需要去突破、協同。”盧策吾告訴雷峰網。

這是一個孤獨且痛苦的過程:他需要從頭開始學習硬件、仿真等對自己早期職業生涯的學術評估沒有作用的知識。在視覺發展最瘋狂、就業最好的時候,盧策吾要說服一羣衝着視覺來的學生跟他一起摒棄外界的喧譁,關在實驗室裡鼓搗硬件。

苦逼的感受來自三方面:一是他們做的是一個非常複雜的系統;第二,他們做的工作在當時是“非主流”,前途未卜;第三,學生不理解,大家會覺得,如果弄一篇視覺的論文、週期會很快,但具身智能發論文要搭硬件、做實驗,發佈論文的週期很長。

因爲國內沒太多人關注具身智能,在申請科研經費時,盧策吾只能按視覺來申請。一開始他研究人體姿態估計,也是爲了從行爲中理解世界模型。但視覺部分的研究投入只是總投入的1/3;也就是說,早期盧策吾團隊約有 2/3 的機器人相關工作沒辦法變成經費。

在這種情況下,盧策吾與學生的壓力都很大。而研究具身智能的過程也會不斷“踩坑”:具身智能系統的複雜程度堪比火箭,需要各個模塊的成熟和互相支持、互相迭代才能形成正向循環,但早期具身智能的許多板塊都是空白的,上游基礎設施孱弱,導致有時算法明明很先進、但機器的控制系統不穩又要推倒重來。

他與團隊花了整整 3 年,才發了第一篇具身智能方向的論文。怎樣證明這是一篇具身智能的論文?盧策吾告訴雷峰網,“關鍵是看論文裡有沒有真實機器人,以及能否被頂尖的機器人期刊所接受。”

2019 年,盧策吾帶領團隊終於在國際機器人頂會 IROS 上發表了兩篇基於強化學習的具身智能論文:一篇是推出了可遷移動力學模型完成機器人學經典的“Peg-in-hole”精細操作任務,另一篇則是提出了基於經驗的傾向性獎勵塑造機制,讓機器人直接從感知解決操作任務。

爲了在真機、而不僅是虛擬環境中做檢測,盧策吾着手建立了硬件平臺來管理實驗數據。盧策吾也是最早在真機上實驗的一批人工智能學者。

儘管 IROS 只是 CCF 所列的 B 類會議,但對盧策吾與團隊來說,是他們從視覺跨到機器人領域的一次里程碑式的勝利。在那之後,他們一發不可收拾,又圍繞抓取、以力爲中心的方向做了許多工作,而這些對算法與機器人本體的協同提出了更高要求。

非夕科技實時抗干擾小球平衡能力展示

搭檔王世全讓盧策吾對機器人的軟硬件協同有了更深入的瞭解。他們每年在 RSS、ICRA、IROS 都很高產,隨後IROS 最佳論文、ICRA 最佳論文、RSS 最佳系統論文提名獎隨之而來,特別是在TR-O、IJRR等頂級期刊穩定發論文。在機器人領域頂級期刊發文比會議的難度要高很多。

人工智能研究者往往有一個誤區,即單純將機器人視爲一個執行任務的本體,但實際上機器人執行任務是需要“力”的感知和控制的。在硬件上做大規模實驗採集數據的難度很高,此外機器人本體也還需要許多底層的突破。

例如,傳統機器人的操作也主要以軌跡爲中心,但實際上人與環境的交互並不是基於預設軌跡,而是基於自發的動作、甚至肌肉記憶,因此人在生理上的細微變化(如肌肉疲勞)也會導致操作的靈巧性發生顯著變化。

因此,回國後盧策吾就思考以力爲中心,研究機器人對世界的理解。在非夕科技,他們發佈了世界上第一個能夠實現對“力”的靈敏感知和精準控制的自適應機器人;在上交大,2020 年,他們發表了全球第一個能夠實現人工智能的通用抓取工作 GraspNet。

GraspNet 的引用量雖然只有幾百,原因是要上真機實驗、復現成本高,但已是近幾年機器人抓取方向引用最高的論文之一。

第一批加入盧策吾團隊研究機器人的學生有方浩樹(現 MIT 博後)、李永露(交大助理教授)、徐文強(MIT 博後)等人,他們後來都成爲了中國第一批本土培養的具身智能博士。此外,還有本科生王辰,如今在斯坦福李飛飛組讀博,是李飛飛團隊在具身智能方向的“扛把子”之一。

從左到右依次爲:方浩樹、李永露、徐文強、王辰

在北美,蘇昊也是第一批具身智能“探險家”。2017 年,他被圖形學大牛 Ravi Ramamoorthi 招入 UCSD 視覺計算中心,創立了 SU Lab。

擔任教職後,蘇昊繼續攻克具身智能,其團隊的研究重點是兩塊:

一塊是強化學習,尤其是基於世界模型的強化學習(MBRL)。控制裡有一個方向是探討環境建模,即如何讓整個系統更加可控,這裡剛好可以將視覺的知識結合進來,將建模與可控變成端到端,實現感知與交互的閉環。此也爲具身智能的突破口。

他推動招聘王小龍加入 UCSD 任教,培養的學生如陳睿、顧家遠等先後加入清華大學、上海科技大學等大學任教,秦譽哲也開始了自己的靈巧手創業行動,黃志翱和項帆波則選擇與蘇昊一起創業。

另一塊是 3D 重建與生成。當時蘇昊等人已在 3D 算法上取得引領性成果,但仍無法與 2D 視覺平起平坐。相比 2D,3D 的迅速擴張仍受到數據豐富性的限制,而蘇昊認爲解決這個問題的根本,就是能夠基於較破損的 3D 輸入或其他模態數據實現高質量的 3D 輸出。

在斯坦福的最後一年,他引導陳文徵和高俊二人進入圖生 3D 的方向,他們後來在多倫多大學和英偉達做出了突破性成果,開發出了 Get3D 等 3D 生成領域的突破性工作,二人分別加入了北京大學和密歇根大學任教。在 UCSD,他推動招聘多名年輕教授在此方向發力,培養的年輕人也逐漸成爲領域的中堅力量,其中學生劉明華和張孝帥也選擇與蘇昊一起創業。

與盧策吾一樣,剛擔任教職的蘇昊除了自己需要堅定信念外,也需要說服學生不要去研究導師已經擅長的 3D 視覺、少發論文,而是去研究強化學習、模擬器、控制閉環等當時門庭冷落、但對具身智能的研究至關重要的課題。

蘇昊與他的學生,圖源蘇昊 UCSD 實驗室 SU Lab 官網

2019 年開始,蘇昊團隊在強化學習、包括 Sim2Real 與 MBRL 上均有出色成果。他們優化了域隨機化參數的選擇以提高 Sim2Real 效果,用基於學習的方法提高了機器人在雜亂場景中單視圖單次拍攝的六自由度抓取任務的成功率,還提出了通過 WGAN 生成更接近真實環境的仿真數據,提高學習效率和智能體的決策質量。

蘇昊認爲,研究具身智能必然繞不開仿真。2020 年,蘇昊團隊發佈了全球第一個仿真引擎——SAPIEN,能模擬機器人與人類的交互。

“科學的研究需要可復現,但整個深度學習系統是一個黑盒,沒有辦法得到統計上有理論保證的結果,所以必須依靠大量的經驗性測試。在真實世界中做閉環學習和測試太慢了,不可能保證科學的研究,維持健康的學術生態,所以繞不開仿真。”蘇昊解釋。

SAPIEN 包含了來自 ShapeNet 和 PartNet 的大規模 3D 鉸接對象數據集,支持需要詳細部件級理解的機器人視覺和交互任務,成爲引領具身智能的經典工作。2021 年,蘇昊還基於 SAPIEN 開源舉辦了機器人操作大賽 ManiSkill,希望推動具身智能評測標準的建立。

SAPIEN 模擬效果

仿真對具身智能的評測很重要。盧策吾與李飛飛、蘇昊交流,他們都提出了用仿真來評測,他們便也開始做模擬器。蘇昊團隊發表 SAPIEN 後,英偉達團隊發表了 IssacSim,盧策吾團隊也發表了 RFUniverse,李飛飛團隊也發了 BEHAVIOR。同時,因爲盧策吾團隊很早在真機上實驗,知道仿真與真實仍有一定差距,因此也強調仿真與真機的結合。

蘇昊到 UCSD 後,也仍與斯坦福幾何計算組保持聯繫。那時王鶴在研究位姿(Pose),弋力在研究部件(Part),蘇昊跟他們說一定要研究具身智能。當時大家對具身智能都還在探索階段,蘇昊經常邀請弋力、王鶴、莫凱淳一起討論,也共同完成了 PartNet、SAPIEN 等工作。

讀博期間,王鶴的課題是物理交互,第一個工作就嘗試了“視覺-語言-行爲”的聯合生成模型,在 2019 年獲得了歐洲圖形學會議最佳論文提名。之後,他主攻基於合成數據的泛化機器人視覺,開創了類別級六維物體位姿估計這一研究領域,關注面向具身操作的物體狀態估計和閉環感知。

弋力的研究重點是部件分割。部件分割不僅是 3D 領域的經典問題,也是具身智能的一個重要組成部分。

“在機器人與物理世界的交互中,雖然交互的行爲通常以物體整體爲中心,但實際往往集中在某些關鍵部件上。例如,當機器人要開門,它需要識別出門把手的位置,才能完成後續的操作。”換言之,部件就是機器人與物理世界交互的界面(interface),是機器人完成下游交互任務的關鍵。PartNet 就是部件分割的代表作。

PartNet 的主力是莫凱淳。莫凱淳是上海交大 ACM 班本科第一名,2016 年到斯坦福讀博,也參與過 PointNet。2019 年,莫凱淳在蘇昊的實驗室訪問,與弋力合作在 ShapeNet 的基礎上對部件分割做了更細粒度的標註,發佈了 PartNet。2022 年從斯坦福博士畢業後,莫凱淳加入英偉達機器人實驗室,向 Dieter Fox 彙報。

莫凱淳

從 2016 年到 2021 年,具身智能在北美的發展也從萌芽期進入到了蓬勃期。這幾年,蘇昊、盧策吾與王鶴等人雖各自作戰,但通過“遙”交流,始終走在領域的前沿。

ICCV 2021 期間,蘇昊、王鶴與弋力等人又發起了一場 workshop,題爲“The 1st Workshop on Simulation Technology for Embodied AI”。相比 ECCV 2018,他們已經無需再向視覺圈“兜售”具身智能,而是可以討論具體的話題。

那時領域內有一個分歧:具身智能要在仿真環境中研究,還是要在真實世界的真機中去做。當時領域裡的主流聲音都認爲要在真實世界中,但蘇昊、弋力、王鶴等人認爲要重視仿真。他邀請了許多圖形學講者、而非機器人專家來討論仿真引擎與具身智能的關係。

2021 年前後,具身智能在北美已經十分火熱,許多學者都已經認識到,具身智能纔是未來。

04

冰與火之歌

但相比北美學術圈的熱火朝天,2021 年,具身智能在國內幾乎沒有人關注。

盧策吾因爲對國外的研究進展很瞭解,有一段時間很痛苦的是:具身智能在國外風起雲涌,國內卻毫無波瀾。盧策吾向身邊的人科普具身智能時,得到的反應通常是一句“挺有趣的”,然後就沒有下文了。

關於具身智能,早期不同機構也有不同的理解。斯坦福與伯克利是叫“Embodied Artificial Intelligence”,麻省理工學院(MIT)的 CSAIL 實驗室則直接將中間的“Artificial”去掉,將機器人與人工智能的結合命名爲“Embodied Intelligence”。

回國後,關於“Embodied AI”的中文應該如何翻譯,盧策吾與蘇昊也進行過討論。他們一開始想了好幾個詞,有“實體智能”、“機器人學習”、“具身智能”等,都覺得“具身”與英文的“Embodied”更對應,就將其中文翻譯成了“具身智能”在國內傳播。

2020 年,盧策吾首次在國內計算機視覺大會 VALSE 上公開談論具身智能。VALSE 非常有前瞻性,也是國內第一個關注到具身智能的大會,但即使是在 VALSE 這樣一個國內視覺討論首屈一指的會議上,具身智能也沒有引起大家的關注。

盧策吾記得,當時爲了讓研究內容更容易被接受,他還在“具身智能”四個字的前面加了“淺談”二字。但這次演講的觀衆反應慘不忍睹:在一個幾千人規模的大會,臺下的聽衆來來往往,人數最多時不超過 30 人,最少時加上講者也才 7 個人。與隔壁會議現場人聲鼎沸的場面形成了鮮明對比。

這讓盧策吾很失落。盧策吾的學生也經常問他:“我們研究具身智能有沒有前途呀?都沒人關注。”即使他們發表了突破性的抓取工作 GraspNet 後也沒什麼人關注,引用量寥寥,與計算機視覺領域單篇引用就能成千上萬的情況形成巨大反差。

2021 年弋力與王鶴回國,具身智能仍未火起來。王鶴回國前,還特地給盧策吾打了個電話,向盧策吾打聽具身智能在國內的發展情況。盧策吾的回答大約是:處於早期,有很大機會,但不容樂觀。王鶴聽了盧策吾的回答,依然堅決回國。

在斯坦福的研究經歷使他們堅信,具身智能將成爲計算機視覺的下一個“Milestone 方向”。2021 年弋力加入清華叉院,將實驗室命名爲“三維視覺計算與機器智能實驗室”,試圖從3D 視覺出發進一步推動具身智能的研究;而王鶴加入北大前沿計算研究中心,則果斷掛上具身智能的牌子,成立了“具身感知與交互實驗室”。

弋力團隊的人機協作工作展示

同時,受張宏江的邀請,王鶴還在北京智源人工智能研究院成立了具身智能中心,並擔任中心主任。

弋力、王鶴等人回國後,也加入了盧策吾的陣線,像 2018 年在 ECCV 上向北美學術圈“推銷”具身智能一樣,給國內的學術界與工業界推廣具身智能。

從 2021 年開始,盧策吾與王鶴、弋力就開始在 VALSE 上舉辦以具身智能爲主題的 workshop,到如今一共舉辦了 4 屆,workshop 的名字分別是“具身智能視覺”、“具身智能”、“機器人具身智能”、“具身智能的視覺與學習”。

在 VALSE 2021 上,具身智能的 workshop 排在 VALSE 官方稿件的最後一位;到 VALSE 2024,他們的 workshop 排名露出已經排到了前五。關注具身智能的人也越來越多。

2023 年 4 月,谷歌發佈機器人成果 RT-1,能覆蓋 700 個任務,“通用機器人”雛形顯現,不少人稱之爲機器人領域的“GPT-3 時刻”,具身智能終於大火。

值得注意的是,RT-1 的核心貢獻者之一夏斐也是 Leonidas 的學生。在斯坦福時,夏斐同時在 Silvio Savarese 與 Leonidas 門下學習,博士畢業後加入了谷歌 DeepMind,是谷歌大模型 PaLM·E 與 機器人 RT-1、RT-2 的核心成員。

夏斐

VALSE 見證了具身智能在中國的崛起:

VALSE 2022 正值疫情期間,具身智能的 workshop 雖不算火爆,但情況已經比前些年好許多,聽衆的數量也從數十人增加到最多時有上百人。當時王鶴沒有來現場,只是作了線上報告,盧策吾看到臺下觀衆增加到上百人時趕緊拿出手機拍了一張照片給王鶴髮過去,感嘆“我們的組織終於壯大了”。

在盧策吾與蔣樹強等人的推動下,2022 年年末,中國人工智能學會(CAAI)正式開始籌備成立了具身智能專委會。盧策吾與王鶴等人堅持多年的研究方向,終於在國內的學術官方上有了正式的組織。

到 VALSE 2023、2024,具身智能的 workshop 變得更加火爆。整個會議只能開放 500 個名額,但很多人報不上名、要託關係找盧策吾拿票。盧策吾向雷峰網回憶了一個令他印象深刻、又十分有趣的畫面:

VALSE 2024 的那場 workshop,他在走去會場的路上聽到有人在門口打電話。打電話的人跟電話對面的人說:“院長,你這次不來可惜了!人爆滿了,我們整個學院要 All in 具身智能。”

VALSE 2024 也首次設置了具身智能方向的 tutorial,是由王鶴主講的“具身智能的 Sim2Real 泛化途徑”。

從 2016 年的無人問津,到 2024 年的萬人空巷,盧策吾激動非常,感慨萬千。由於早期研究具身智能的人少,盧策吾組培養的學生都成了“香餑餑”;如今國內各高校建立具身智能實驗室,也紛紛來問盧策吾的意見。

2023 年也是王鶴在具身智能領域成果頻發的一年。這一年裡,他與團隊一口氣發表了 GraspNeRF、DexGraspNet(當時世界上最大的靈巧手抓取數據集)、UniDexGrasp、GAPartNet(當前世界上最大的零部件數據集)與 UniDexGrasp++。此外,2022 年,王鶴團隊也做出了深度傳感器仿真器 DREDS。

也是在 2023 年 5 月,王鶴參與創立了銀河通用。

與非夕科技一樣,銀河通用的目標也是開發“通用機器人”。他們認爲,機器人的通用泛化性主要涉及兩個層面:一個是視覺感知的泛化性,另一個是物理操作執行的泛化性,這兩塊都需要海量的數據支持。

爲了解決數據問題,谷歌的做法是靠雙臂遙操作,RT-1 使用 13 個機器人、耗時 17 個月,才採集了 13 萬條數據,離百千億級別的“海量”數據還差很遠。王鶴認爲要解決數據問題,需要大量的金錢支持,同時不應該光靠真機操作,而是應採用 Sim2Real 的解法。

銀河通用機器人創立後,王鶴提出了“純仿真”的解決方案,在完全使用合成仿真數據、而不採用任何真實物理數據進行訓練的情況下,銀河通用發佈的機器人 Galbot G1 能以 95% 的成功率泛化抓取各種材質的物體。

銀河通用在 WRC 2024 的成果展示

同樣在 2023 年創業的還有盧策吾。2023 年年底,盧策吾與王世全等人又從非夕科技中孵化出了專門研發具身智能大腦的公司——穹徹智能。

此前,非夕科技發展 8 年,在以力爲中心的方向上已有一系列機器人本體相關的軟硬件產品。但對於具有決策能力的大腦而言,他們認爲具身大腦要適配於不同類型的本體,包括人形機器人、掃地機器人甚至智能設備等,使這些設備能與環境進行交互和學習、並執行任務,有益於此項技術的發展並形成與之匹配的業務形態,因此從非夕孵化出來穹徹獨立運營是合乎情理。

穹徹智能延續非夕科技實現通用機器人的理念路線,專注於“以力爲中心”開發具身大腦。在他們的理解中,具身大腦至少要包含兩個核心大模型,分別負責理解物理世界與基於力量控制的行爲決策。

在王世全看來,谷歌 RTX 系列的侷限恰巧在於其決策過程以傳統的軌跡爲中心,這使得機器人難以適應不穩定的環境(如人的呼吸、桌子的晃動等),也限制了機器人執行復雜操作的能力,看似泛化,但實際的應用範圍與可創造價值有限。

而非夕科技過去八年,以力爲中心對機器人操作的範式改革,更能適應未來通用機器人大規模落地的現實。王世全認爲,具身智能的獨特之處,恰恰是“機器人通過與環境及物體的直接接觸與交互,能夠學習到關於物體的物理屬性、如何操控它們以及操控之後的後果,並沉澱融匯成對世界更完備的認知體系”。

過去八年的實踐也告訴他們,力的感知和控制對具身智能的實現至關重要。盧策吾展示刮鬍子,就是爲了展示具身智能的交互需要高精密操作與高頻接觸。高頻接觸對大腦的決策壓力很大,搭載穹徹大腦的機器人能成功進行刮鬍子這樣的高頻接觸,背後也是因爲有力反饋控制的支持。

盧策吾展示機器人刮鬍子

具身智能迎來資本熱潮。今年 7 月,蘇昊也決定短暫離開 UCSD,創立了機器人公司 HillBot、並擔任 CTO。

具身智能的流派劃分複雜,並各有交叉。而以蘇昊等人爲代表的斯坦福一派,是鮮明的能夠實現從上層感知到控制閉環的一派,涵蓋了從仿真、強化學習、數據收集到控制,技術棧點最全,在硬件上相對弱一些,與英偉達最像。穹徹智能搭配非夕科技,一定程度上彌補了硬件的短板。

相比之下,自動駕駛公司的具身智能成果天然缺少仿真,因爲具身智能時代機器人用的帶交互接觸點的仿真技術源於應用物理與圖形學兩派,傳統自動駕駛公司的研發能力沒有覆蓋到。而單純以控制、硬件見長的機器人公司,又天然缺少與人工智能結合的基因,距離通用機器人的目標還有很遠。

蘇昊等人從 3D 出發,定義了新一代的“具身智能”。

05

從黑暗走到黎明

2017 年 PointNet 發佈後,蘇昊與祁芮中臺去 CVPR 開會。蘇昊跟祁芮中臺說,如果 3D Learning 的論文能在計算機視覺領域佔到 20%、30% 就很成功了,結果後來,3D 論文在視覺頂會的投稿比例一度佔到了 70% 以上,視覺領域大變天。

無論是機器人還是自動駕駛,大家都意識到:2D 視覺可以做識別、檢測,但如果機器要與物理世界打交道,必須研究 3D。如今計算機視覺領域的科研經費也主要來自 3D,如自動駕駛。

2017 年之前,3D 論文的佔比不超過 10%。那一年,蘇昊發了 5 篇 CVPR,其中後來引用最低 200,最高的超過 1 萬。那一年也正好是蘇昊找教職的一年,中間還有一段插曲:

當時普林斯頓邀請蘇昊去申請教職,蘇昊忙着研究 3D,沒有時間申請。等項目結束,他回過頭來有時間時,這個方向的坑已經被別人給佔了。那時候 3D 視覺還是冷門方向,開放的教職崗位並不多。

“有時候做了一個很原創的工作,對找工作並不是那麼有利,因爲當時的主流很可能還不懂得欣賞這個工作。”後來蘇昊去了排名並不算太高的 UCSD。但蘇昊覺得,他的選擇是對的。3D 起來後,所有北美頂級的高校都在招研究 3D 方向的老師。

同樣,具身智能也如此。蘇昊、盧策吾、弋力、王鶴等人從 3D 視覺研究機器人智能時,具身智能也非 3D 領域的主流。2023 年該方向大火後,研究具身智能的團隊需要兼具視覺、圖形、學習與控制四塊知識,他們也是如今少有的、在四塊均有涉獵的研究人員。

據觀察,目前在國內外的大廠中,兼備四塊技術棧的團隊也寥寥無幾。英偉達 Dieter Fox 帶領的機器人團隊是少數之一。(後續雷峰網將推出騰訊、小鵬、小米、獵豹等機器人團隊的興衰故事,有興趣的讀者歡迎微信添加 Fiona190913 交流)

從深度學習到 3D 視覺、大模型,再到具身智能,盧策吾的感受是,隨着 AI 的發展時間線拉長,中國科技與海外的距離越來越短、甚至並駕齊驅。例如,全球的第一批具身智能博士都是在 2017 年前後開始培養的,上海交大也是 2017 年;2023 年超大規模開源真實機器人數據集 Open X Embodiment 的參與單位中,上海交大也與斯坦福、伯克利等高校並列其中。

具身智能走到產業化一步,中國供應鏈的優勢也進一步顯現出來。具身智能是一個綜合的複雜系統,要求上下游各供應鏈環節相互配合、相互支持,而中國在硬件供應鏈上的優勢無疑是走在前沿,且更有後勁。

究其根本,具身智能的目標是實現“通用機器人”。當前的大量實踐表明,機器人能夠以一定的成功率完成人類要求的基本任務,但要達到或超越人類的效率、同時具備通用性與高良品率,還有很長的路要走。舉個例子,儘管工業機械臂已經很發達,但機器人在全球製造業中的滲透率平均僅有 1-2%。

這中間不僅要解決數據驅動迭代的問題,還要解決持續、精細的操作過程,以及機器人如何通過學習人類行爲與物理世界、乃至真實人類進行有效交互,等等。

毫無疑問,這是一個極具想象力、又充滿挑戰的未來領域。具身智能火起來後,蘇昊、盧策吾、王世全、王鶴、弋力等人都十分興奮——未來比大家想象的還要來得快。同時,他們又深知面前還有一座又一座的山峰等待他們去爬越。

從黑暗走來的人,見過曙光,又繼續走進了下一步風暴。

關於具身智能領域的更多精彩羣像故事,歡迎添加作者微信 anna042023、Fiona190913 交流。

計算機視覺華人史:權龍與他的學生們

具身智能構型之爭:人形、靈巧手、雙足,誰是最終 C 位?

哈工深聶禮強:多模態大模型是具身智能發展的關鍵動力丨具身智能十人談