中國工程院外籍院士張建偉:今後10年,具身智能將落地機器人

中國工程院外籍院士張建偉:多模態具身智能與未來機器人(來源:本站科技頻道)

文/普子胥

12月22日,第十屆以“智能涌現·發現未來”爲主題的本站未來大會,在杭州正式啓動。本次大會由杭州市人民政府和本站公司聯合主辦,杭州市經濟和信息化局、杭州市商務局、杭州濱江區人民政府、北京本站傳媒有限公司及本站(杭州)網絡有限公司承辦。大會包括思想之夜、未來局、未來公開課、主論壇、AGI論壇、汽車科技論壇、靈感無界等,廣邀頂級學者、產業專家和行業精英,作答未來科技、人文藝術、時代個人的精彩變化。

開幕式現場,中國工程院外籍院士、德國國家工程院院士、德國漢堡大學教授、清華大學傑出訪問教授張建偉發表了《多模態具身智能與未來機器人》主題演講。張教授表示,現在非具身人工智能發展迅速,然而在製造、未來出行、大健康、農業、家庭和教育方面,現在還需將人工智能算法落地真實物理世界的多學科綜合的解決方案。

張教授談到,從非具身智能走向具身的智能,需要我們在傳統的ICT信息通訊系統上,加上body的運動執行互動功能,以及高層智能功能,從基本的識別到記憶、到推理,乃至意識。集成這三部分爲一體,才使得我們能從信息世界通訊走向物理世界交互,創造新的巨大應用藍海。

此外,智能機器人在發展過程中仍有很多挑戰,要實現更好落地,一方面依賴於基礎研究,另外一方面也依賴於科學家和企業家的強強合作:“融合多模態大模型和機器人,並解決真實物理世界的剛需問題,將是創造未來的一個特別重要的前沿方向“。

以下爲張建偉院士主題演講節錄:

非常高興接到本站的邀請,在當今戰爭和衝突紛爭不斷的時代,我們在這裡能夠跨界、討論,用批判思維來腳踏實地、仰望星空、預測未來,一起塑造未來,我覺得是件非常有意義的事情!

今天的我們處於一個智能物聯網的時代。如果從未來實際需求來講,我們現在把人工智能基礎技術驅動的方法和未來需求相比,我們看到它們中間的差距是非常遠的。現在ChatGPT版本是純粹的一種技術驅動的方法,它現在要代替的很多白領工作,並不是我們特別希望它們來代替的。在製造、未來出行、大健康、農業、家庭和建築等方面,我們希望替代更多的是辛苦的藍領工作,比如工廠裡重複單調的裝配、幫助照顧我們的父母、農業裡的除草、採摘等,但是到目前爲止,我們還沒有很好的方案,現在非具身人工智能解決不了這些問題。

現在大家都在思考未來在手機、手錶、眼鏡之後,會是一個什麼樣的形態,把手機替代的是什麼樣的形式,現在新發布的VR/AR眼鏡,不外乎還是一種信息和視覺、聽覺交互形式的改變。

未來,我們說從非具身智能走向具身的智能,需要我們在傳統的信息通訊系統上,加上body運動執行互動功能,加上高層智能功能,從基本的識別到記憶、到推理,乃至意識。集成這三部分爲一體,就使得我們能從信息世界通訊走向物理世界交互,創造新的巨大的應用藍海。

如何打通基礎研究到應用研究再到最後的創新應用?用這張圖把技術成熟度一到十的步驟整合起來。技術成熟度一至三的基礎研究包括人腦模型、深度學習模型、知識圖譜等等。我們把關鍵的基礎研究結果打造成技術成熟度從四到七的模塊,用共享的軟件ROS機器人操作系統來解決這些開源模塊,包括識別、抓取、情感交互等,把它們整合起來解決未來的製造、醫療、健康、出行和家庭服務等。

打通從基礎到應用,我們投入了近二十年的工作。在二十年前我們做雙臂立體裝配機器人,現在工業界對立體產品裝配方面呈現非常多重要的需求。我們的研究也影響了協作機器人這個新的技術形態,思靈協作機器人作爲獨角獸公司,產品現在在富士康iPhone裝配工廠已經得到了應用,未來在醫療物理服務方面也會爲人類起到更多的作用。我們都盼望着未來我們的父母能夠有尊嚴獨立生活不需要護工,利用人工智能、機器人實現助老助殘。在未來新感知狀態層面,我們從二維數字圖像感知到未來三維感知也是走上了新的臺階,今天另一家獨角獸公司“梅卡曼德機器人”,基於結構光測的原理,實現了3D點雲相機的產業化,已經應用到廣泛的製造、物流領域,也在做創新的具身智能的實踐。

在疫情前,我們在中國的機器人學術年會晚宴之前,活動熱場的不是請帥哥美女在臺上跳舞,而是請機器人在臺上表演,包括機器魚、四足機器狗、仿生爬壁飛行機器人、類腦自控的自行車等來展現機器人未來的移動平臺。

當然具身智能還有非常大的挑戰,現在僅基於互聯網和大數據的非具身的智能實現了一些應用場景,正在替代一些白領的工作,但是未來要替代物理世界很多藍領的工作,我們還需要克復非常多的挑戰,比如未知、非結構化環境的建模挑戰、靈巧操作挑戰、多模態自然交互挑戰等等。

現在我們在家裡能夠觸摸到、買到的機器人還只是能夠單功能掃地、吸塵。在酒店、博物館和工廠,我們能看到一些運載服務的機器人。但是在未來,各行各業其實有非常大的需求,例如,我們現在智能製造急需的應用場景,70%工廠屬於用手操作的勞動密集型,需要多模態機器人化的製造系統;需要幫助我們收割、除草、施肥的農業機器人;需要在家裡做家務,和我們互動,陪伴我們健康養老的類人機器人;未來出行城市的交通系統,建築機器人等,都給我們未來人工智能理論和技術提出了巨大的需求和挑戰。

近來,人工智能在四個方面取得了突飛猛進的進展:

1.算力的增長。和30年前相比,30年後算力的增長不是30倍,而是百萬倍。如果我們再放眼今後10年,算力會再增加百倍。在這種大的算力引擎的支持下,我們需要充足的數據燃料。

2.多模態數據的感知。從單模態的視覺、聽覺、多肢體感覺等巨型數據的收集和融合、自動聚類、自主決策等,都取得了快速進展。

3.算法日新月異發展。從,能夠識別的CNN,卷積神經網絡處理視覺算法的發展突飛猛進,Segment anything,把所有的二維圖像都能分割;處理語音文本RNN、實現語言大模型的應用;以及具身智能在智能體和機器人進行的“增強學習”。現在每天都有上百篇非常專業的論文發表,體現了在算法方面的突飛猛進。

4.機器人正在掌握如何學習。例如Sim2real,把各種機器模型、人工交互模型在仿真裡進行測試訓練,把仿真裡的測試再遷移到實物機器人上面。我們把行走的技術、上身操作的技術、仿人表情機器人頭的技術融合在一起,做一個真正實現人功能的仿人機器人。

如何把多模態信息整合在一起,也是整合技術方面非常重要的方向。10年前在深度學習、多模態、ChatGPT尚處於萌芽狀態的時候,我們已經籌劃並啓動了人工智能基礎合作項目,“跨模態學習”。針對如何用類腦地形式實現機器整合多模態並進行學習的科學問題,和神經科學家、心理學家共同合作,來研究人是有什麼樣的機理,能夠把視覺、聽覺、觸覺有機融合在一起,進行存儲、表達、交互和學習。我們最近也做出了一系列能夠融合多模態深度學習的算法,比如在3D感知的時候用新的算法能夠把遮擋的不完全信息自動的補齊,以及我們通過自然語言,能夠進行圖像自由的處理和分割。

未來,如何把機理模型和大數據學習的新方法融合在一起,是特別重要的一個科學方向。我們把機器人整個控制的等級進行劃分,比較低的等級,包括位置控制、力控制等領域,已經有穩定的機理模型,在其基礎上可以進行快速的控制。但機器人智能層次和交互的層級越高,它需要多模態的形式就越豐富,包括視覺、觸覺、感覺和聲音等。在這方面,還欠缺很好的、基於大腦的可計算的模型,所以我們今天還需要很多大數據的支撐。

今年2023年,我們對模型的理解,尤其是在生物、物理的模型理解和世界交互的模型理解,大腦神經結構的理解,未來在認知功能方面的理解,還有整個世界模型建模方面,還差得非常多。所以我們現在只能是用這種大數據收集、端到端學習的辦法,來補償模型的缺失。但通過具身智能,比如機器人,比如醫療系統、自動駕駛,把現在的物理模型逐漸做得越來越精確、越來越優化,通過所謂單模態到雙模態,把視覺文本融合在一起,到整個多模態,把觸覺和力覺、肢體感覺等融合在一起。到2050年,我們能夠把類人全模態的信息,包括第六感官能夠融合在一起,不斷豐富人工智能系統一些功能,這種具身智能的模型豐富度,就是我們未來努力的方向。

我的博士生最近把人的運動學與兩個普通相機採集的數據融合在一起,對動態模型進行優化,很方便地實現了人的運動捕捉系統,並把人的運動系統的捕捉結果轉移到機器人身上。此外,我們現在也可以做到把大量人動作的視頻信息來進行提取,轉移到機器人上。

我們做出了拿到吉尼斯世界紀錄的乒乓球機器人,可以打出任意位置、任意速度,機器人通過把模型和訓練融合在一起,實現了和人打了一個半小時、六千多個來回,未來爲個性化康復系統以運動處方的形式爲人類服務。

我們用新的進化計算控制方法,運用到機器人運動學的逆解方案中,使得機器人是在給定工作空間裡的軌跡,對各種各樣的機器人產生出優化運動學逆解的算法,這叫“基於生物感知運動學逆解算法”,現在從人形機器人到工業機器人中都得到了應用。

二十年前,我指導的一個德國博士生喜歡做機器人,也喜歡畫漫畫,我讓他畫了幾幅我想象的場景,未來二十年後服務機器人會是什麼樣子,包括端茶倒水能夠和人交互等,現在我們已經逐漸實現了能夠操作的具身智能的機器人,通過不斷學習把人機交互的長度變得越來越短,讓它對世界的理解變得越來越精確。

今年科技的關鍵詞ChatGPT、大模型。但是在我看來,具身大模型實際上還有非常大的挑戰,讓現在這個單模態的模型,現在已經到這種雙模態語言,和圖像模型進行融合;到未來全模態模型的製作以及我們如何實現高質量、高穩定、高可信的大模型擺脫高的計算成本,可解釋等。另外就是垂直領域的模型結合,如何將通用大模型運用到千行百業,這是我們未來共同要努力的方向,也是我們的機會。

在大模型AI時代,各行各業如何能做出自己的反應?從人工智能的角度講,我們現在要實現更加透明的人工智能,要集成多模態的信息,研究真實世界的具身智能,而且我們要高度重視以人爲本的AI倫理,要用重大需求作爲牽引,而不僅僅是技術驅動。

從其他非人工智能從業者來講,我建議大家要揚長我們人類的多模態,在二維視覺到三維視覺到未來的機器人系統中,要增加不同模態的感知,我們要學會跨學科的合作,基於項目的學習方法;不管是學習什麼樣的專業,要理解AIGC是怎麼工作的,要知道它還不能做什麼,要學會和人工智能進行合作,要更加有富有想象力、好奇心和創造力,問好的問題。

人工智能在模型和大數據的融合方面,還需要克服非常多的挑戰,需要產學研的國際合作,以及具有國際視野的、跨學科卓越工程師的出現。未來我們應該更好地進行全球範圍合作來應對重大挑戰,交叉協同,注重AI倫理,共創和諧社會、美好生活。