☰

國產大模型卷翻機器人！這些火遍全網的機器人，都裝上了星火「大腦」

新智元報道

編輯：編輯部

【新智元導讀】大模型這把火點燃了整個機器人行業的熱情。縱觀全世界，過去幾個月，國內外大模型大廠和機器人初創公司的合作也是動作不斷。看來，機器人的元年真的來了！

大模型，已然捲入機器人領域。

3月初，初創公司Figure發佈了首個由OpenAI大模型加持的人形機器人Figure 01的演示。

憑藉LLM「大腦」，Figure 01可以看到桌面上的蘋果，動手收拾餐具，並與人類進行無縫交流。

在電動Atlas官宣當天，初創公司Mentee Robotics也展示了首個Menteebot人形機器人，通過自然語言即可交流。

同樣，得到大模型加持的Menteebot，能解釋命令，並思考、決策、完成任務。

在大模型浪潮下，類似的案例近一年來層出不窮。

反觀國內，大模型助推下，機器人領域也是熱度不減。

年初，具有「人形機器人第一股」之稱的優必選股價創下2天3倍的暴漲走勢，與之呼應的是大模型廠商近期與機器人行業的合作也是動作不斷。

有行業專家表示，具備多模態LLM大腦的機器人時代終於來臨了。這些機器人將能夠理解指令並執行任務：可以使用筆記本、刷碗、沖泡咖啡，妥妥的AGI！

顯然，大模型賦能機器人蘊藏着巨大的潛力，成爲科技大廠爲數不多的一個共識。

「具身智能」大爆發，元年已來

人們都說，2024年是機器人的元年。

大模型的橫空出世，無疑讓機器人行業再次成爲研究界和產業界的一大亮點。

先來看一張圖，直觀地感受下，當前全世界取得進展的機器人公司。

正如許多人期待的那樣，AGI真正到來的那天，「具身智能」正是不可或缺的重要硬件載體。

從過去一年至今，機器人領域的投資市場不斷持續升溫，迎來了高光時刻。

研究公司Robot Report數據顯示，今年前3個月，機器人初創公司籌集了32億美元資金，去年同期爲17億美元。

在國外，OpenAI押注的兩家人形機器人初創公司1X、Figure紛紛得到新一輪的融資。

還有硅谷服務機器人Bear Robotics、專爲機器人開發大腦Physical Intelligence、還未創收的Skild等機器人初創公司，同樣受到資本的追捧。

國內以優必選爲代表，2023年12月底上市即成爲人形機器人第一股；如前所述，股票一路攀升。

不久前，工業版人形機器人Walker S都已經進入車間開始打工了。

此外，宇樹人形機器人在今年2月完成了近10億元的B2輪融資，其產品宇樹H1更是火到了國外。

根據網友的統計，僅在今年第一季度，國內機器人市場就有20多起融資案例。

來源：網絡

可見，大量資本的注入，將機器人行業的熱潮推向了最高點。

實際上，對於每個人來說，機器人早已不是什麼新鮮事物。

爲什麼大模型的加入，讓其迎來了ChatGPT時刻？

爲什麼需要多模態LLM

衆所周知，傳統機器人有着一個明顯的侷限性——需要明確的指令。

掌握單個技能，諸如開門、拉抽屜、拾取和操縱某物，對於它們來說，並不難。

然而，想要讓機器人去完成多個技能結合的任務，是非常困難的。

這就是爲什麼大模型的出現，破解了傳統機器人需要明確指令，才能執行任務的僵化問題。

簡單來說，LLM可以將鬆散定義的指令，映射到機器人技能範圍內的特定任務序列。

比如，當你對機器人點頭時，如何讓它也能友好地向你點頭？

來自多倫多大學、谷歌DeepMind等機構開發的GenEM，利用GPT-4豐富的知識儲備，將「點頭」這一抽象行爲，轉化爲機器人可輸出的特定動作。

然而，通往具身智能AGI的路上，僅依靠大語言模型是不夠的。

這是因爲，圖像、文字、語音、視頻等各種多模態信息，構成了我們的現實世界。而人類的感受、溝通，都是在以多模態形式進行。

對於智能機器人來說，也是必須具備的能力。

比如，當機器人想要正確執行「有點累，幫我去拿一杯提神的飲品」這條指令時，最關鍵是完成「多模理解」。

看到桌面上的一堆食物，哪個纔是咖啡呢？

在理解語音指令、拆解任務步驟之後，機器人需要識別「視線」裡的物體，判斷推理出哪瓶飲料是符合指令意思需要拿取的。

不僅如此，嗅覺、味覺之類的智能，也將是機器人未來逐漸擴展的領域。

總而言之，多模態能力對於真正要進入家庭的機器人來說必不可少，尤其是多模理解尤爲重要。

國產頂流：訊飛星火大模型

看得出，市場對機器人的熱情，已完全被AI大模型點燃。

國內一家成立25年的公司，曾在2022年就啓動了「超腦2030計劃」，暢想着能夠讓機器人走進每個家庭。

這一計劃共分爲三個階段，通過逐步推進，讓AI可以懂知識、善學習、能進化。

一直以來，基於對前沿技術的不斷探索，背後這家公司——科大訊飛正朝着目標前進。

先是在2022年科大訊飛全球1024開發者大會上，首次發佈了「訊飛機器人超腦平臺」。

這一平臺面向開發者，提供了全棧的工具鏈，包括模型訓練、資產生成和軟硬件接入等等。

ChatGPT引爆大模型熱潮之後，科大訊飛在23年5月首次發佈「訊飛星火大模型」，並在一年多的時間完成了5次迭代。

而初代訊飛星火大模型就具備了體現通用人工智能的七大維度，包括文本生成、語言理解、知識問答、邏輯推理、數學能力、代碼能力以及多模態能力。

在接下來的6月、8月、和10月以及今年1月，訊飛星火大模型完成了從V1.5、V2.0，到V3.0、V3.5的迭代升級。

大模型打破傳統認知智能的天花板，爲機器人更加深入地理解世界奠定了堅實的基礎。

然而，要充分整合這些先進技術，以促進機器人在人機互動、任務規劃和環境適應等方面的顯著進步，還需要依賴專門的系統。

爲「機器人超腦平臺」注入靈魂

爲此，科大訊飛在2023年7月正式將訊飛星火大模型與「機器人超腦平臺」進行了深度的融合。

具體來說，科大訊飛機器人超腦平臺，是以訊飛超腦2030技術爲底座打造的，一個面向物理世界、虛擬世界和元宇宙的機器人開發平臺。

它以多模態感知表達、開放式語義理解、大小腦協同運動控制和軟硬件接入爲核心，可以幫開發者快速搭建實體機器人和虛擬數字人產品。

如今，人形機器人在實際應用時，面臨的挑戰更多了。

你是不是經常在商場遇到機器人，雞同鴨講，根本講不了兩句話，就被逼瘋了？

在這樣的嘈雜環境中，人與機器人的交互，簡直難上加難。

又或是，當你讓機器人講一個笑話時，那一本正經的播音腔，簡直就是尷尬氛圍組上線。

而破解這些問題的關鍵是，讓機器人更好地「拾音」，且說話不再有那麼重的「機器味兒」。

訊飛機器人超腦平臺從「視聽融合的多模態感知交互」和「大模型理解決策」兩個方面，解決了這一難題。

首先，就是打造機器人交互的新範式。

爲此，訊飛機器人超腦平臺融合了語音、視覺、語義等多個維度的信息。

通過升級麥克風陣列算法，融合聲音、人臉、和脣形信息，即使在嘈雜、高噪的場景下，機器人都能精準拾音，實現複雜場景「聽得清」。

同時，通過語音大模型和超擬人合成技術，機器人「聽得準」，「答得自然」，讓機器人聊起天來更有生命力和感染力了！

其次，就是機器人的交互大腦。

這個大腦，毫無疑問就是基於訊飛星火大模型，實現了控制級指令、官方技能、核心業務功能、快速知識問答、閒聊陪伴等多交互場景的統一。

對於每個孩子來說，如果機器人能以媽媽的聲音、口吻講睡前故事，才堪稱真正的「陪伴」機器人。

但若要實現這一點，還需要機器人具備情感化和高表現力的合成能力。

對此，訊飛機器人超腦平臺還設計了多風格、多情感的AI人設，能夠讓每個機器人都與衆不同。

順便提一句，訊飛機器人超腦平臺的虛擬人驅動協議已全面開放。

三方數字人產品通過接入該驅動協議，可以實現與訊飛數字人同等的交互效果。

訊飛機器人超腦平臺已賦能四大領域398家機器人客戶，深度鏈接1.3萬名機器人開發者。

官網地址：https://aibot.xfyun.cn

星火加持，機器人飛昇

爲了進一步擴大合作生態，2024年4月15日，科大訊飛正式啓動「星河行動」計劃，招募生態合作伙伴共同推進機器人產業的繁榮。

而在此之前，有很多來自不同細分領域的國內頭部機器人廠商，就已經用上了科大訊飛星火大模型的強大能力。

當前，在許多人看來，人形機器人是最好的通用具身形態。

當機器人走向落地，人形並不一定是完成任務最好的形態。它可以是一個機械臂，也可以是輪式......

科大訊飛與穿山甲機器人公司合作已久，一直共同探索AI技術與機器人的融合，不斷拓寬服務機器人應用新的邊界。

這家公司旗下新款小魚、艾米、小雪等AI服務機器人，全都搭載了訊飛機器人超腦平臺，以及訊飛星火大模型技術。

基於訊飛先進的語音識別、AI技術，機器人可以流暢地進行自然語言對話，迅速理解並給出準確回答。

同時，憑藉着豐富的技術儲備，它們還能提供各類信息和建議。

穿山甲機器人已廣泛應用到餐飲、政務、教育、醫療等領域

當然還有家庭服務機器人，樂天派便是其中的代表之一。

通過接入訊飛星火大模型和多模態交互，這款桌面黑科技機器人成爲孩子們的貼心「小管家」。

只需要一聲呼喚，不論是娛樂、還是遇到學習生活難題，它都能以前所未有交互能力陪伴孩子。

而在頭部人形機器人中，也少不了科大訊飛核心技術的身影。

我們熟知的，智元機器人、優必選、宇樹科技等公司，都得到了訊飛全鏈路語音，以及訊飛星火大模型的加持。

還有近日官宣合作的EX機器人，更是將雙方各自優勢完美結合。

基於訊飛機器人超腦平臺，將訊飛星火大模型和多模態交互技術應用到EX仿生機器人中，實現了與人一樣的思考、對話和動作。

除以上的案例之外，科大訊飛生態「朋友圈」還在不斷擴大。

機器人開發，最好的時代

我們還應該看到，機器人的發展不僅依靠AI大腦的技術迭代，還需要「身體」並行。

隨着機器人行業的逐步發展，機器人行業內的組件供應也開始向專業化、成熟化方向發展。

4月2日，在上海召開的中國人形機器人生態大會上，可以看到機器人部件廠商也獲得了長足的發展——

人形機器人通用底座、機器狗通用底座、機器人超腦板、多模態語音交互、3D視覺芯片、靈活機械手、機器人伺服電機、3D打印框架等廠商均參加展出。

會場進行了多項專題報告，比如「多模態+大模型，構建人形機器人新交互」、「人形機器人感知技術與發展」等細分領域的成果展示。

對於機器人行業的創業者和開發者來說，這將是最好的時代！

大量模塊化、可快速整合的行業平臺及部件，讓機器人的開發不再需要像過去一樣，從0開始做算法。

尤其是，像訊飛機器人超腦平臺已經引入大模型的通用開放平臺，進一步將機器人的常規算法和人機交互開發難度降低到了「拿來即用」的地步。

再加上，訊飛機器人超腦平臺已經打通了對接鏈路公司（宇樹、智元、EX機器人等）的成熟機器人硬件體系。

這意味着，二次應用開發將會成爲入行最快、產品最快滿足客戶需求的方式之一。

顯然，機器人底層硬件配套已初步具備，LLM技術更是賦予了機器人交互的核心。

接下來，針對客戶需求的挖掘、痛點解決方案和用戶貼身服務的內容，尚需進一步打磨。

這，將是機器人行業萬衆創業的開端。

大模型+機器人，前景一片大好

下一步，就是在LLM和機器人加速融合後，如何推動商業化落地？

從認知能力上來看，AI機器人的發展愈加接近人類。甚至，在外表方面，也變得更像人類了。

波士頓諮詢公司（BCG）估計，到2030年，全球機器人市場規模將達到1600億美元-2600億美元。

也就說，LLM+機器人未來的市場前景非常廣闊，可以深入應用於各種工業領域和人類生活場景。

在製造業領域，裝配線上的機器人能夠生產出，人類工人無法比擬的高質量和一致性的商品。

在倉庫和物流公司中，AI機器人能夠完成重型搬運工作，諸如運送產品、放置在貨架等任務，大大減輕了人類勞動力的負擔。

就比如，亞馬遜物流倉庫中的75萬機器人大軍，已全面投入了使用。

除了工業領域的機器人，AI醫療機器人還可以幫助醫生做手術，做出更準確的診斷，也能引導患者完成物理治療和康復。

展望未來，在餐館、太空探索、教育、養老院等諸多場景中，都將得到AI機器人的全面覆蓋。

不難料到，機器人的曙光已經到來，它正在以我們幾十年前只能想象的方式重塑整個世界。

科大訊飛所做的，就是用技術革新，讓機器人走進每個家庭。

‍

參考資料：

https://aibot.xfyun.cn

https://news.zol.com.cn/867/8673954.html

https://venturebeat.com/ai/how-llms-are-ushering-in-a-new-era-of-robotics/

國產大模型卷翻機器人！這些火遍全網的機器人，都裝上了星火「大腦」

相關資訊