國產大模型卷翻機器人!這些火遍全網的機器人,都裝上了星火「大腦」
新智元報道
編輯:編輯部
【新智元導讀】大模型這把火點燃了整個機器人行業的熱情。縱觀全世界,過去幾個月,國內外大模型大廠和機器人初創公司的合作也是動作不斷。看來,機器人的元年真的來了!
大模型,已然捲入機器人領域。
3月初,初創公司Figure發佈了首個由OpenAI大模型加持的人形機器人Figure 01的演示。
憑藉LLM「大腦」,Figure 01可以看到桌面上的蘋果,動手收拾餐具,並與人類進行無縫交流。
在電動Atlas官宣當天,初創公司Mentee Robotics也展示了首個Menteebot人形機器人,通過自然語言即可交流。
同樣,得到大模型加持的Menteebot,能解釋命令,並思考、決策、完成任務。
在大模型浪潮下,類似的案例近一年來層出不窮。
反觀國內,大模型助推下,機器人領域也是熱度不減。
年初,具有「人形機器人第一股」之稱的優必選股價創下2天3倍的暴漲走勢,與之呼應的是大模型廠商近期與機器人行業的合作也是動作不斷。
有行業專家表示,具備多模態LLM大腦的機器人時代終於來臨了。這些機器人將能夠理解指令並執行任務:可以使用筆記本、刷碗、沖泡咖啡,妥妥的AGI!
顯然,大模型賦能機器人蘊藏着巨大的潛力,成爲科技大廠爲數不多的一個共識。
「具身智能」大爆發,元年已來
人們都說,2024年是機器人的元年。
大模型的橫空出世,無疑讓機器人行業再次成爲研究界和產業界的一大亮點。
先來看一張圖,直觀地感受下,當前全世界取得進展的機器人公司。
正如許多人期待的那樣,AGI真正到來的那天,「具身智能」正是不可或缺的重要硬件載體。
從過去一年至今,機器人領域的投資市場不斷持續升溫,迎來了高光時刻。
研究公司Robot Report數據顯示,今年前3個月,機器人初創公司籌集了32億美元資金,去年同期爲17億美元。
在國外,OpenAI押注的兩家人形機器人初創公司1X、Figure紛紛得到新一輪的融資。
還有硅谷服務機器人Bear Robotics、專爲機器人開發大腦Physical Intelligence、還未創收的Skild等機器人初創公司,同樣受到資本的追捧。
國內以優必選爲代表,2023年12月底上市即成爲人形機器人第一股;如前所述,股票一路攀升。
不久前,工業版人形機器人Walker S都已經進入車間開始打工了。
此外,宇樹人形機器人在今年2月完成了近10億元的B2輪融資,其產品宇樹H1更是火到了國外。
根據網友的統計,僅在今年第一季度,國內機器人市場就有20多起融資案例。
來源:網絡
可見,大量資本的注入,將機器人行業的熱潮推向了最高點。
實際上,對於每個人來說,機器人早已不是什麼新鮮事物。
爲什麼大模型的加入,讓其迎來了ChatGPT時刻?
爲什麼需要多模態LLM
衆所周知,傳統機器人有着一個明顯的侷限性——需要明確的指令。
掌握單個技能,諸如開門、拉抽屜、拾取和操縱某物,對於它們來說,並不難。
然而,想要讓機器人去完成多個技能結合的任務,是非常困難的。
這就是爲什麼大模型的出現,破解了傳統機器人需要明確指令,才能執行任務的僵化問題。
簡單來說,LLM可以將鬆散定義的指令,映射到機器人技能範圍內的特定任務序列。
比如,當你對機器人點頭時,如何讓它也能友好地向你點頭?
來自多倫多大學、谷歌DeepMind等機構開發的GenEM,利用GPT-4豐富的知識儲備,將「點頭」這一抽象行爲,轉化爲機器人可輸出的特定動作。
然而,通往具身智能AGI的路上,僅依靠大語言模型是不夠的。
這是因爲,圖像、文字、語音、視頻等各種多模態信息,構成了我們的現實世界。而人類的感受、溝通,都是在以多模態形式進行。
對於智能機器人來說,也是必須具備的能力。
比如,當機器人想要正確執行「有點累,幫我去拿一杯提神的飲品」這條指令時,最關鍵是完成「多模理解」。
看到桌面上的一堆食物,哪個纔是咖啡呢?
在理解語音指令、拆解任務步驟之後,機器人需要識別「視線」裡的物體,判斷推理出哪瓶飲料是符合指令意思需要拿取的。
不僅如此,嗅覺、味覺之類的智能,也將是機器人未來逐漸擴展的領域。
總而言之,多模態能力對於真正要進入家庭的機器人來說必不可少,尤其是多模理解尤爲重要。
國產頂流:訊飛星火大模型
看得出,市場對機器人的熱情,已完全被AI大模型點燃。
國內一家成立25年的公司,曾在2022年就啓動了「超腦2030計劃」,暢想着能夠讓機器人走進每個家庭。
這一計劃共分爲三個階段,通過逐步推進,讓AI可以懂知識、善學習、能進化。
一直以來,基於對前沿技術的不斷探索,背後這家公司——科大訊飛正朝着目標前進。
先是在2022年科大訊飛全球1024開發者大會上,首次發佈了「訊飛機器人超腦平臺」。
這一平臺面向開發者,提供了全棧的工具鏈,包括模型訓練、資產生成和軟硬件接入等等。
ChatGPT引爆大模型熱潮之後,科大訊飛在23年5月首次發佈「訊飛星火大模型」,並在一年多的時間完成了5次迭代。
而初代訊飛星火大模型就具備了體現通用人工智能的七大維度,包括文本生成、語言理解、知識問答、邏輯推理、數學能力、代碼能力以及多模態能力。
在接下來的6月、8月、和10月以及今年1月,訊飛星火大模型完成了從V1.5、V2.0,到V3.0、V3.5的迭代升級。
大模型打破傳統認知智能的天花板,爲機器人更加深入地理解世界奠定了堅實的基礎。
然而,要充分整合這些先進技術,以促進機器人在人機互動、任務規劃和環境適應等方面的顯著進步,還需要依賴專門的系統。
爲「機器人超腦平臺」注入靈魂
爲此,科大訊飛在2023年7月正式將訊飛星火大模型與「機器人超腦平臺」進行了深度的融合。
具體來說,科大訊飛機器人超腦平臺,是以訊飛超腦2030技術爲底座打造的,一個面向物理世界、虛擬世界和元宇宙的機器人開發平臺。
它以多模態感知表達、開放式語義理解、大小腦協同運動控制和軟硬件接入爲核心,可以幫開發者快速搭建實體機器人和虛擬數字人產品。
如今,人形機器人在實際應用時,面臨的挑戰更多了。
你是不是經常在商場遇到機器人,雞同鴨講,根本講不了兩句話,就被逼瘋了?
在這樣的嘈雜環境中,人與機器人的交互,簡直難上加難。
又或是,當你讓機器人講一個笑話時,那一本正經的播音腔,簡直就是尷尬氛圍組上線。
而破解這些問題的關鍵是,讓機器人更好地「拾音」,且說話不再有那麼重的「機器味兒」。
訊飛機器人超腦平臺從「視聽融合的多模態感知交互」和「大模型理解決策」兩個方面,解決了這一難題。
首先,就是打造機器人交互的新範式。
爲此,訊飛機器人超腦平臺融合了語音、視覺、語義等多個維度的信息。
通過升級麥克風陣列算法,融合聲音、人臉、和脣形信息,即使在嘈雜、高噪的場景下,機器人都能精準拾音,實現複雜場景「聽得清」。
同時,通過語音大模型和超擬人合成技術,機器人「聽得準」,「答得自然」,讓機器人聊起天來更有生命力和感染力了!
其次,就是機器人的交互大腦。
這個大腦,毫無疑問就是基於訊飛星火大模型,實現了控制級指令、官方技能、核心業務功能、快速知識問答、閒聊陪伴等多交互場景的統一。
對於每個孩子來說,如果機器人能以媽媽的聲音、口吻講睡前故事,才堪稱真正的「陪伴」機器人。
但若要實現這一點,還需要機器人具備情感化和高表現力的合成能力。
對此,訊飛機器人超腦平臺還設計了多風格、多情感的AI人設,能夠讓每個機器人都與衆不同。
順便提一句,訊飛機器人超腦平臺的虛擬人驅動協議已全面開放。
三方數字人產品通過接入該驅動協議,可以實現與訊飛數字人同等的交互效果。
訊飛機器人超腦平臺已賦能四大領域398家機器人客戶,深度鏈接1.3萬名機器人開發者。
官網地址:https://aibot.xfyun.cn
星火加持,機器人飛昇
爲了進一步擴大合作生態,2024年4月15日,科大訊飛正式啓動「星河行動」計劃,招募生態合作伙伴共同推進機器人產業的繁榮。
而在此之前,有很多來自不同細分領域的國內頭部機器人廠商,就已經用上了科大訊飛星火大模型的強大能力。
當前,在許多人看來,人形機器人是最好的通用具身形態。
當機器人走向落地,人形並不一定是完成任務最好的形態。它可以是一個機械臂,也可以是輪式......
科大訊飛與穿山甲機器人公司合作已久,一直共同探索AI技術與機器人的融合,不斷拓寬服務機器人應用新的邊界。
這家公司旗下新款小魚、艾米、小雪等AI服務機器人,全都搭載了訊飛機器人超腦平臺,以及訊飛星火大模型技術。
基於訊飛先進的語音識別、AI技術,機器人可以流暢地進行自然語言對話,迅速理解並給出準確回答。
同時,憑藉着豐富的技術儲備,它們還能提供各類信息和建議。
穿山甲機器人已廣泛應用到餐飲、政務、教育、醫療等領域
當然還有家庭服務機器人,樂天派便是其中的代表之一。
通過接入訊飛星火大模型和多模態交互,這款桌面黑科技機器人成爲孩子們的貼心「小管家」。
只需要一聲呼喚,不論是娛樂、還是遇到學習生活難題,它都能以前所未有交互能力陪伴孩子。
而在頭部人形機器人中,也少不了科大訊飛核心技術的身影。
我們熟知的,智元機器人、優必選、宇樹科技等公司,都得到了訊飛全鏈路語音,以及訊飛星火大模型的加持。
還有近日官宣合作的EX機器人,更是將雙方各自優勢完美結合。
基於訊飛機器人超腦平臺,將訊飛星火大模型和多模態交互技術應用到EX仿生機器人中,實現了與人一樣的思考、對話和動作。
除以上的案例之外,科大訊飛生態「朋友圈」還在不斷擴大。
機器人開發,最好的時代
我們還應該看到,機器人的發展不僅依靠AI大腦的技術迭代,還需要「身體」並行。
隨着機器人行業的逐步發展,機器人行業內的組件供應也開始向專業化、成熟化方向發展。
4月2日,在上海召開的中國人形機器人生態大會上,可以看到機器人部件廠商也獲得了長足的發展——
人形機器人通用底座、機器狗通用底座、機器人超腦板、多模態語音交互、3D視覺芯片、靈活機械手、機器人伺服電機、3D打印框架等廠商均參加展出。
會場進行了多項專題報告,比如「多模態+大模型,構建人形機器人新交互」、「人形機器人感知技術與發展」等細分領域的成果展示。
對於機器人行業的創業者和開發者來說,這將是最好的時代!
大量模塊化、可快速整合的行業平臺及部件,讓機器人的開發不再需要像過去一樣,從0開始做算法。
尤其是,像訊飛機器人超腦平臺已經引入大模型的通用開放平臺,進一步將機器人的常規算法和人機交互開發難度降低到了「拿來即用」的地步。
再加上,訊飛機器人超腦平臺已經打通了對接鏈路公司(宇樹、智元、EX機器人等)的成熟機器人硬件體系。
這意味着,二次應用開發將會成爲入行最快、產品最快滿足客戶需求的方式之一。
顯然,機器人底層硬件配套已初步具備,LLM技術更是賦予了機器人交互的核心。
接下來,針對客戶需求的挖掘、痛點解決方案和用戶貼身服務的內容,尚需進一步打磨。
這,將是機器人行業萬衆創業的開端。
大模型+機器人,前景一片大好
下一步,就是在LLM和機器人加速融合後,如何推動商業化落地?
從認知能力上來看,AI機器人的發展愈加接近人類。甚至,在外表方面,也變得更像人類了。
波士頓諮詢公司(BCG)估計,到2030年,全球機器人市場規模將達到1600億美元-2600億美元。
也就說,LLM+機器人未來的市場前景非常廣闊,可以深入應用於各種工業領域和人類生活場景。
在製造業領域,裝配線上的機器人能夠生產出,人類工人無法比擬的高質量和一致性的商品。
在倉庫和物流公司中,AI機器人能夠完成重型搬運工作,諸如運送產品、放置在貨架等任務,大大減輕了人類勞動力的負擔。
就比如,亞馬遜物流倉庫中的75萬機器人大軍,已全面投入了使用。
除了工業領域的機器人,AI醫療機器人還可以幫助醫生做手術,做出更準確的診斷,也能引導患者完成物理治療和康復。
展望未來,在餐館、太空探索、教育、養老院等諸多場景中,都將得到AI機器人的全面覆蓋。
不難料到,機器人的曙光已經到來,它正在以我們幾十年前只能想象的方式重塑整個世界。
科大訊飛所做的,就是用技術革新,讓機器人走進每個家庭。
參考資料:
https://aibot.xfyun.cn
https://news.zol.com.cn/867/8673954.html
https://venturebeat.com/ai/how-llms-are-ushering-in-a-new-era-of-robotics/