深圳教授,入局具身智能

文/楊松編輯/鄢子爲

8月底,在北京一家餐廳,《21CBR》記者見到跨維智能創始人賈奎。科研、教學、創業……他的日程表排得滿滿當當。

“晚上10點前,我都有事情做。”他創業後,工作量大增。

賈奎是學者型創業者。他畢業於倫敦大學,獲得計算機科學博士學位,曾在多家高校執教,是人工智能、計算機視覺等領域專家,發表論文百餘篇,在TIP、TMLR等學術期刊擔任副主編。

2021年6月,賈奎創立跨維智能。從學者到創業者,從技術到產業,賈奎稱,轉型有兩個原因:

一是,近年來,AI“大廠”以豐厚的算力、數據資本發力,學界有滯後於產業界的趨勢。

二是自己也想嘗試新方法。“學術上,只要論證長期有用就行了,而企業的創新,要產生真正的社會價值,要考慮針對的人羣,滿足的需求,產品的功能、性價比等因素。”

賈奎帶領的跨維智能團隊,研發人員佔比達70%以上,核心團隊成員多擁有頂尖高校人工智能專業博士、碩士學位。

以自研的DexVerse™具身智能引擎爲技術底座,跨維智能已形成包括純視覺空間與具身智能傳感器、新一代機器人控制器、PickWiz軟件、高精度通用移動操作機器人等在內的產品矩陣,並實現商業落地。

賈奎坦言,每天都在思考,產品如何卡準位置,實現商業化。

以下爲其自述,經整理:

歸國創業

2016年,我啓程回國,進入華南理工大學,做計算機視覺方面的研究。

彼時,在人臉識別、圖像理解領域,國內“AI四小龍”做得很好。

我選擇了一條小衆賽道,將人工智能技術應用於三維空間。圖像是一個二維平面,三維就像一個杯子,是曲面、不規則圖像。如何處理這樣的信號?

這需要運用機器學習、計算機視覺、圖形學、機器人等交叉學科的知識。直至2015年,學術界纔開始研究此類問題。

早期,團隊成立了“幾何感知與智能實驗室”。當時,大廠尚未涉足這一領域,我們是國內最早將AI應用到三維空間的團隊。

文本、圖像,是二維的,互聯網上有現成的海量數據。三維空間,是立體的,包含位置、角度、尺寸等信息,需要精準標定,不能採用之前的方式獲取數據。

舉個例子,如果目標是讓機器人抓取世界上任何一個鼠標,團隊就需要集合成千上萬、甚至世界上所有鼠標的數據。這意味着,實驗室需要從早到晚,去不同的環境裡採集數據。

Sim2Real是適合空間智能、具身智能、機器人的範式,藉助物理引擎、物理仿真,它能夠自動計算、自動生成數據,來訓練大模型。

就是說,鼠標上面的顏色、紋理、材質,全部是解耦的。在引擎空間,你只用改變材質空間參數,就可以把一個木頭鼠標變成金屬的。

到了2020年,我發現,做AI研究,需要足夠多的算力、數據以及場景,高校能做的事情有限,不如大廠。

隨着技術逐步成熟,我於2021年開啓創業之路。創業三年多,我逐漸適應了企業家身份。

初期,我像一個學者;現在,更看重商業化場景,解決客戶痛點纔是最重要的。

創業艱難,我每天都在踩坑。碰到問題後,在實踐中學習。

經過多年曆練,我的能力變得更綜合、全面,臉皮厚了。有些性格弱點,克服不了的,可以通過其他人彌補,認清自己,有所不爲,有所不能。

沿途下蛋

團隊研究的技術方向,跟具身智能、空間智能有關。

我們一開始就是按照Sim2Real(simulation to reality,從仿真到現實)的方式,希望通過智能的“眼睛”,感知空間,實現通用的技能。

一家公司的CEO,需要具備技術洞察力,選擇恰當的技術路徑,針對某個場景或痛點,拿出解決方案。在走訪一系列應用領域後,我選擇從智能製造開始。辦公司、在大廠上班與教書,是三種完全不同的生活。我既要找準商業化場景,也要找到合夥人。

跨維智能聯合創始人吳迪,是相機硬件專家,曾在華爲、騰訊等公司工作,擁有十餘件發明專利。依託原有經驗及技術積澱,跨維推出了一系列3D成像和感知設備。

做銷售業務,需要找有經驗的。聯合創始人解銳,是一名連續創業者,曾擔任動視雲科技聯合創始人,爲通信、雲計算與人工智能領域專家。

幾人組團創業,致力於給機器人安裝智能“眼睛”,提升空間感知能力,錘鍊智慧的“大腦”,習得“具身智能”技能。

沿着這條路徑走,我們逐步實現了規模化商業落地。

目前,在多個商業場景中,跨維智能已經實現了利用100%合成數據,在毫米/亞毫米的操作精度要求下,達到99.9%以上的任務成功率。

在虛擬空間層面,我們不斷錘鍊“大腦”——底層自研的DexVerse™具身智能引擎。這是公司的技術底座。

在工業和一些商業場景中,我們已實現了無需研發人員介入的自動化操作。只需輸入一個操作對象,系統就能自動生成數據、標註計算,並在線傳遞給相應的AI模型進行訓練。

整個過程無需存儲數據,高效且精準,是當前實現具身智能通用化技能的最佳路徑之一。

我們還持續升級“眼睛”——純視覺空間智能傳感器。

傳統的3D相機,需要光線投射,才能獲得3D信號,作用距離有限,且容易受環境光的影響而跨維自研的純視覺空間智能傳感器,利用兩個相機從不同角度捕捉圖像,可以在複雜或半室外強光條件下成像,提升視覺系統的穩定性。

其最快可以實現每秒30幀頻率,接近人眼感知世界的方式。

這套3D成像和感知設備,可以安裝在機器人身上,適配主流機械臂與機器人,指揮其在工業和商業場景裡運作。

以終爲始

上一代的控制器,做一個從A點到B點的簡單動作,都需要機器人工程師單獨寫一個程序。它沒有眼睛,通過特定程序,精確地做動作。

新一代機器人控制器,像人一樣有大腦、眼睛,可以指揮胳膊和手的動作,理解自然語言。

我們在研的新一代機器人控制器,有眼睛,還能通過自然語言的方式溝通,自動理解任務,並將其轉換成機器人可以執行的代碼。

其將會落地兩個場景:工業柔性裝配和室內清潔操作。

在工業柔性裝配領域,即使要抓取的東西是無序的,Ropilot也可以指揮機械臂去完成動作。

如果機器人需要做好幾個動作,比如把內存條插入電腦,中間有幾根線擋着,其也能靈巧地撥開線,完成任務。

舉個例子,目前室內掃地機器人沒有胳膊,只能在地上操作。基於Ropilot產品,其在酒店場景下,可以完成清掃馬桶、更換牙刷等複雜動作。

終端客戶不關心技術路線,重視價格。

市場上存在着大量人不願意幹或者不能幹的場景。現在,年輕人寧願送外賣,也不去工廠幹活。這種情況下,客戶有強烈的需求,將機器人變得自動化、智能化、無人化。

這是一個不可逆轉的趨勢。

商業變現上,跨維智能出售成像感知套件,供應給集成商,安裝到機械臂、靈巧手上,再應用到家電、汽車零部件等行業。

隨着能力的增強,公司未來能夠支撐更多機器人的技能,這個市場會越來越大,工業、農業、商業……人類總是希望智能體在生活中輔助我們。

爲什麼用具身智能的範式做傳統的事?因爲它是剛需,是痛點。

公司預計,今年營收可達數千萬元人民幣,下一年有望過億。

對一個CEO來說,最重要的是具備洞察力,選擇合適的技術路徑,找到志同道合的人,把產品做出來。

對一個企業來說,永遠的話題是:下一個利潤增長點在哪裡?要找到有決定價值的商業場景,在關鍵時間節點,找清自己的生態位,每一步都要看準。