☰

深圳教授，入局具身智能

文/楊松編輯/鄢子爲

8月底，在北京一家餐廳，《21CBR》記者見到跨維智能創始人賈奎。科研、教學、創業……他的日程表排得滿滿當當。

“晚上10點前，我都有事情做。”他創業後，工作量大增。

賈奎是學者型創業者。他畢業於倫敦大學，獲得計算機科學博士學位，曾在多家高校執教，是人工智能、計算機視覺等領域專家，發表論文百餘篇，在TIP、TMLR等學術期刊擔任副主編。

2021年6月，賈奎創立跨維智能。從學者到創業者，從技術到產業，賈奎稱，轉型有兩個原因：

一是，近年來，AI“大廠”以豐厚的算力、數據資本發力，學界有滯後於產業界的趨勢。

二是自己也想嘗試新方法。“學術上，只要論證長期有用就行了，而企業的創新，要產生真正的社會價值，要考慮針對的人羣，滿足的需求，產品的功能、性價比等因素。”

賈奎帶領的跨維智能團隊，研發人員佔比達70%以上，核心團隊成員多擁有頂尖高校人工智能專業博士、碩士學位。

以自研的DexVerse™具身智能引擎爲技術底座，跨維智能已形成包括純視覺空間與具身智能傳感器、新一代機器人控制器、PickWiz軟件、高精度通用移動操作機器人等在內的產品矩陣，並實現商業落地。

賈奎坦言，每天都在思考，產品如何卡準位置，實現商業化。

以下爲其自述，經整理：

歸國創業

2016年，我啓程回國，進入華南理工大學，做計算機視覺方面的研究。

彼時，在人臉識別、圖像理解領域，國內“AI四小龍”做得很好。

我選擇了一條小衆賽道，將人工智能技術應用於三維空間。圖像是一個二維平面，三維就像一個杯子，是曲面、不規則圖像。如何處理這樣的信號？

這需要運用機器學習、計算機視覺、圖形學、機器人等交叉學科的知識。直至2015年，學術界纔開始研究此類問題。

早期，團隊成立了“幾何感知與智能實驗室”。當時，大廠尚未涉足這一領域，我們是國內最早將AI應用到三維空間的團隊。

文本、圖像，是二維的，互聯網上有現成的海量數據。三維空間，是立體的，包含位置、角度、尺寸等信息，需要精準標定，不能採用之前的方式獲取數據。

舉個例子，如果目標是讓機器人抓取世界上任何一個鼠標，團隊就需要集合成千上萬、甚至世界上所有鼠標的數據。這意味着，實驗室需要從早到晚，去不同的環境裡採集數據。

Sim2Real是適合空間智能、具身智能、機器人的範式，藉助物理引擎、物理仿真，它能夠自動計算、自動生成數據，來訓練大模型。

就是說，鼠標上面的顏色、紋理、材質，全部是解耦的。在引擎空間，你只用改變材質空間參數，就可以把一個木頭鼠標變成金屬的。

到了2020年，我發現，做AI研究，需要足夠多的算力、數據以及場景，高校能做的事情有限，不如大廠。

隨着技術逐步成熟，我於2021年開啓創業之路。創業三年多，我逐漸適應了企業家身份。

初期，我像一個學者；現在，更看重商業化場景，解決客戶痛點纔是最重要的。

創業艱難，我每天都在踩坑。碰到問題後，在實踐中學習。

經過多年曆練，我的能力變得更綜合、全面，臉皮厚了。有些性格弱點，克服不了的，可以通過其他人彌補，認清自己，有所不爲，有所不能。

沿途下蛋

團隊研究的技術方向，跟具身智能、空間智能有關。

我們一開始就是按照Sim2Real（simulation to reality，從仿真到現實）的方式，希望通過智能的“眼睛”，感知空間，實現通用的技能。

一家公司的CEO，需要具備技術洞察力，選擇恰當的技術路徑，針對某個場景或痛點，拿出解決方案。在走訪一系列應用領域後，我選擇從智能製造開始。辦公司、在大廠上班與教書，是三種完全不同的生活。我既要找準商業化場景，也要找到合夥人。

跨維智能聯合創始人吳迪，是相機硬件專家，曾在華爲、騰訊等公司工作，擁有十餘件發明專利。依託原有經驗及技術積澱，跨維推出了一系列3D成像和感知設備。

做銷售業務，需要找有經驗的。聯合創始人解銳，是一名連續創業者，曾擔任動視雲科技聯合創始人，爲通信、雲計算與人工智能領域專家。

幾人組團創業，致力於給機器人安裝智能“眼睛”，提升空間感知能力，錘鍊智慧的“大腦”，習得“具身智能”技能。

沿着這條路徑走，我們逐步實現了規模化商業落地。

目前，在多個商業場景中，跨維智能已經實現了利用100%合成數據，在毫米/亞毫米的操作精度要求下，達到99.9%以上的任務成功率。

在虛擬空間層面，我們不斷錘鍊“大腦”——底層自研的DexVerse™具身智能引擎。這是公司的技術底座。

在工業和一些商業場景中，我們已實現了無需研發人員介入的自動化操作。只需輸入一個操作對象，系統就能自動生成數據、標註計算，並在線傳遞給相應的AI模型進行訓練。

整個過程無需存儲數據，高效且精準，是當前實現具身智能通用化技能的最佳路徑之一。

我們還持續升級“眼睛”——純視覺空間智能傳感器。

傳統的3D相機，需要光線投射，才能獲得3D信號，作用距離有限，且容易受環境光的影響而跨維自研的純視覺空間智能傳感器，利用兩個相機從不同角度捕捉圖像，可以在複雜或半室外強光條件下成像，提升視覺系統的穩定性。

其最快可以實現每秒30幀頻率，接近人眼感知世界的方式。

這套3D成像和感知設備，可以安裝在機器人身上，適配主流機械臂與機器人，指揮其在工業和商業場景裡運作。

以終爲始

上一代的控制器，做一個從A點到B點的簡單動作，都需要機器人工程師單獨寫一個程序。它沒有眼睛，通過特定程序，精確地做動作。

新一代機器人控制器，像人一樣有大腦、眼睛，可以指揮胳膊和手的動作，理解自然語言。

我們在研的新一代機器人控制器，有眼睛，還能通過自然語言的方式溝通，自動理解任務，並將其轉換成機器人可以執行的代碼。

其將會落地兩個場景：工業柔性裝配和室內清潔操作。

在工業柔性裝配領域，即使要抓取的東西是無序的，Ropilot也可以指揮機械臂去完成動作。

如果機器人需要做好幾個動作，比如把內存條插入電腦，中間有幾根線擋着，其也能靈巧地撥開線，完成任務。

舉個例子，目前室內掃地機器人沒有胳膊，只能在地上操作。基於Ropilot產品，其在酒店場景下，可以完成清掃馬桶、更換牙刷等複雜動作。

終端客戶不關心技術路線，重視價格。

市場上存在着大量人不願意幹或者不能幹的場景。現在，年輕人寧願送外賣，也不去工廠幹活。這種情況下，客戶有強烈的需求，將機器人變得自動化、智能化、無人化。

這是一個不可逆轉的趨勢。

商業變現上，跨維智能出售成像感知套件，供應給集成商，安裝到機械臂、靈巧手上，再應用到家電、汽車零部件等行業。

隨着能力的增強，公司未來能夠支撐更多機器人的技能，這個市場會越來越大，工業、農業、商業……人類總是希望智能體在生活中輔助我們。

爲什麼用具身智能的範式做傳統的事？因爲它是剛需，是痛點。

公司預計，今年營收可達數千萬元人民幣，下一年有望過億。

對一個CEO來說，最重要的是具備洞察力，選擇合適的技術路徑，找到志同道合的人，把產品做出來。

對一個企業來說，永遠的話題是：下一個利潤增長點在哪裡？要找到有決定價值的商業場景，在關鍵時間節點，找清自己的生態位，每一步都要看準。

深圳教授，入局具身智能

相關資訊