理想汽車郎鹹朋:未來沒有10億美元利潤,玩不起自動駕駛|36氪專訪

採訪|李勤 李安琪

文 | 李安琪

編輯 | 李勤

6月上旬,重慶汽車論壇演講前一天,理想汽車CEO李想臨時換掉了演講稿。團隊原本爲他準備的是人工智能話題,但李想更想聊的是自動駕駛。

李想在會上談到,未來自動駕駛將像人一樣,擁有快速反應能力,與處理複雜事件的邏輯推理能力。理想找到的答案是:端到端+VLM視覺語言模型——這也是當下智能駕駛行業最火的話題。

一個月後,理想汽車智駕團隊詳細發佈了“端到端+VLM”方案,不同於國內同行的“分段式端到端”,理想的方案更接近特斯拉,被稱之爲“One Model”,一張大網。

在外界印象中,理想的智駕一直是追趕者的狀態。去年行業激烈的開城大戰中,理想爲了追擊行業節奏,開始頻繁轉變路線:從依賴高精地圖,到輕地圖(NPN特徵網絡),再到去掉高精地圖。

理想汽車智能駕駛研發副總裁郎鹹朋和智能駕駛技術研發負責人賈鵬近日接受了36氪訪談,回顧這段追趕之旅,郎鹹朋總結,“核心原則就是能不能找到問題的本質,然後下決心、快速糾偏。”

選擇“端到端”技術路線,也是這個準則的延續。郎鹹朋說,過去的智駕方案,不管是輕圖還是無圖,底層技術架構都是“有圖”,按照既有的“感知到規控流程”工作,上游感知信息有損,下游規控就要不斷地補防漏洞,“這需要大量的人力和資源”。

當然,資源投入依然是次要問題,核心難題是,“基於規則的智駕體驗有上限,永遠做不到擬人。”

“端到端+VLM+世界模型”,是理想找到的最佳人工智能落地範式。

簡單來說,理想的端到端方案,取消了原本智駕系統的感知、預測、規劃控制等互相獨立、依賴人工規則的多個模塊,將其合併成爲一個大神經網絡。“輸入傳感器數據,輸出規劃軌跡。”郎鹹朋總結道。

VLM視覺語言模型,爲端到端提供了一個類似於ChatGPT的外掛。端到端的問題是“給它什麼樣的數據,它就有什麼樣的行爲”,VLM視覺語言模型擁有的認知世界、邏輯推理能力。複雜場景下端到端可以實時向VLM提問,後者給出相關駕駛建議。

世界模型則是一個巨大錯題本,可以通過重建+生產的方式生成模擬數據,加上理想之前積累的真實案例,形成“真題+模擬題”,以來考驗端到端模型。模型通過測驗獲得高分後,才能推給用戶。

在理想內部,這三大模型分別被稱作系統1、系統2和系統3。系統1對應人腦中的即時思考模式,系統2對應人腦中的邏輯思考,而系統3則是一個考試模型,負責驗收系統1和系統2的訓練學習成果。

端到端智能駕駛技術由特斯拉發起。2023 年 8 月,馬斯克就在直播中展示過基於端到端的FSD v12版本能力,目前FSD已經迭代至 v12.5版本。但與特斯拉不同的是,在端到端、世界模型之外,理想還引入了VLM大語言模型能力。

賈鵬向36氪解釋,他在美國東海岸和西海岸各花了一週時間測試特斯拉的FSD,發現即便是“端到端”也有上限。在路況複雜的美國東海岸,像紐約、波士頓,特斯拉的接管率明顯提升,“HW3.0上能跑的端到端模型參數量不會特別大,模型容量也有天然的上限。”

而VLM被理想設計的角色,就是提升“端到端”的上限,其可以學習坑窪路面、學校,負責施工、環島等事件,在關鍵時刻,給端到端系統提供決策。

郎鹹朋和賈鵬都認爲,VLM是理想這套智駕系統更大的變量。因爲VLM的參數已經達到22億,響應時間是300毫秒,如果擁有更大算力的芯片,VLM可部署的參數量將達到百億級,是通向高級自動駕駛L3/L4的最佳路徑。

“VLM本身也在跟隨大語言模型技術發展,參數量最終能到多大,還沒有人能回答。”賈鵬說。

不難發現,數據驅動、視覺語言大模型等特點,決定了智能駕駛行業已經參與到OpenAI、微軟、特斯拉等公司發起的算力遊戲中。

郎鹹朋沒有諱言,真到了這一步,大家比的就是數據的數量與質量,以及算力儲備。高質量數據是以絕對的數據規模爲前提;支撐L4模型的訓練,大概需要幾十EFLOPS的算力。

“沒有10個億美金的淨利潤的公司,都玩不起將來的自動駕駛。”郎鹹朋直言。

目前理想汽車雲端算力爲4.5EFLOPS,快速縮小了和頭部公司華爲的差距。據36氪汽車瞭解,近期理想大量掃貨英偉達的雲端芯片,“渠道商手裡有的卡基本都買了”。

CEO李想本人也洞悉了這場競賽的走勢:用資源加智能技術槓桿,甩掉同行。他經常主動問郎鹹朋,“算力資源夠不夠?不夠讓謝炎(理想CTO)再給弄點。”

“我們車也有,錢也比別人多,非常有機會在這條路上,拉大和對方的差距。”李想說。財報顯示,截至今年一季度,理想汽車現金儲備接近990億元。

理想從內部數據看到,智駕的商業閉環已經初有跡象。7月初,理想開始向智駕Max版用戶交付“全國都能開”的6.0智駕版本,郎鹹朋發現,理想Max車型佔比快速超過了50%,“每個月都有10%以上的增長,如果2%-3%可以理解爲正常抖動,但10%以上就是有效增長。”

郎鹹朋也清楚,雖然L4自動駕駛的遠景開始清晰,但它的實現路徑沒有變,“我們要趕緊幫公司賣車,賣出車纔有錢買卡訓練智駕。”

如果智駕是未來汽車戰場的勝負手,它顯然是更殘酷的資源遊戲。理想從頂層戰略到技術籌備和資源投入,都做了先手準備,其他人呢?

以下是36氪汽車與理想智能駕駛研發副總裁郎鹹朋、理想智能駕駛技術研發負責人賈鵬的對話,經編輯:

談智駕上限:不管有圖還是無圖,都是同質架構

36氪汽車:內部覆盤過嗎?怎麼從智駕落後狀態,快速做到能和華爲對比的水平?

郎鹹朋:其實和小鵬、蔚來、華爲相比,不是說我們的人多個腦袋,甚至可能還不如人家人多,但我們要求實事求是。有時候我覺得大家可能沒有去找問題的本質,遇到困難都是想現在做的能不能改改,做迭代。

比如有圖到無圖,圖本身就是最大的問題。以前在圖上做了很多工作,會想再掙扎一下,其實是要趕緊投入下一段研發。就看能不能找到本質問題,下決心快速糾偏。

36氪汽車:理想做到全國無圖智駕,有很多版本,你們怎麼糾偏?

郎鹹朋:去年上海車展,大家開始做城市NOA。各家思路差不多,高速道路用高精地圖,所以最先看高速方案能不能用到城市,這得去問圖商,高德說有城市高精地圖,但 20 城左右。我們說先試試。

但方案和地圖的迭代更新是綁定的。當時我們在望京做,修路、改道甚至換紅綠燈,就要等高德把圖迭代一下,才能繼續工作。大概去年6月,我們決定不做重圖了,改用NPN (一種神經先驗網絡)方案。相當於局部做圖,在大路口、環島等用NPN先驗信息,我們的車去更新特徵。

但大城市北上廣深車多可以,但小的城市車少,怎麼更新?永遠在大城市裡做嗎?用戶不會買單的。當時團隊還是猶豫,北上廣做得還可以。內部也有聲音,要不別做百城,就做個幾個一線城市,反正最早華爲也就50 個城市,咱們也不用非得第一第二。

我說那不行,還是要快速做一下,還是想知道,如果真做到比較大範圍,NPN方式到底 O不OK?問題就在這,地圖一直會有限制,也有詬病說有些城市只能開兩條路。於是痛定思痛,我們去年12 月把百城交付了之後,就開始切無圖方案。

36氪汽車:無圖NOA到端到端,必要性有哪些?

郎鹹朋:無圖還是有問題。原來圖可能提供一些比較準確的信息,去掉地圖先驗信息後,對上游感知的要求變得特別高。下游規控這一塊,之前信息輸入很規矩,現在感知有一些抖動問題和錯誤之後,也有很大挑戰。

繼續做下去需要大量人力兜底。比如感知有問題,就得給中間的環境模型加很多規則,後邊規控如果有影響就加上規則彌補。這對團隊的人力資源挑戰很大。華爲無圖就是這麼來的(人力優勢),我們去年下半年本來也想多弄點人。

但這玩意上限挺明顯的,主要所有規則都是人制定,靠工程師設計。尤其到後期今年1-2月份,我們經常改了一個規則,這個 case 好了,別的 case 就不行了。互相牽連太大,無窮無盡。

當然投入資源還是次要的,最關鍵的,基於規則的體驗有上限,永遠做不到擬人。所以我們就又迭代到現在的端到端和VLM。端到端,是第一次用人工智能做智能駕駛。

36氪汽車:理想是什麼時候開始投入端到端?

郎鹹朋:我們永遠有兩條線在做,一條明線是量產交付,去年NPN輕圖到無圖是明線,端到端是一條暗線,是我們的預研線。

只不過去年雁棲湖戰略會把它明確出來了。戰略會上,李想提到,自動駕駛是我們的核心戰略,RD(技術研發)要達成重要節點。端到端思路很早就有了,但一直有交付的壓力,沒有資源去做探索。

36氪汽車:無圖推出來沒多久可能就要上端到端,這個節奏是怎麼考量的?

郎鹹朋:年初時候,就跟李想說過這句話,雖然我們要做端到端,但還是要做無圖。因爲無圖是端到端的支撐,不做無圖,哪來這些數據、經驗去切到端到端?

而且必須先上無圖,車纔好賣,不然拿什麼去和華爲競爭?現在上了無圖,就是給端到端爭取時間,同時讓產品力有一定提升,幫助賣車。

36氪汽車:一路糾偏過來,你們一直在否定自己的方案,從向上管理角度會不會有壓力?

郎鹹朋:沒有,第一,我的責任是帶着大家去實現自動駕駛;第二,理想組織有自己的方法論或者流程,比如說做正確但不容易的事,聽起來像廢話,但很關鍵。

李想絕對不會說,郎博怎麼否定了之前做的東西。我們和他講清楚爲什麼要做這個事,我們要在AI戰略上取勝,找到了一個雙系統範式,他馬上理解了。他只會說,端到端太好了,得趕緊做。

人工智能要的就是算力和數據。李想經常過來問我,郎博你算力夠不夠?不夠讓謝炎那邊再給你弄點。

李想說,我們車也有,錢也比別人多,非常有機會在這條路上,拉大和對方的差距。所以別做這縫縫補補的事,趕緊去做後面的AI。

談智駕未來:端到端+VLM是人工智能最佳範式

36氪:有些公司沒做過無圖,認爲端到端是個換道超車的機會,這事成立嗎?

郎鹹朋:說對了一半。端到端確實可以換道,不管有圖、NPN、無圖,方案核心是同質的。把地圖拿掉,感知增強,把小模塊堆成幾個大模型,用同一個方案一點點演進。

但端到端不一樣。它第一次用人工智能的方式來做自動駕駛。用 One Model 做端到端後,輸入只有數據,輸出是軌跡,中間模塊都融入到一個模型裡面。

整個研發流程體系完全不一樣。傳統的產品研發模式,驅動力來自於需求設計或者問題反饋。這個場景下不行,有 bug 之後,經過一些人工設計迭代、驗證。

端到端就是一個黑盒子,它具備什麼能力,完全取決於給他什麼樣的數據。我們現在篩選的是老司機數據,如果數據不好,出來的模型就不好。進去的是垃圾,出來的也是垃圾。它是一個數據流轉的訓練過程。之前是產品功能研發過程,現在是能力提升過程。

所以通過端到端換道沒問題,但是想超車,前提得有數據、訓練算力。如果沒有這兩個前提,說句實話,模型大家都有,本身不會差太多。哪怕再好的模型,沒有數據和算力,就是一堆參數而已。

36氪:理想有很多數據積累,但何小鵬最近提出觀點,說數據多不等於能做到自動駕駛,你怎麼看?

郎鹹朋:我們的訓練數據是clips,裡邊包括了司機開車幾十秒的完整數據,有視覺傳感器,當時車輛狀態信息,油門、剎車這些操作數據。

但數據必須高質量纔有用。什麼叫高質量?我們跟產品和車輛的主觀性能評價團隊,共同定義了一個叫“人類高質量司機”標準。有些司機天天開車,技術非常高,如果總是急加速、減速,老是開出AEB或者急打方向盤的,可能都不行。

按照這些標準,我們80萬車主只有 3% 是“人類高質量司機”,加上此前積累的高質量數據,最終形成了幾百萬clips,都是精華。何小鵬說的沒錯,確實需要高質量數據,但數據質量是以數據的絕對規模爲前提。

36氪汽車:端到端之後,數據工具體系需要跟着升級嗎?

郎鹹朋:工具鏈發生非常大變化。之前是產品功能研發過程,比如用戶接管,數據傳回來,人工分析問題,然後修改代碼、實車評測、上線發佈,這個過程數據閉環已經非常高效了。但也要好幾天時間,而且有大量人力參與,還可能測試越多,問題越多,需要修改的人越多。

現在的流程是,假設有個車主接管,數據回來後,會自動用世界模型生成類似場景,變成錯題庫。還要看看錯題庫裡有沒有類似數據,沒有的話,就到已有數據庫裡再挖掘一下,聯合訓練。

訓練出新的模型後,模型再回到世界模型考試系統裡邊,考試兩次。第一次是剛纔的錯題做對了沒有,第二次是一套測試能力真題。如果兩次都沒問題,這個模型就出來了。極致一點的話,中間環節沒有任何人,是一個很自動化的閉環過程。

36氪汽車:端到端是黑盒訓練過程,要加很多代碼來兜底,能判斷出兜底工作量多大嗎?

郎鹹朋:很少,有圖版本我們的代碼量大概200萬行,無圖是120萬,端到端一共才20萬,只有原來的10%。

控制這塊確實用到一些兜底規則。因爲端到端輸入傳感器數據,實際輸出規劃軌跡,但可能是有問題,所以我們會有一些暴力規則,避免出現一些異常控制行爲,比如方向盤打了180度。

36氪汽車:馬斯克說代碼刪了30萬行,你們似乎更激進,後面推送之後如果問題越來越多,代碼還會再加回來嗎?

郎鹹朋:我覺得可能不會太大變化。主要是我們有不停迭代自己的能力。

36氪汽車:理想內部一直有量產和預研兩條線,端到端從預研變成量產,現在的預研是什麼?

郎鹹朋:L4。這要回到我們對人工智能的理解。我們發現,如果想實現真正的自動駕駛,跟現在的做法是不大一樣。

端到端是,給它什麼樣的數據,就有什麼樣的行爲。如果沒有給過類似數據,就不會應對。但人不是,比如我在北京開車,去美國也能開。如果真走到自動駕駛,系統必然也要像人一樣理解事情,具備推理能力。

我們研究了一下人的大腦是怎麼工作和思考的,去年八九月,賈鵬和詹錕他們就看到了雙系統理論,這是很好的人類思維框架。假設人工智能是雙系統,系統1有快速響應的能力,系統2就是邏輯思考能力,遇到未知事情可以很好處理。

這都是道的部分,理論層面的東西。落到自動駕駛,端到端模型是系統1,系統2是VLM視覺語言模型。這是物理世界實現人工智能的最佳方案。

那怎麼衡量系統1和系統2的能力?我們還有個世界模型,內部其實叫系統3,對於世界模型我們的用法非常清楚,就是用來考驗系統1和系統2,它是個考官。

我們有真題庫,就是人正常駕駛的真實數據。而世界模型是個生成式模型,可以通過已有數據,舉一反三生成另一些題。當一個模型訓練出來,就做一遍真題,然後再做幾套模擬題,看看考多少分。每一個模型都會有分數,分數越高,就是更強大能力的模型。

36氪汽車:什麼情況下會觸發系統2?

郎鹹朋:系統1、2系統永遠在工作。如果有些系統比較複雜,系統1可能不太好識別,比如立交橋,水坑、剛施工的水泥地,系統2在這種場景裡都會起作用,它只是工作頻率會低一點,比如3-4赫茲,系統1可能以十幾赫茲高頻在跑。類似GPT一樣,系統1會一直去問系統2問題,遇到這種場景應該怎麼做。

36氪汽車:系統2 VLM本身有能力邊界嗎?

郎鹹朋:可以把它當做一個大語言模型,有些大語言模型可能數學好,有些代碼好,有不一樣的能力。我們着重把駕駛相關法規,科目1-4的教學視頻、教材都給它,我們的VLM其實是偏駕駛科的大語言模型。

短期內,有些知識它確實還沒有,但隨着閉環越轉越快,它的能力上限會越來越高。端到端現在參數只有3億多,VLM系統參數都22億了。

36氪汽車:所以智駕以後更大的變量是系統2?

郎鹹朋:底層的支撐是系統1,但再往後走的時候,包括走到L3\L4級自動駕駛,必須要有很強大的系統2能力,現在22億參數可能也不夠,還得往上加。

賈鵬:系統2主要還是着重複雜的場景,22億參數的響應時間是300毫米,困難場景下,這個推理時間是OK的。但系統1肯定是不夠,需要幾十毫秒左右。

36氪汽車:模型參數會有上限嗎?比如80億?對芯片算力的大概要求是多少?

賈鵬:就跟大語言模型一樣,到多大參數,現在沒有人能回答。

郎鹹朋:我們現在又有道又有術,系統1加系統2是個很好的人工智能範式,但具體怎麼實現,還需要咱們再慢慢探索。

36氪汽車:分段式端到端如果要進化到 One Model,要推倒重來嗎?

賈鵬:挑戰挺大的,我們的無圖相當於是分段式,就兩個模型。但第一,技術挑戰比較大,因爲傳統那套全沒了,怎麼把模型訓到效果好?第二是人的挑戰,感知和規控兩撥不同背景的人,怎麼在一起把模型做出來?

我們團隊也是挺掙扎、折騰的。到了端到端,很多人的角色可能就變了。以前做工程的人,可能去定義數據、定義場景。轉換自己的角色,挑戰還是挺大的。

談商業閉環:沒有10億美金玩不起自動駕駛

36氪汽車:聽起來感覺經費在燃燒,你們打算對端到端投入多少?

郎鹹朋:肯定,目前是10億人民幣,將來自動駕駛模型的訓練可能需要10億美金,還不包括其他的,就是買卡、電費、人才這些。沒有10個億美金的淨利潤的公司都玩不起。

36氪汽車:端到端可能是汽車行業的分水嶺技術,從商業閉環角度,智駕的商業表現如何?

郎鹹朋:從6.0版本開始,也就過去1-2個月,我們的AD Max佔比已經超過了50%,每個月都有10%以上的增長,如果2%-3%可以理解爲正常抖動,但10%以上就是有效增長。在北上廣深,我們智駕車型比例已經到70%了。L9車型AD MAX定單達75%,L8是55%,L7是65%。

賈鵬:L6也有22%。對年輕人購車來說,智駕已經是一個很重要的因素了。用過智駕後,很難再回到原來的狀態。

郎鹹朋:現在高速NOA大家的認可度已經很好了,城市NOA還是非常早的階段。很大程度上城市產品力還不夠好,哪怕無圖也到天花板了,跟人類開車的舒適度相比不是特別好。端到端之後,一切都會發生改變,某些表現跟人還是挺接近的。

隨着數據和算力的補充,端到端架構衍生出來的城市智駕,很可能達到高速上的駕駛體驗。到了這種階段,對用戶購車是有很大幫助的。

36氪汽車:智駕商業價值越來越明顯,但理想智駕功能一直免費,會不會重新討論策略,讓商業價值更突出一些?

郎鹹朋:很多人買理想是爲了冰箱彩電大沙發,但將來也可能爲了智駕買理想,這就足以表明智駕商業價值了。Max和Pro版本真的差3萬塊錢。

至於軟件收費,如果到了L4級別,真的做的特別牛,暢想一下能幫用戶去學校門口接一下孩子,你願意爲這個服務付費嗎?隨着能力提升,有些附加的商業模式會出來,但前提一定是智駕能力有極大提升。

36氪汽車:小鵬提到未來18個月做到類似谷歌Waymo的體驗,你們會有這樣的時間表嗎?

郎鹹朋:如果數據和商業能支撐目標的話,是可以的。我們內部盤算了一下,先不說L3\L4,想支撐VLM和端到端的訓練,大概需要幾十EFLOPS雲端算力。

小鵬是2.51 EFLOPS,理想是4.5 EFLOPS,至少需要10 EFLOPS以上算力纔可能做到,也就是每年大概10個億美金,60億人民幣。如果每年能燒的起,可以玩。

36氪汽車:除了算力,按照現在的技術架構往後走,智駕團隊一年會平均需要多大投入?

郎鹹朋:費用大頭就是訓練芯片,數據存儲和流量這些,一年至少10~20個億美金。但是再往後走,特別是世界模型,終極目標是還原整個真實物理世界。這本身也需要訓練,需要大量算力資源。

要說上限是多少,我現在想象不出來,至少比10EFLOPS還要更多,馬斯克說要上百EFLOPS,我們認爲這不是在瞎說。

36氪汽車:車企現在還是製造業的利潤模型,今年還有價格戰,利潤會受影響,車企來做科技公司做的事情更合適嗎?

郎鹹朋:誰能拿到高質量數據,誰能有足夠訓練算力,誰就能搞好大模型。人才可能不用那麼多,但相對應的人才得有,這三個都具備的,除了理想、華爲、特斯拉之外還有誰?我想不出來。

我們現在的想法是趕緊幫公司賣車,賣出車纔有錢買卡訓練智駕。

智能駕駛越往後做,差距會越來越大。之前有圖無圖,大家都在做一個能看到天花板的東西。再往後突破,就得加上AI,大家比的就是數據和算力。解決不了就只能在上一個維度卷,我們會跨到下一個維度去吃數據紅利。

36氪汽車:智駕技術變化這麼迅速,投入這麼大,怎麼讓李想對智駕保持感知?

郎鹹朋:他隨時會找我和賈老師去聊。從去年9月份開始,我們有一個人工智能專題週會,結合公司所有跟AI相關的人,包括智能空間、基建、訓練平臺的人。李想對人工智能的理解還是非常到位的。

他也有一些其他的資源,認識比較多人,跟陸奇、Kimi CEO楊植麟、地平線餘凱等人都有聊。他既理解了AI的核心精髓,實質技術,還能用一些比較通俗的話表達出來。

36氪汽車:端到端模型設計需要多少人力?未來智駕團隊平均的規模大概多少人?

賈鵬:可能不需要太多,特斯拉其實真正精英的做模型的人很少,視覺團隊一共就20個人。這其實可以反推,比如有了OrinX芯片,模型本身跑12-15赫茲,基本就確定了模型參數量有多大,大概用什麼樣的模型結構去訓練,可能幾個人就可以大概定義出來了。

郎鹹朋:特斯拉比較極致,軟件算法團隊200多人,但它只做一個芯片和少數幾個車型。我們現在做不到他那麼極致,但還是會比他多幾倍。因爲我們芯片平臺不太一樣,我們車型也多,雖然不是用人特別多,但每個地方多少得有點人。

36氪汽車:雲端算力未來是個很大投入,有沒有考慮國產芯片替代?切換起來會有困難嗎?

賈鵬:車端最早已經用了地平線的J3和J5。雲端在試一些國產的,但目前最大的難點是他們生態沒有那麼好。英偉達CUDA生態實在太無敵了,換個生態就是適配起來非常麻煩。現在還是想以效率爲先,同時關注國內的進展,已經開始有交流和試用了。

36氪汽車:自主研發的智駕芯片出來之後,跟端到端的結合會有什麼效果?

賈鵬:軟硬結合肯定效果會更好,特斯拉已經打出樣來了。人家就是芯片更便宜,算力更高,對 AD的支撐也更好,人家在FSD V12.5 上想把參數擴大 5 倍就擴大了。這個確實是有很大優勢的。

郎鹹朋:前提還是 L3 和 L4 算法得確定下來。

36氪汽車:L4級自動駕駛會有一個時間點嗎?

郎鹹朋:就是 3- 5 年吧。我們先把 L3 交了,L3是 L4 的敲門磚。第一,能讓我們更加摸清楚 L4 的算力和數據要求,包括考試系統、數據閉環的基礎能力。

第二從產品來說,還要建立跟人的互信關係。因爲端到端本身還是黑盒子,人多少還有些不太信任系統。那麼通過L3產品,能跟人打造好的信任關係。

36氪汽車:很多AI技術原點都在硅谷,以前跟隨特斯拉,理想現在也在做前沿探索,怎麼保證對技術的判斷或嗅覺是準確敏銳的,而不是點錯技術樹?

郎鹹朋:我們已經有了一個完整體系,L4還得3~5年但已經開始去摸着了,如果點錯的話,也是早早點錯,還有機會。

中美的人工智能現在確實有分裂,中國人才其實也挺多的,我們儘量找到最優秀的年輕人,像今年我們招了240多個校招生,都是QS前100(世界大學排名前100名單)的。

談特斯拉:學習特斯拉、超越特斯拉

36氪汽車:有人說國內和特斯拉智駕的差距是2年,你們怎麼看?

郎鹹朋:肯定不是。技術方案上咱們不做評價,因爲特斯拉這兩年沒有太說自己的技術方案。從產品體驗上看,我們基本上處於特斯拉去年剛發佈端到端版本的水平。大概是半年左右的差距。

36氪汽車:特斯拉也遇到了一些問題,馬斯克說數據變少、反饋變少,你們怎麼規避?

郎鹹朋:這個是不同的階段,什麼時候遇到就表示我們進入到下一個階段了。

賈鵬:特斯拉現在最大的問題是驗證,你可以看v12.4(特斯拉FSD的版本號)效果不好,然後纔出了v12.5,參數量擴大 5 倍。我猜是驗證這一步,沒有做得特別好。模型出來的時候,不知道真到了用戶那,效果到底咋樣。

這就是我們強調世界模型的原因。我們吸取了這些教訓,一定要提前把驗證做好。否則全國所有道路包括園區小區內,模型怎麼驗證?

如果看特斯拉2022 年 AI Day,還是很傳統仿真, scalability(可擴展性) 太差了,支撐不了在在北美全部開放。這一點上,確實是我們從特斯拉得到的一些教訓。所以我們花那麼大力氣去做世界模型。

36氪汽車:端到端方案搭建過程當中,有沒有哪些讓你們覺得挺難的?比如數據工具鏈?

賈鵬:數據這套東西2019 年就開始建了,至少在中國是做得最好的。數據、訓練其實都是常規,都是有範式可以遵循。目前來看,驗證是挑戰最大的。

另一個是 VLM 本身,它逐漸發揮出更大作用。可能一開始的時候,只有5% 的情況在用,但後面可能端到端遇到上限,剩下的產品體驗就靠 VLM去迭代了,這是將來的挑戰。

這也是跟特斯拉不同的點。我們做VLM和世界模型這兩點,也是因爲看到特斯拉的問題。v12.4 驗證有問題,我們之前在北美開了兩次,每次大概一週左右,西海岸和東海岸都去開過。明顯發現它在西海岸很好,東海岸就很差。波士頓、紐約就不怎麼樣,因爲這兩個城市比西海岸複雜很多。

在東海岸,特斯拉平均接管率挺高,可能端到端的一些上限就在這兒。所以我們做VLM,就想把這個天花板給打破。VLM 上限非常高,有可能通過這套路徑超越它(特斯拉)。