L3還沒到,智己就能造L4的車了?
智駕也要靠直覺”
作者|王磊 劉雅傑
編輯|秦章勇
默不作聲的智己,開始在智駕上憋大招。
50多頁的PPT,42分鐘的講解,全是硬核的智駕技術乾貨,就爲了展現出一個主題,智己汽車和Momenta聯合打造的智駕大模型IM AD 3.0,已經進化到下一個階段——擁有人的直覺。
“直覺”這個詞,也是貫穿整場發佈會。
關於端到端,每家企業的研發路線都不盡相同,解釋的話術也有所區別,IM AD 3.0的優勢,則是用直覺來形容,其背後靠的則是一段式端到端直覺式智駕大模型。
這套大模型擁有類似人腦結構的思考方式,駕駛過程中會生成本能反應主導的直覺決策能力,也就是老司機的開車方式,所以智己毫不客氣地表示自家智駕就是“十年老司機”。
除此之外,基於IM AD 3.0,智己還成爲了國內首個,同時具備L2、L3、L4級智能駕駛量產能力的品牌。
01
開車靠“直覺”
智己CEO劉濤也順勢公佈了L2到L4的時間表:
L2+級高階輔助駕駛,已於本月在全國範圍內開通全系車型“無圖城市NOA”,可以做到“全國都好開、全場景都敢開”。
智己還啓動了歐洲市場的L2+道路測試,目的是爲了打造一個“全球都能開”的無圖NOA。
L3級自動駕駛已進入量產倒計時,今年6月,智己入選國家首批智能網聯汽車L3級自動駕駛准入和上路通行試點名單,預計將於2026年正式具備L3級自動駕駛方案的量產條件。
同樣位於智駕第一梯隊的問界、小鵬暫不在該名單中。
另外,智己預計將在年內獲得首批“L4級無駕駛人道路測試牌照”,智己無人駕駛車將很快實現上路。
和大部分車企不同,智己並沒有採用當下主流的“感知+規劃”的分模塊智駕結構,而是和Momenta將其整合進一個大模型,雲端算力爲2.5EFLOPS。
這樣的好處顯而易見,除了減少手寫規則,有利於實現全局流程最優,其訓練的上限也較高。
智己敢宣稱自家“一段式端到端智駕大模型”斷代領先,背後還有一個重要原因就是這款大模型具備人工智能生成的“直覺能力”,即也可以理解爲智駕從“像人”進化到了“成爲人”。
直覺是人類纔有的特質,官方稱IM AD3.0會以更接近人腦結構的思考方式,生成本能反應主導的直覺決策能力。
尤其是在前車突然剎停和人車混流的無保護左轉場景的情況下,傳統的智駕系統會像機器般執行原有指令“傻等”,但IM AD3.0會像老司機一樣觀察兩側路況,並伺機變道。
如果碰上車道有水坑的情況下,IM AD3.0也會做出繞行水坑,而不是繼續執行車道保持,從水坑上駛過。
在訓練這套智駕系統的過程中,智己還採用了“長短期記憶模式”架構。
簡單來說,就是將智駕大模型的數據處理分爲短期記憶和長期記憶兩種模式。短期記憶可以實現以天爲單位的迭代,快速驗證優質數據;長期記憶則是周級迭代優質數據,對數據進行質量評估後,把優質數據輸出,應用於端到端大模型。
“長短期記憶模式”其實就是在模仿人腦“直覺推理+邏輯分析”的問題處理方式,可以在模型訓練成本節省10-100倍的同時,大幅提升迭代速度。
02
都得需要安全機制兜底
其實從智駕領域普遍的方案來看,分段式端到端是目前行業的主流方案。
分段式的大模型,感知端用一個模型,控制決策規劃用一個模型,用兩個模型來代替One Model,也是目前主流的端到端路線,像小鵬的XNGP、華爲ADS3.0都是分段式端到端的方案。
而所謂一段式端到端大模型,就是取消了分模塊智駕結構,將感知與規劃整合進一個大模型,一個完整的神經網絡減少了中間結構化感知結果的傳遞,從原始數據輸入到規劃路徑輸出,實現了信息無損傳遞,像車輛的顏色、司機的性別、車輛的狀態等,體驗更類人,性能上限更高。
所以不難看出,在智駕追求上,One Model大模型要比分段式大模型要好的多,因爲信息的無損傳遞,上限也變得極高。
當然,從兩段式端到端、模塊化端到端到單一神經網絡模型的One Model端到端的進程中,越往後,難度也越大。這也是爲什麼目前行業選擇的主流方案是分段式端到端的原因。
就像不久前,極越汽車在其智駕發佈會上說的那樣“One Model的一段式端到端,好像可以用數據來解決所有問題。那爲什麼還是選擇兩段式端到端?”
因爲出於安全因素的考慮。
雖然“One Model”的一段式模型,上限極高,但下限同樣也很低。要知道通過一套神經網絡模型來進行駕駛行爲決策,這過程就像“黑盒”一樣,很難控制系統輸出的內容。
而且它也缺乏透明度,工程師很難修復系統中存在的決策漏洞,並不能保證絕對的安全,也就說,一段式方案面臨更難的長尾問題。
但這也並不意味着,目前一段式端到端的方案就無法落地。
儘管AI模型存在不可控性,可能會做出一些違揹物理規律的結論推導。所以這個時候,就不能僅靠“直覺”了,它還需要加入“邏輯”加以糾正。在一段式的前提下,加入“安全邏輯網絡”來兜底,保證直覺決策的安全性。
這也對應智己汽車的方案,“一段式端到端+安全邏輯網絡”,通俗的來說就是人腦的直覺推理+邏輯分析兩個部分,正好對應智己給出的“長短記憶”兩個系統結合。
而且智己汽車也不是第一個這麼幹的,在此之前,最先在智駕領域應用這種方案的是理想,其搭載的E2E(端到端大模型)+VLM(視覺語言模型)分成系統一和系統二,組成了“快慢”系統,兩個系統相互配合,構成了人類認知和理解世界、做出決策的基礎。
不難看出,兩家在理念上極爲類似,不過,在技術框架上有所區別。
理想的系統一是E2E端到端;系統二是VLM視覺語言模型,VLM在一些複雜場景下,會對E2E進行指導,像是一位陪駕的老司機,因爲是一套視覺語言模型,所以運作頻率相較於E2E是一套慢系統。
理想E2E端到端是系統一,作爲主決策者,VLM視覺語言模型,當作系統2,可以理解爲系統1的“冗餘”,VLM在一些複雜場景下,會對E2E進行指導,像是一位陪駕的老司機,因爲是一套視覺語言模型,所以運作頻率相較於E2E是一套慢系統。
VLM視覺語言模型具備一些邏輯思考的能力,會在一些複雜情況下驗證“端到端”的決策,最終實現車輛的兜底或控制。
而智己對應的方案“長短記憶“模式,長期記憶是通過E2E來完成,作爲主決策者。
而智己上安全邏輯網絡,就不是視覺語言模型了,而是一套由規則構成的邏輯算法,這套系統使用串行處理方式,對數據進行驗證,實現算法迭代。
可以理解爲對某個場景,某個功能模型的小版本演化,可以達到快速迭代試錯目的,然後經過驗證過的好的算法和數據,會在一段時間的積累後應用在“長期記憶”,即最終的端到端大模型上。
不難看出,雖然兩家採用了不同的技術框架,但在理念上是殊途同歸,而且都需要一套安全網絡進行兜底。
所以再性感的智駕技術方案,沒有足夠的安全都是空中樓閣,技術路線或許沒有標準答案,不斷解決掉長尾問題,纔是智駕的最優解。