第四範式戴文淵:深耕行業大模型十年,這是中國AI市場的風口 | 涌現36人

第四範式創始人兼CEO 戴文淵

訪談|周鑫雨 蘇建勳

文|周鑫雨

編輯|蘇建勳

封面來源|企業供圖

一整年來,“第四範式”創始人兼CEO戴文淵朝客戶潑了不少冷水。

“你先忘記AI,忘記大模型,先想清楚你要的是什麼。”

這些“靈魂拷問”的背後,是戴文淵作爲一個人工智能行業老兵,對“技術跟風熱”的本能思考與反問。

在投身AI創業前,戴文淵曾就職於華爲諾亞方舟實驗室,也負責過“百度鳳巢”(百度的搜索營銷系統)的研發。他覺得技術需要服務於解決核心問題,“不是因爲有了機器學習的技術,你才硬套上技術去解決公司的問題”。

但技術浪潮的起落,本就如亂花迷人眼。2014年,第四範式成立。至今十年來,戴文淵經歷了大數據、CV(計算機視覺)等風口。當進度條拉到大語言模型石破天驚的2023年,他發現同樣的問題在風口中重複上演:從業者只想追逐技術熱潮,卻忘記了業務核心問題。

ChatGPT的智能涌現,讓全行業爲之沸騰。但在戴文淵看來,ChatGPT帶來的大語言模型浪潮,對不少行業而言是個美麗的泡沫,“大語言模型解決的是說話問題,但大部分行業的核心問題,都不是說話”。

他爲36氪舉了不少例子:零售行業核心問題是怎麼做好供應鏈,醫療行業核心問題是怎麼診斷和預防,金融行業的核心問題是如何風控——這些核心問題對應的數據模態,分別是監測數據、體檢報告、欺詐數據,都不是語言。

“在一個大語言模型基座上嫁接其他模態的數據,是非常困難的。”戴文淵直言,“現在市場上99%的行業大模型,其實都是行業大語言模型,沒法解決核心問題。”

真正的行業大模型到底是什麼?

基於不同模態的場景數據,訓練出的“場景大模型”——這是戴文淵給出的答案。

GPT本質上是讓AI能夠預測下一個token。戴文淵覺得,大語言模型的出現,限制了大家對Transformer的想象——既然大模型能預測下一個文本,爲何不能預測模態各異的“X”?

若將“Predict the next X”的思想,運用到解決行業問題,“X”就代表了不同模態的行業核心數據。3月29日,第四範式發佈了行業大模型平臺“先知AIOS 5.0”。行業客戶只要在平臺上傳不同模態的核心數據,就可以低門檻訓練出解決核心問題的場景大模型。10年來,這是第四範式先知AI平臺的第五次迭代,而這部分業務,在第四範式的營收佔比中,已接近60%。

只是在市場信仰派和技術信仰派爭論不休的當下,行業大模型的故事看上去不夠性感。在市場信仰派眼中,行業大模型總有一天會被足夠強大的通用大模型顛覆,不是長遠生意;在技術信仰派眼中,行業大模型解決的是單點問題,與AGI的信仰相去甚遠。

戴文淵卻認爲,行業大模型,就是一條基於自身優勢、通往AGI的“縱向道路”。行業多、數據多,是中國大模型行業的優勢。在戴文淵看來,理論上將成千上萬個場景大模型相融合,每一個Vertical(垂直領域)都做到極致,覆蓋面越來越廣,沒覆蓋的地方越來越少,“你感知不到我還有不知道的地方,就能無限接近AGI”。

通往AGI的路線需要因地制宜,在戴文淵看來,大模型的商業模式也不能照搬OpenAI。他告訴36氪,OpenAI是一個大模型公司,商業模式借鑑的是Adobe等工具型企業,放置中國,是個很小的市場。相對地,第四範式是個行業大模型平臺,商業形態借鑑了Salesforce或Palantir,“對應的是To B科技市場,市場規模會大很多”。

不過,AGI的話題終歸遙遠,戴文淵眼中的頭頂大事,是用行業大模型爲客戶提效。

“實際上我覺得各行各業需求,並不複雜。我們要解決的,是從客戶利益出發,與客戶一起清醒判斷清楚自己要什麼,再回過頭去琢磨技術。”他總結。

以下爲智能涌現與戴文淵的對話,經整理編輯:

真正的行業大模型,叫做場景大模型

智能涌現:多年以前我們和第四範式接觸的時候,你就提到“AI Everywhere”的概念。這兩年隨着AI技術的演進,你覺得現在第四範式做的大模型和更早時候有什麼不同?

戴文淵:我們並不是從今天才開始做行業大模型,其實從十年前創業第一天開始做的就是行業大模型。在“先知1.0”(第四範式在2014年12月發佈的AI平臺)推出的時候,做的是高維實時自學習,本質上就是行業大模型,“高維”就意味着參數要大。

只不過那個年代,在維度還不夠高的情況下,行業模型的生成能力有所欠缺。我們只能在盈利能力特別好的場景上把規模做大。如果盈利能力不是那麼好的場景,用現在參數規模的模型去解決問題,最後經濟賬算不回來。

現在隨着算力和分佈式模型訓練算法的成熟,做十億級以上維度的大模型的門檻或成本,逐漸降低到了行業能接受的程度。因此我們現在的行業模型,已經到了可以用生成式AI去解決行業問題的階段。

智能涌現:“先知AIOS 5.0”平臺定位是怎樣的?

戴文淵:“先知 ”的定位就是行業大模型。我們對行業大模型的認知,可能和現在市面上所謂的“行業大模型”不一樣。

現在我們看到的市面上99%的“行業大模型”,在我看來不是真正的行業大模型,而是叫行業大語言模型。比方說金融機構的金融術語大模型,它可能比普通的大模型更能聽懂金融機構業務人員說的話。

智能涌現:爲什麼行業語言大模型不是真正的行業大模型?

戴文淵:我們發現絕大多數的行業,語言模型並沒有在解決核心問題。不能說行業語言模型完全沒有用,但是比如說金融行業的核心問題是控制風險,而不是和客戶聊天。再比如零售行業的核心是要做好供應鏈和銷售,醫療行業的核心是去診斷,給出治療方案,都不是和客戶聊天。

智能涌現:不少友商是根據幾個主流行業,比如醫療、金融、製造業等等,來推出行業大模型。你怎麼看待這樣的劃分方式?

戴文淵:如果這個劃分方式是工業一個大模型,金融一個大模型,在我看來太粗了。這麼劃分一定不可能做出一個真正解決業務核心問題的大模型,哪怕是金融行業,銀行、保險、證券都是不一樣的。

那爲什麼現在會有金融大模型?實際上它不是金融大模型,只是嫁接過一些金融術語的大語言模型。假設你丟一個交易,問這個模型是不是欺詐交易,或者問大模型能不能貸款,得到的答案基本上都是胡扯的。

這就是爲什麼我覺得這些行業大模型沒有解決核心問題的原因,因爲每個行業的核心業務,絕大多數都不是說話。

智能涌現:那應該怎樣劃分行業模型?

戴文淵:在我看來,所謂的行業大模型不是一個行業一個模型,而是一個場景一個模型。所謂的行業大模型下面會分成很多不同的場景,或者可以說行業大模型是場景模型的一個集合。比如體檢報告預測並不代表醫療,而是代表醫療的一個場景,或者說是慢病管理的場景。

這些場景也可能是特殊的模態,比方說醫療場景可能是體檢報告,金融可能是信用報告。基於這些特殊的模態,我們要去構建生成式AI模型。

智能涌現:你提到語言模型的技術架構是預測下一個字符,行業模型則是預測下一個“X”,這個“X”指的就是不同場景的模態嗎?

戴文淵:是的。我們解決一個問題,它有確定的模態,有一批數據,之後就是去訓練一個基座。行業大模型要解決行業問題,同樣也要訓練行業基座大模型,只不過模態不是語言。就像預測下一個體檢報告,數據的模態是體檢報告。至於上面需不需要嫁接其他模態數據另說,解決問題首先是需要一個行業基座大模型。

智能涌現:第四範式和下游企業的開發者在AIOS 5.0上分別承擔怎樣的角色?

戴文淵:第四範式承擔的主要是平臺的開發。或者咱們說個最極端的例子,假設OpenAI能夠把它所有的語料傳到AIOS 5.0,第四範式平臺下面也有足夠多的GPU,我們的平臺就能開發出一個GPT。

要培養會訓練行業大模型的AI

智能涌現:行業的場景有成千上萬個,每個場景一個基座模型,第四範式做的過來嗎?

戴文淵:各行各業的行業大模型都不可能由第四範式一家來解決。我們不是選擇發佈幾千、幾萬個模型,而是發佈一個行業大模型的開發和管理平臺,這也是先知 AIOS 5.0的核心價值。

當企業需要開發一個行業大模型的時候,可以把特定模態的數據上傳到上面,低門檻開發出一個行業大模型。我們去解決各行各業場景的問題,實際上是要把模型開發的門檻降低。

我相信未來第四範式開發出來的模型只是裡面的千分之一、萬分之一,甚至更少。絕大多數的模型,由行業人員開發出來。

智能涌現:相較於大語言模型,訓練不同模態的行業大模型會有哪些難點?

戴文淵:最難的反而不是技術。行業大模型的訓練也主要基於Transformer架構。Transformer的出現讓生成式AI構建的成本降低了,也就是預測下一個字或者其他模態的“X”的成本降低了。我們現在能用過去同樣的成本,做出更大的模型。

行業大模型構建的難點在於,當場景越來越多,你就無法在每個場景都用最優秀的科學家去做。這一行科學家人數太少。

智能涌現:這是不是也牽扯到AI公司如今的人才密度問題?

戴文淵:我覺得這個不是人才密度的問題。如果你面對的不是做一個模型,而是做一百萬個、一千萬個模型,沒有哪個AI公司能有那麼多人才,地球上都沒有那麼多的人才。

智能涌現:那第四範式的解法是什麼?這個算是做行業大模型的護城河麼?

戴文淵:要實現這條路徑,有一個必不可少的技術叫做AutoML——自動機器學習。能夠用不是那麼頂尖的科學家,甚至非科學家的工程師、數據分析師,去把這麼大體量的模型訓練出來。AutoML不說每個模型都能做到世界上最頂尖的水平,但普遍可以做到排名Top 5%的水平。

爲什麼我們在AutoML上會有優勢?是因爲我們做過的場景太多了。AutoML是一個失敗的藝術,不是成功的藝術,並不是說我有一個別人都不知道的靈丹妙藥或者算法。

每天我們都有幾百上千個場景在訓練,不僅訓練成功了很多大模型,也訓練失敗了很多大模型。這些失敗都是AutoML調整、優化的寶貴財富。日積月累,積累了將近十年,這是我們最不可被超越的。

智能涌現:先發優勢和積累還是很重要。

戴文淵:對。比如說谷歌的搜索引擎,早期可能是一個算法,後來大家就是用谷歌用得多,它出的結果哪裡不好它自己知道,知道以後自己修改。你不怎麼用別人的搜索引擎,別人就很難去超越谷歌。

落地的第一關,是幫客戶想清楚自己要什麼

智能涌現:在場景模型的落地過程中,您覺得困境是什麼?

戴文淵:在我看來,最大的困境是認知的問題。其實絕大多數的行業知道自己的核心問題是什麼,但是當一個新的技術出現的時候,他們往往在討論新的技術的時候,就忘記了行業的核心問題是什麼了。

比如說零售行業要解決供應鏈問題,但當大數據出現後,他們就變成收集數據了,忘了自己其實要解決供應鏈問題。同樣,當CV(計算視覺技術)出現後,他們就變成我要研究人工智能、研究人臉識別問題;當大語言模型出現後,又開始研究怎麼說話。

排第二的問題實際上叫做彌合兩邊差距。企業也知道自己要解決什麼問題,但技術的語言和業務的語言之間是有差距的,彌合這個差距也要花不少時間。

智能涌現:這些困境現在仍然存在嗎?

戴文淵:這兩個問題,我覺得過去一年基本解決了。你看去年這個時候,各行各業都在上線大語言模型。這麼幹了半年以後,很多客戶突然發現我不是說話的,是賣東西的、批貸款的、做設備管理的。現在基本上大家的認知已經過來了,後面緊接着就是紮紮實實地把這個問題解決了。

剛纔講到的數據、算力、成本方面的問題,是實實在在落地時要解決的問題,我覺得不算什麼大問題。包括數據,過去如果你整理得不太好,那今天開始就把數據規範好,很快可能就有數據了。咱們也不是說明天就一定要把所有的行業大模型都做出來。

算力的成本,各方面我們都要做判斷,如果場景模型創造的價值足夠大,是天量的價值我們可能搞到千億參數,海量的價值可能搞到百億參數,中等規模的搞十億參數,總能找到一個適合你的規模和成本。

智能涌現:企業想要在AIOS 5.0上生成一個場景大模型,需要多少數據?

戴文淵:我只能說訓練數據和參數量是成比例的增加,你需要一個量級的參數,不一定需要同一個量級的訓練數據,如果參數量只有1K,訓練數據少一個數量級也可以。

智能涌現:場景問題必須要用大模型來解決嗎?

戴文淵:其實並不是說所有的事一定是必須。如果你能接受它沒那麼好,參數量也可以不那麼大。

但是如果說在行業裡面,咱們就是要追求極致的業務效果,參數量就應該變大。對於營銷場景,當參數量變大了,它營銷得能夠更精準,在能更精準地知道你明天要買什麼樣的東西的情況下,我的收益就很大了。爲了這個我就應該把大模型做大。

智能涌現:下游企業用得起場景大模型嗎?

戴文淵:這取決於要把參數量做到多大。現在訓練到百億以上參數的成本還是吃不消的,如果是十億級參數,對絕大多數我們所看到的客戶而言,還是一個可以接受的範圍。

智能涌現:成本主要來源於算力?

戴文淵:是。當參數量增加一個數量級,其實成本增加的比一個數量級更多。對於普通的場景,十億參數規模還是在可以接受的範圍。

智能涌現:今年場景大模型會給第四範式帶來比較好的商業回報嗎?

戴文淵:我覺得今年大家會思考一些更腳踏實地的問題。整個市場營收的增長,今年肯定會看到。

通往AGI,我們也有縱向優勢

智能涌現:從旁觀者的視角來看,做小場景的模型往往是市場導向型的。你有通往AGI的理想嗎?

戴文淵:我覺得AGI就是無窮大,做AI的人可能永遠都到不了,但你要永遠逼近它。從科學的角度,我認爲我永遠到不了AGI,但對於個體感知而言,只要AI的能力能覆蓋你所能問出的所有問題,在你的視角里就是AGI,這可能不需要多久。

智能涌現:怎麼逼近AGI?

戴文淵:實話說我們在很長時間裡思考過通往AGI的兩條路。

我們國內有大量場景和數據優勢,從一兩個,到一萬個、十萬個、百萬個,當我們覆蓋場景足夠多,把這些模型拼起來,最後你可能也實現了AGI。這是縱向的路線,也是我們會在相應領域,比OpenAI更有優勢的地方。另外一條是橫向的路,用OpenAI的方式去打敗OpenAI,對於絕大多數公司,至少此時此刻機會不是很大。因爲他有你一個數量級以上的資源,如果你走它的路,打敗它是不切實際的。

縱向方式是每一個Vertical(垂直領域)都做到極致,覆蓋面越來越廣,沒覆蓋的地方越來越少,你感知不到我還有不知道的地方。橫向路線就是我的能力越來越強,高於絕大多數人的能力。兩邊都在無限逼近AGI。

智能涌現:現在能證明縱向的路可以走通嗎?

戴文淵:我認爲縱向這條路一定是能走通的。就好比我們發佈的幾個場景,我們一個個的Vertical做得能比OpenAI更好,後面要努力的方向就是讓我們的覆蓋面越來越廣。

但通過橫向的方式做到這幾個能力,需要的資源可能是巨量的。

智能涌現:橫向和縱向,哪條路更難走?

戴文淵:大家難的地方不完全一樣。橫向的往上再堆,其實是資源的指數級增加。我們要解決的其實是有效數據量指數級增長時,算力和數據獲取的成本怎麼能夠不指數級增長。

縱向對應的是我們需要去一個個突破場景,可能每個場景不一定要做到萬億參數,絕大多數場景在十億、百億參數量,少部分在千億這個量級。將來隨着算力成本的降低,可能絕大多數場景都能做到千億參數。我們需要突破的是場景之間的壁壘,最後把這些場景聯合起來。

國內大模型,商業模式不能完全複製OpenAI

智能涌現:目前行業大模型,或者更準確說是場景大模型,到了給模型廠商們帶來大規模營收,甚至盈利的時間點嗎?

戴文淵:如果你這個模型沒有創造什麼核心價值,哪怕現在盈利了,也不是持久的。

所以,行業大模型需要越來越多地切入到行業的核心問題。只有你創造的是核心價值,行業纔會願意爲這個模型去付費更多,你才能帶來更多的收入和利潤。這是其一。

其二,從商業模式角度來說,不同市場特點的商業模式還不太一樣,所以,在中國市場找到更適合的商業模式,是大模型公司在下一個階段需要重點考慮的問題。

智能涌現:怎樣的商業模式比較適合當下的中國市場?

戴文淵:我們的商業模式實際上是一個To B類的科技商業模式,用行業大模型平臺,服務千行百業。

這是個巨大市場。其實國內頭部的行業整體科技預算,都是在千億(元)規模,比如金融、能源、醫療等。

我剛纔想表達的是中國最後的大模型形態,有可能跟海外不太一樣。因爲我們有自己的市場特點。

比如OpenAI對應的是工具類市場,工具類市場對應的是Photoshop這類市場,是結合當地的市場特點。所以我覺得中國的大模型公司,未來商業形態也要結合本土的市場優勢和市場增長容量。

智能涌現:所以其實是落地場景的商業模式給大模型企業提供了商業機會。

戴文淵:落地到怎樣的場景就是我們思考的問題。我們可能提供大模型技術,但最後的商業形態借鑑的是Salesforce,或者Palantir。OpenAI是一個大模型公司,商業模式借鑑的是Adobe,這是有區別的。

歡迎交流

歡迎交流