專訪商湯智能產業研究院院長田豐:推動“冰山之下”的大模型技術創新探索
每經記者:可楊 每經編輯:文多
錢學森在《從飛機、導彈說到生產過程的自動化》一書中寫下:“用機器代替人的體力勞動,是第一次工業革命,即機械化;用機械系統來替人作非創造性的腦力勞動,是第二次工業革命,即自動化。”
3月15日,由工業和信息化部工業文化發展中心牽頭成立的AI應用工作組主辦,每日經濟新聞承辦、數智未來場景實驗室協辦的“Sora的啓示:AI應用再飛躍”主題沙龍活動在京成功舉辦。
活動期間,商湯智能產業研究院院長田豐在接受《每日經濟新聞》記者專訪時提到,當前我們正在經歷“機械化”到“自動化”階段。
大模型,是人類邁向自動化的關鍵基礎設施。隨着Sora的推出,圍繞大模型的競爭繼續提速。就Sora帶來的啓示、智能基礎設施的建設、算力的普惠之路,《每日經濟新聞》記者與田豐展開對話。
田豐認爲,我們既要借鑑OpenAI的“踏腳石理論”,同時也要學習錢學森所推崇的科研要遵循“冰山理論”。“我們不能只看水面上,別人做到哪兒,我們就馬上去跟,也要看到水面之下應該怎麼走。”田豐表示。
Sora的啓示:尋找踏腳石
Scaling Laws(尺度定律),指的是模型訓練計算量、訓練數據規模、模型參數量與模型效能之間的正相關關係,一個更通俗的說法是“大力出奇跡”。
“Sora雖然不完美並且處於早期階段,但它確實是尺度定律的又一次驗證,也是一個大模型工程化的進展。”在田豐看來,Sora的誕生,首先代表着尺度定律的又一次成功。
田豐指出,Sora所採用的Diffusion Transformer(DiT)架構,是多種已有架構之間的工程化融合,故而具備Diffusion(擴散)等架構的長處,也不可避免地帶有一些缺陷。目前,全球範圍內的研究者同時在探索不同架構方向。田豐將這種探索比喻爲一棵科技樹,Sora是在其中某一條路徑上領先,而其他研究者會在其他路徑上積極探索,最終互相借鑑,讓AI基礎科研更快發展。
田豐認爲,Sora所帶來的另一個啓示是,Sora是OpenAI邁向AGI(人工通用智能)的“踏腳石”。
“新奇事物的重要性在於,它們往往可以成爲踏腳石探測器,因爲任何新奇的東西,都是催生更新奇事物的潛在踏腳石。”OpenAI科學家在其撰寫的《爲什麼偉大不能被計劃》一書中,提到了“踏腳石”。
在專訪中,田豐也反覆提及“踏腳石理論”。他表示,在基礎研發中,想達到A點,有可能需要往反方向走到B點,進而再到達A點。因爲創造力是一種“搜索”,基礎研發是在龐大“解空間”中通過多個路徑深入探索,而無法完全通過目標找到最短的直線。“怎麼去定義踏腳石,就是一定要有新奇性。”
田豐表示,基於這個理論,中國技術研發也要找到更多踏腳石。“你有更多的踏腳石之後,就能發現跨領域、跨學科的相關性,上面‘長’出的基礎研發突破就會更多。”
除此之外,田豐同樣談到錢學森所推崇的“科研遵循‘冰山理論’”,即人們看到的AI“技術突變”只是水面之上的“冰山一角”,水面之下還有更多“隱藏創新”在支撐。“我們不能只看水面上,別人做到哪兒,我們就馬上去跟,也要看到水面之下基礎科研佈局,應該怎麼走。”
那在大模型競爭中,水面之下的技術應該如何挖掘?
田豐認爲,目前大家有不同的探索方向。例如,自動駕駛的大模型旨在模擬現實世界,實現自動駕駛的仿真,並通過神經網絡來完成感知、決策、執行及反饋等任務。而特斯拉將自動駕駛模式遷移到人形機器人上。於是,人形機器人的出現,又可以進一步作爲數據和反饋來源,驗證基礎大模型對現實世界的認知誤差、糾正幻覺。
當前對於大模型的驗證還依賴於人類反饋強化學習(Reinforcement Learning from Human Feedback,簡稱 RLHF),而這面臨反饋速度慢、成本高以及人的自身認知偏差等問題。因此,科研界同樣在嘗試採用“具身智能”等其他新研究方向,以在複雜多變的物理世界環境中直接驗證機器智能,讓人工智能不再侷限於對人的模仿,而是更直接地探索世界、糾偏認知。
“通往AGI的路,絕對不是隻有一條。”田豐認爲,基於這樣多元化的探索,纔會有可能逐步到達AGI。而單純依靠模仿人類思考方式的大模型,對於極爲複雜的整個物理世界,尤其是人類已知知識以外的更大的知識領域是無法去探索的。正如錢學森所說——“Nothing is Final”,現在認爲正確的人類知識,在下一個時代看來就會具有侷限性和偏差。
數據競速:AI合成數據大有可爲
對於通用大模型而言,尺度定律(Scaling Laws),有沒有可能在某一階段失效?
“(在)訓練數據用光時”——這是田豐的答案。
田豐認爲,數據多模態非常重要。“文字語言具有最高的知識密度,但是光有文字語言也不夠,視覺和語言的融合也很重要。”他表示,純視覺學習未必會學到物理之間的因果關係,視覺加語言的數據,會帶來更好的訓練效果,讓大模型能夠理解複雜環境、複雜任務中的表徵和表意內容,也能讓Sora現在存在的一些物理上的混亂,得到改善。
從數據層面看,田豐認爲,目前存在多個潛在的訓練數據增長點。
首要的是人們日常使用的應用。例如微博,每日有2.6億用戶在微博發帖,這爲模型訓練提供了豐富的增量數據。其次,具身智能的傳感技術,同樣能夠提供數據增量,例如自動駕駛汽車和人形機器人都是數據收集器。此外,商湯目前的衛星遙感智能解譯技術,能夠觀察地球物理環境每一天發生的多維度變化,同樣提供了大量的數據資源。
當現實世界產生的數據仍舊不足時,就需要同時在AI合成數據層面進行科研探索。田豐介紹,目前,合成數據仍處於前期階段,生成的數據質量參差不齊。業界期待多模態大模型不僅能輸入多模態數據,同時還能產出接近真實世界的高質量多模態數據。
但當前,如果視頻數據自動標註的描述文字不精準,則會造成“Garbage in,garbage out”(指輸入的垃圾數據會導致大模型輸出的垃圾結果),其風險依舊擺在AI合成數據面前,各國AI基礎科研團隊正在攻堅。
對此,田豐則認爲,業界都憧憬做成“世界模擬器”,但目前生成的視頻數據與真實世界仍有較大距離。Sora所生成的最好的視頻內容是“我的世界”遊戲視頻,幾乎與玩家實際體驗無異。這得益於OpenAI對“我的世界”遊戲公司與遊戲引擎的收購。
遊戲引擎爲了讓玩家感覺更真實,無論是光照、紋理還是人和物體之間的交互,都比較接近現實世界。所以Sora用這樣的訓練數據來生成,使得大模型能夠從中學習並理解遊戲中的複雜因果關係,進而生成逼真的內容。更爲重要的是,遊戲世界會一直產生大量較低成本的世界仿真數據,比從現實中收集要快很多。
“但它(指Sora爲代表的大模型)是不是真正理解現實世界、物理世界的所有因果規律?其實,人類目前仍沒有完全理解和掌握。”田豐繼續說道,從這個角度而言,合成數據很重要的一點是,我們應像對抗神經網絡的邏輯一樣,必須有另一個模型驗證合成數據與事實的接近程度。
將視線聚焦於當前的數據競爭態勢,田豐表示,中國擁有14億人口,每天都在產生海量的數據,這就意味着巨大的潛力,我們有能力以更低的成本來採集這些數據。此外,中國還擁有106億的物聯網終端,其中尚未採集到的各類數據——如工業傳感信號等,都是極具價值的資源。若能成功採集到這些數據,將成爲訓練垂類大模型的優質素材,也能幫助大模型更深入地理解產業場景中事物之間的因果關係。此外,在合成數據方面,大家也均處於起步階段,還在互相競爭。
田豐認爲,人工智能是當今社會數據資源最大的需求方,若能在數據領域構建出完善的體制機制,使數據成爲市場化流通的關鍵要素,那麼便能在數據層面持續推動尺度定律,加速大模型的進步。
如何實現AGI?兩條路徑並行
如何實現AGI?田豐提出兩個方向。從生成智能的角度來看,生成式人工智能正在逐步轉向更具創意性的工作,這需要更多大模型的“幻覺”想象力。在這條路徑上,“幻覺”並不是壞事,創作科幻小說、科幻電影就體現出了這一點——想象力在其中扮演着至關重要的角色。愛因斯坦也曾經提出“想象力比知識更爲重要”。
另一個方向則更加側重於科學和工業產業具體問題的解決,這就需要致力於減少幻覺,持續提高準確度和可靠性,一旦能夠達到人類科學家、工程師的平均水平,突破“工業紅線”,大模型就能全面普及到各個行業產業和科研領域。
在田豐看來,大模型實則是公共基礎設施的一部分,是智能基礎設施,而基礎設施的特點就是重資產型、重資本型。
在現有情況下,大模型研發與應用是一個長期投資。一方面,基礎模型不能跟進到GPT4,就自認爲“領先全球”,另一方面,在國產基礎模型與國際縮小差距的同時,也要積極探索新的發展方向。“開拓者創造方向,跟隨者選擇方向,領先者並不代表永遠的成功,而可能被具有強大創新能力的跟隨者趕超。”從這一角度看,長週期持續的人工智能基礎科研、基礎建設資本投入至關重要,這也是充分發揮制度創新的機遇。
儘管資本通常會關注盈利問題,但也不是絕對,田豐用他在雲計算產業的經驗舉了個例子。2012年前後,雲計算公司主要的用戶羣體是網站站主,且許多是個人網站站主,資金相對匱乏。新一代基礎設施的早期,是投資與“裝置”期,表象上就是盈利難。
然而,根據世界銀行《爲發展提供基礎設施》報告分析,基礎設施投資、“裝置”期通常需要10年甚至15年,而基礎設施投資建設往往伴隨着經濟週期的上升階段,當基礎設施建設成熟,則會持續產生廣泛普惠的社會全產業價值。例如當前,雲計算已經逐漸成爲企業和科研通用型技術,廣泛應用於金融、能源、交通等多個領域。因此,人工智能基礎設施的建設在前期更多地依賴於國家大基金和大型企業的投資,類似於高速公路、5G通信網絡的建設。這種資本增密的投資模式對於推動新質生產力技術的發展和新一波經濟繁榮至關重要。
因此,目前我們仍處於基礎設施建設階段,爲了將來能建成“萬里長城”,先要把地基打好。在基礎設施的“裝置”期,需要在超大規模AI算力中心、統一數據市場平臺上追加投入,充分挖掘並利用我國的數據資源、大市場規模和科技人才儲備。
如何促進應用繁榮?算力普惠是關鍵
在重資產、重資本型的背景下,對於未來“百模大戰”的終局,田豐用操作系統的競爭來舉例:
“當時多家廠商的很多人覺得(操作系統)就是‘大B’的事情,即大模型從頭部大企業端賺錢。以1981年個人電腦操作系統的‘春秋戰國時期’爲例,UCSD Pascal P-System(一種操作系統)單機授權費高達450美元,CP/M-86(同爲一種操作系統)授權費是175美元,而微軟MSDOS僅向買PC的消費者收60美金,而IBM可免費使用微軟開發的操作系統,但不能獨佔使用權。
“微軟選擇的差異化戰略是什麼?比爾·蓋茨在《未來之路》一書裡寫下:‘我們的目標不是要直接從IBM(大企業)那裡賺錢,而是把軟件平臺的特許使用權出售給個人計算機工業(所有硬件)的生意。’比爾蓋茨的目標,是計算機的使用接近免費時,自己的操作系統將佔有最大市場份額。
“雖然大模型目前還處於企業級應用市場,但伴隨AI芯片算力價格的持續下降、大模型個人終端涌現,將會呈現大模型操作系統的‘馬太效應’,頭部廠商佔有最大市場規模。”
田豐認爲,目前大模型的方向並非是向大型企業收取高額費用,而是應當通過低價、易開發、快迭代、硬件兼容等競爭策略致力於最大限度搶佔市場份額,並積極吸引各類AI新型硬件的支持。只要有越來越多的、不同類型的硬件終端支持同一款大模型,它就能像操作系統一樣受到AI應用開發者的歡迎。而終端硬件選擇大模型,則源於消費者用戶羣體的驅動,而用戶之所以選擇某一款“操作系統”,是因爲其上集成了衆多由小微或個人開發者開發的長尾大模型應用。這是Windows和iOS等頭部操作系統得以成功的原因,也是大模型突破紅海的一條已驗證的戰略路徑。
目前,應用所面臨的主要挑戰體現在兩大方面。
首先是算力成本問題。若算力成本持續高價,長期來看,必然會抑制大模型應用創新的蓬勃發展,就像互聯網APP早期不是靠用戶每月交納30美元會員費,而是以近乎免費的使用權拉動新用戶“嚐鮮”。
因此,AI芯片行業勢必不斷降低成本,並通過智算中心架構創新推動AI雲算力的普及化、全民化。若GPU領域不進行快速改革,業界勢必出現新一代的芯片產品、計算力架構,以降低成本並促進AI應用的廣泛發展。
另一方面,大模型的持續升級也會給應用帶來挑戰和機遇。由於大模型每月、每季度都在更新升級,應用在其原有基礎上的改進可能很快被新版本大模型所替代和覆蓋,即大模型操作系統和應用的“邊界”尚未確定,大模型不斷嘗試做應用的功能,應用則補上當前版本大模型的“短板”,降低消費者使用門檻。
因此,應用開發商加深行業應用“護城河”的同時,可尋求與大模型的解耦,或提供跨多個大模型的統一服務入口、一站式用戶開發環境,並尋找產業中最具盈利潛力的商業路徑。
這樣一來,即便大模型升級,應用也能迅速跟上或匹配更優競爭力的其他模型,保持應用層對私域用戶的競爭力。但長遠來看,應用開發者依舊會逐漸趨向使用更爲穩定、功能強大的頭部大模型底座。
圍繞算力問題,田豐表示,目前,我們正處於人工智能時代的算力初期階段,算力成本仍然較高,只有大型企業能夠負擔。然而,隨着國產AI芯片、國產超大規模AI智算中心技術的不斷進步,算力成本就會逐漸降低,每個人也能接近以免費的方式享用新一代人工智能的科技紅利。龐大市場的吸引力,將倒逼AI模型架構和AI算力集羣架構的深刻變化。
因此,田豐認爲,當前正處於AI計算大變革的前夜。他表示,當AI算力成本降至拐點時,社會需求量與用戶規模將會迅速飆升,助推全民AI創業熱潮,普通用戶會發現算力成本已經逐步平攤到廣告成本或交易成本里。“科技發展史證明智能產業普及期是這樣的,但怎麼會發生?就要回到新一代人工智能基礎研發的路徑上,要找到新的踏腳石,一步一步走過去。”