智源研究院驗證AGI新路線,發佈原生多模態世界模型

在近期的大模型領域,已經很久沒有公司高調談論對AGI(通用人工智能)的理想。而智源研究院的一個新動作,將這個終極目標重新拉回到聚光燈下。

10月21日,智源研究院發佈原生多模態世界模型Emu3,稱該模型實現了視頻、圖像、文本三種模態的統一理解與生成。

在圖像生成任務中,Emu3的人類評估得分高於Stable Diffusion的兩個版本SD-1.5與SDXL。針對視覺語言理解任務,Emu3的12項基準測試的平均得分略高於微軟研究院聯合多所高校研發的多模態大模型LlaVA-1.6。視頻生成任務方面,Emu3的VBench基準測試得分略高於OpenSora 1.2。從語言能力角度看,它的水平大概處於GPT-3.5。

這是國內大模型領域第一次對上述命題作答,意味着世界模型路徑下的AGI進程向前邁進了一小步。

AGI素來有路線之爭。在已經顯現的爭論中,一派觀點相信,只有語言智能才能實現,另一派則認爲,這繞不開多模態的理解與生成統一。在此之後,行業可以達到世界模型,並進一步抵達AGI。

世界模型是一種能夠對環境或世界的狀態進行表徵,並預測狀態之間轉移的模型。它使智能體(Agent)能夠在模擬環境中進行學習,並將學到的策略遷移到真實世界中,從而提高學習效率並減少風險,這對視頻生成、自動駕駛以及智能體的發展至關重要。

這條路徑得到不少企業、機構以及知名學者的支持。圖靈獎得主、Meta首席AI科學家楊立昆(Yann Lecun)曾在演講中多次表示對世界模型潛力的關注,並預言世界模型將會成爲新一代智能系統的基礎。

而作爲世界模型的前提,多模態大模型的理解與生成統一是一道重要技術門檻。

據智源研究院院長王仲遠介紹,多模態大模型此前的主流技術架構處於發散狀態,例如生成任務以擴散模型(例如Stable Diffusion)爲主,理解任務以組合式方法(例如大語言模型+CLIP視覺編碼器)爲主。

在這些路線中,“原生”多模態大模型並沒有被建立,仍是以語言模型爲核心,將視覺等信號映射到語言模型上。而如果要讓一個模型進入物理世界,完成感知、理解、推理與生成等任務,過於複雜的模型架構會降低其可靠性。

因此,理解與生成統一的原生多模態大模型,成爲業界和學界共同探索的一道命題,智源研究院也是趕考人之一。

據王仲遠介紹,Emu3實現多模態理解與生成統一的核心技術範式是“基於下一個token預測”,本質是將圖像、文本和視頻編碼爲一個離散空間,在多模態混合序列上從頭開始聯合訓練一個Transformer。

王仲遠指出,“基於下一個token預測”被認爲是AGI的通路之一,但還沒有在多模態任務中被證明過。Emu3證明了下一個token預測能在多模態任務中有高性能的表現,有機會將其基礎設施建設收斂到一條技術路線上。

在大語言模型的預訓練階段,Scaling Law(規模法則)已經處在是否失效的爭論中,但就多模態大模型的性能提升而言,王仲遠認爲還是一個“遠沒有打開”的狀態。事實上,後者依舊基本上遵循Scaling Law,效果隨着數據量和參數量的擴大而提升。

多模態大模型的下一步與大語言模型類似,將不斷挑戰千億參數乃至萬億參數。並且,當前的多模態大模型也是稠密模型(Dense Model),它同樣可以在下一階段轉向MoE(Mixture of Experts/混合專家模型)架構,以獲得更快的理解與生成速度。

“所有在大語言模型上可能發生的路徑發展趨勢,在多模態大模型上都可以進一步得到驗證。”不過王仲遠預估,在可見的未來,Scaling Up的瓶頸可能會率先出現在算力上。

儘管AGI路徑還沒有形成共識,但智源研究院的選擇已經很明確。王仲遠對界面新聞記者表示,團隊在語言模型上的投入將僅限於“解決共性問題”的部分,其餘的研究資源將集中向多模態大模型進行傾斜。

至於爲什麼決定走上多模態理解與生成統一的路徑,王仲遠認爲,智源的出發點還是在於定位“原始創新”,因爲對現狀不滿足,所以必須要做下一代的探索。

雖已押注在當前道路,王仲遠並不認可技術路線已經出現分水嶺,“從產業界的資源投入上來看是可以看到的,但從技術研究路線上來說,永遠都有爭議。”