☰

智源研究院王仲遠：Emu3證明Scaling Law在多模態大模型上依然成立｜甲子光年

Next-Token Prediction is All You Need。

作者｜王藝

編輯｜栗子

通往AGI的道路千萬條，多模態大模型是極其重要的一條。

無論是Sora的發佈引起的關於“世界模型”的討論，還是Midjourney、Adobe Firefly、快手可靈、Runway Gen-3、Vidu等模型的爆火，抑或是作爲具身智能機器人“大腦”出現，能感知多維環境信息、提升機器人適應性和創造力的VLM（Vision-Language-Model）……顯然，多模態大模型的浪潮已不可阻擋。

據Gartner預測，建立在多模態大模型上的生成式AI應用，將從2023年的1%，激增至2027年的40%，未來的市場充滿了想象空間。

然而，當今市面上絕大多數的多模態模型，要麼採用Sora的Diffusion Transformer（DiT）架構，要麼採用大語言模型+CLIP的訓練方式。

儘管都能實現多模態的感知和生成，但是各個模態之間本質上是仍然是獨立的，仍然需要各種顯性或者隱性的pipeline進行連接。這種“各模態分開訓練”的方式不僅模型複雜度高、訓練數據需求量大，數據融合難度大，而且無法真正做到對圖像和視頻的理解，很容易造成信息的損耗和丟失。

時代呼喚能真正理解物理世界、實現端到端輸入和輸出的原生多模態大模型。

2024年10月21日，智源研究院正式發佈原生多模態世界模型Emu3。該模型只基於下一個token預測，無需擴散模型或組合方法，即可完成文本、圖像、視頻三種模態數據的理解和生成。

Emu3架構示例圖源：智源研究院

“World in One，One for World”。在媒體溝通會上，智源研究院院長王仲遠用這樣一句話形容Emu3的價值。

或許，中國原生多模態大模型時代正在到來。

1.真正的原生多模態大模型

“人工智能感知、理解物理世界的終極技術路線不是以語言大模型爲核心對齊和映射其他模態的技術路線，而是應該採取統一模型的範式，實現多模態的輸入和輸出，讓模型具備原生的多模態擴展能力，向世界模型演進。”

這是今年6月的智源大會上，王仲遠對於大模型發展技術路線做出的預測。當時，他還預告了智源要發佈多模態原生大模型的消息。

僅僅四個月之後，王仲遠就兌現了他的承諾。

Emu3大模型通過下一個token預測的方式成功實現了視頻、圖像、文本三種模態的統一理解與生成，而且在圖像生成、視覺語言理解、視頻生成任務等表現上，也超過了SDXL 、LLaVA-1.6、OpenSora等知名開源模型。

圖注：在圖像生成任務中，人類評估得分Emu3高於SD-1.5與SDXL。在視覺語言理解任務中，12 項基準測試的平均得分，Emu3領先於LlaVA-1.6與LlaVA-1.5。在視頻生成任務中，VBench基準測試得分，Emu3優於OpenSora 1.2。圖源：智源研究院

具體而言，Emu3用一個從零開始訓練的Transformer模型處理所有類型的數據——它提供了一個強大的tokenizer，能夠將視頻和圖像轉換爲token。這些視覺離散token可以與文本tokenizer輸出的離散token一起送入模型中，並統一到一個離散的token空間的。接着，Emu3通過auto-regressive（自迴歸）的方式一個接一個地預測序列中的token，然後生成文本、圖像和視頻。

這種算法架構給模型帶來了高度的靈活性，不僅爲Any-to-Any的任務提供了更加統一的研究範式，也使得直接偏好優化（DPO，是一種優化方法，旨在直接優化模型預測的用戶偏好，而不是傳統的間接優化指標）能無縫應用於自迴歸視覺生成，使模型與人類偏好保持一致。

簡單來說，使用Emu3，用戶不僅可以生成對世界有着準確理解的圖片，還可以預測後面的視頻幀，生成更符合現實世界物理規律的視頻。

Emu3文生圖案例圖源：智源研究院

用戶問題: Describe the landmark.

模型回答: The image showcases the Brooklyn Bridge, a prominent suspension bridge in New York City, recognized by its distinctive towers and the web of cables that support it. This iconic structure connects the boroughs of Brooklyn and Manhattan.

Emu3文生視頻過程幀畫面展示圖源：智源研究院

除了算法上的創新，優秀的生成效果和優質的訓練數據也不無關係。

Emu3的訓練數據很大一部分來自於之前悟道系列Aquila天鷹大語言模型的訓練數據，以及訓練前兩代多模態大模型Emu1、Emu2時候積累的數據。同時，智源研究院還和北京電視臺簽署了戰略合作協議，北京電視臺的部分視頻數據也將被持續用於Emu3的訓練過程中。

“作爲科研機構，過去我們在大語言模型上爲行業帶來了一些基礎的思潮和創新指引。在多模態大模型上，我們覺得也需要爲行業指明一條新的方向。”王仲遠說。

2.“自迴歸是多模態大模型的下一代技術路線”

曾幾何時，關於哪種技術路線能帶來AGI的爭論喋喋不休。

儘管GPT和Claude、Llama等一系列大語言模型的成功證明了基於“next-token-prediction”的自迴歸路線的有效性。但卻也不乏Yann LeCun等學者出來唱衰，認爲現在的大模型“比貓還笨”，並且提出了基於自監督路線的聯合嵌入預測架構（JEPA）。

LeCun的質疑不無道理。

“next-token-prediction”被認爲是通往AGI的可能路徑，但這種範式在語言以外的多模態模型中沒有被證明。多模態的生成任務很長一段時間裡被擴散模型（例如 Stable Diffusion）主導，而多模態的理解任務則由組合式的方法（例如CLIP視覺編碼器與LLM結合）所主導。而由於效率、並行化能力和長依賴處理等問題，自迴歸的技術路線鮮少在多模態大模型的訓練中被採用。

在王仲遠看來，LeCun觀點的核心在於他認爲大語言模型到不了AGI，而這在某種意義上也說明了探索多模態模型自迴歸路線的重要性。

“大語言模型爲什麼比貓還笨？因爲僅憑文本是無法理解世界的。貓或其他動物天然地就在憑視覺感知世界，因此我們也有很多學者在研究通過視覺信號觸發智能的能力。語言的確很重要，但如果要做到對世界有足夠的理解，它首先要看到、感知到，才能把不同模態的信息交互，進而做到理解。”王仲遠說。

王仲遠認爲，一個真正的AGI需要做到“理解”這個世界，多模態大模型也不例外。

相較於DiT和LLM+CLIP，自迴歸技術路線的優勢在於，它做到了生成和理解的統一，只用一個Transformer模型就能處理所有類型的數據，不僅具備可擴展性，而且可以複用現在的算力基礎設施進行訓練，極大節省了算力資源。

“Emu3目前的視頻生成質量已經可以比肩Open Sora這種開源的模型，未來隨着參數量、數據質量、訓練效率的提升，甚至能生成具有情節的長視頻、具備更強的推理能力，實現比Sora更強的效果。”王仲遠介紹。

智源研究院將此次Emu3的發佈比作大語言模型領域裡的GPT-3時刻。在 GPT-3 之前，所有人工智能技術都是專用系統，模型不通用；而作爲一個單一模型，GPT-3展現出來的“暴力美學”讓人們看到了通用語言智能的可能性，這是NLP幾十年發展以來大家一直在追求、卻始終無法實現的理想。

Emu3統一了文字、圖像和視頻理解與生成的技術路線對多模態大模型領域有着同樣的意義。

王仲遠表示，原來學術界和產業界都對auto-regressive（自迴歸）到底能不能做圖像和視頻的生成持懷疑態度，但智源研究院認爲，大一統的原生多模態大模型是大模型發展道路上必須去攻克的技術方向。

儘管也有很多國際同行在做大模型基礎技術路線的研究，但在多模態大模型領域，智源是首個訓練出成熟模型並面向國際社會發布的。

“智源研究院作爲一個科研機構，我們會做高校做不了、企業不願做的事情。所以一方面我們會堅持原始創新，另一方面我們也希望爲世界多模態大模型的訓練範式指明一個方向。”王仲遠說。

3.加速具身智能和科學計算的發展

無論是大語言模型還是多模態模型，最終的目標都是實現AGI。

在去年的智源人工智能大會上，智源研究院理事長黃鐵軍總結了三條實現AGI的技術路線:

大數據+自監督學習+大算力形成的信息類模型，以OpenAI的GPT系列模型爲代表；

基於虛擬或真實世界，通過強化學習訓練出來的具身模型，以Google DeepMind的DQN深度學習技術爲代表；

直接抄自然進化的作業，複製數字版本的人腦和智能體，即腦智能。

可以看出，除了大語言模型之外，黃鐵軍也十分看好具身智能和科學計算的發展，而這也是智源研究院目前着重佈局的兩個方向。

AGI可能的技術演化路徑圖源：智源研究院

由於可以與物理世界交互、並在此過程中不斷髮展智能體的學習能力，具身智能被認爲是通往AGI的關鍵道路之一。

據不完全統計，今年以來“具身智能”融資事件超50起，其中最高一筆融資近10億元，其熱度可見一斑。而多模態大模型，作爲具身智能的“大腦”，是具身智能感知和理解世界、與物理世界實現交互的重要基礎。

王仲遠認爲，Emu3證明了下一個token預測能在多模態任務中有高性能的表現，這爲構建多模態AGI提供了廣闊的技術前景。換句話說，Emu3有機會將基礎設施建設收斂到一條技術路線上，爲大規模的多模態訓練和推理提供基礎，這一簡單的架構設計將有利於產業化。

未來，多模態世界模型將促進機器人大腦、自動駕駛、多模態對話和推理等場景應用。

而將大模型應用於基礎科學的AI for Science（科學計算），則是實現AGI的另一條重要道路。

今年的諾貝爾物理學和化學獎都頒發給了AI領域的科學家，這標誌着AI與基礎科學深入融合時代的到來。AI for Science將極大加速和擴展科學研究的效率和能力邊界，底層科學的第一性原理也將成爲AI向AGI進化的根本驅動和擴展引擎。

“大模型永遠不可能只存在數字世界裡，Emu3的技術路線是非常有潛力加速AI for Science的發展。”王仲遠說，“就像蛋白質和DNA的研究，它是需要有圖像的，這時候如果只靠大語言模型無法解決這些問題，還需要有視覺等多模態的理解和推理能力，這就是爲什麼我們認爲Emu3‘大一統’的技術路線是更優的。”

儘管目前8B參數的Emu3模型已經可以很好地理解物理世界、生成更符合現實世界邏輯的圖像和視頻，但在王仲遠看來，隨着後續算力、數據和模型參數的擴大，以Emu3爲代表的原生多模態大模型還將體現出更加令人驚歎的能力。

“Scaling Law在多模態大模型領域是存在的。”王仲遠說，“事實上我們內部也有試驗過更小的模型，包括1.8B的模型，到了8B之後，我們發現模型的效果確實是在變好。所以我們可以預計，如果模型參數進一步提升，那麼多模態大模型的語言能力、跨模態理解能力也會大幅提升。”

同時，算法上的進步，也將爲Emu3這種原生多模態大模型的未來發展打開更多的可能性。

“我們現在還是一個dense（稠密）的架構，未來還可以嘗試往MoE模型發展。原來在大語言模型上可能的發展趨勢和路徑，未來在多模態大模型上可能都能得到驗證。”王仲遠說。

（封面圖來源：智源 Emu3 官網）

智源研究院王仲遠：Emu3證明Scaling Law在多模態大模型上依然成立｜甲子光年

相關資訊