智源推出原生多模態世界模型Emu3,能模擬人腦原生方式

當下在多模態大模型領域,模型的架構千差萬別。就拿多模態生成來說,其模型架構主要以Diffusion或DiT爲主;而多模態理解,則是一種組合式模型,本質是以語言模型爲核心,再把其他的視覺信號映射到語言模型上。作爲一款原生的多模態模型,Emu3的架構和前文提到的都不相同。

2024年6月,智源研究院在智源大會上首次提出了該模型。10月21日,該模型被正式推出,實現了圖像、視頻、文字三種不同模態的統一理解與生成。

據介紹,Emu3從模型訓練之初,就秉持着實現統一的多模態生成和理解的設計理念,所以目前具備高質量的圖像和視頻生成、視覺語言理解等多模態能力。

具體來說:

從圖像生成來看,該模型能夠完成分辨率和風格不同的高質量圖片的生成。

(來源:資料圖)

從視頻生成和視頻續寫來看,該模型既可以因果性地生成視頻,又可以根據視頻內容的上下文,預測接下來會發生什麼。

(來源:資料圖)

從視覺語言理解來看,該模型不僅能夠理解圖像,還能夠理解視頻。

圖丨用戶問題:Describe the landmark;模型回答:The image showcases the Brooklyn Bridge, a prominent suspension bridge in New York City, recognized by its distinctive towers and the web of cables that support it. This iconic structure connects the boroughs of Brooklyn and Manhattan.(來源:資料圖)

目前,在上述任務中,Emu3的表現已經超過SDXL、LLaVA-1.6、OpenSora等知名開源模型。如下圖所示,在圖像生成任務中,人類評估得分Emu3高於SD-1.5與SDXL。在視覺語言理解任務中,12項基準測試的平均得分,Emu3領先於LlaVA-1.6與LlaVA-1.5。在視頻生成任務中,VBench基準測試得分,Emu3優於OpenSora 1.2。

(來源:資料圖)

據悉,Emu3現已開源關鍵技術和模型。另外,值得一提的是,該模型開源到國際技術社區之後,很快便引發了海外開發者的熱議。

(來源:資料圖)

Emu3之所以具備上述諸多能力,皆因爲其背後使用的是同一個基礎模型,即是通過預測下一個token來實現的(編者注:“token”是大模型領域裡的一個基本概念,可以理解爲文本數據中的一個單位,通常是詞或子詞)。

該模型的技術框架,包含一個視覺tokenizer,把圖像、視頻、文本的token放在同一個離散空間,用一個非常簡單的Transformer Decoder-Only架構,基於自迴歸(Autoregressive)框架去訓練。

那麼,Emu3模型背後的這一技術新範式,和過去的範式有何區別?

王仲遠表示:“第一,多模態肯定是大模型發展的下一個重要方向。”

如開頭所說,現在的多模態,或是基於Diffusion架構來做生成,或是組合式模型,即把語言模型與對比語言-圖像預訓練結合的範式。

Emu3所探索的是把生成和理解統一,把文字、圖像、視頻從原生上、從最開始訓練的時候就進行統一,不僅具備拓展性,而且使用的是Autoregressive的方式。這種類似於語言大模型的訓練架構,能夠解決大一統的問題。

他繼續說:“第二,能夠複用現有的硬件基礎設施,同時也證明了規模定律(Scaling law),Emu3比前兩代版本有了巨大的效果提升。”

這也驗證了這種訓練方式和框架,很有可能成爲下一代多模態大模型的訓練範式。

這裡值得一提的是,智源研究院在此前開發“悟道”系列大模型時,還處於追趕大語言模型GPT3和GPT4的階段,但本次多模態模型Emu3,是其首次先於國際社會發布,並率先驗證了新的大一統的原生多模態技術路線。

OpenAI前首席科學家、聯合創始人伊利亞·蘇茨克維(Ilya Sutskever)曾多次表示:“只要能夠非常好地預測下一個token,就能幫助人類達到通用人工智能(AGI,Artificial General Intelligence)。”

順着這一維度思考,如果從大衆和客戶的角度來看,Emu3目前遵循的技術路線,是不是通往AGI更好的路線呢?

實際上,當前一些多模態理解大模型,是先把語言學到非常高的能力以後,再把視覺信息進行橋接,從而發揮語言的處理能力。

王仲遠表示:“在我們看來這更像是一種打補丁的方式,不像人類大腦的原生方式。”

而Emu3的訓練過程,則更接近於人類成長學習的過程,從一開始就訓練圖像、視頻、文字,接收了各種不同模態的信號,展示出能解決這些不同問題的能力。

“從最終的效果來看,Emu3可以做到每一個方向上最優秀的模型效果,但這背後涉及到資源、訓練時間、成本問題,以及包括各方面投入。作爲一個研究機構,我們更重要的是開源這條技術路線,給行業指明一條新的方向,接下來需要大家一起來共同努力。”王仲遠說。

正式推出Emu3的同時,王仲遠也介紹了研發該模型的初衷和目標。

一方面,智源研究院堅持做原始創新,做高校做不了、企業不願意做的研發。

他說:“Emu3是我們認爲在整個大模型發展技術路線上必須要攻克的技術方向:原生多模態,統一理解和生成。”

另一方面,是爲多模態大模型的訓練範式指明方向。

“Emu3的意義很有可能會在一兩年之後,讓大家有更強烈的感知。”他說。

那麼,令人好奇的是,該模型爲何要選擇Autoregressive的技術路線?

這正是因爲,目前在多模態大的研究方向上,一直沒有探索出真正的基礎模型,而智源研究院希望能爲整個行業指明一個方向。

開頭也提到,早在2024年6月,Emu3就已經被提出。從那時到現在,又做了哪些研發工作呢?

據介紹,Emu3研發團隊通過攻克一個又一個的技術難題,累積了不少核心技術和能力,不僅解決了如何把不同模態的數據統一成token等基礎問題,也探索了統一訓練到底要使用什麼樣的數據,以及不同模態數據的比例等內容。

因此,對比6月,該模型在圖像生成和視頻生成等能力上,都實現了大幅提升,整體效果已經超越很多開源模型。

下一步,基於Emu3,該團隊將會探究模型的輸入窗口如何變大、輸出如何變長,以及如何實現更長時間的視頻預測等方面的研究。

此外,王仲遠也指出了智源研究院未來三至五年的工作重點。

首先,將繼續研發原生多模態世界模型Emu系列,解決更大規模的數據、算力以及訓練。

其次,由於統一多模態基座大模型是AI進入到物理世界非常重要的基座,因此也正在發力多模態具身大腦方面的研究。

最後,AI for Science,也是智源研究院非常關注的重要研究方向。

顯然,在智源研究院看來,多模態是實現AGI的必經之路。而開啓下一代多模態大模型訓練範式的Emu3,正是該機構在探索這條道路時邁出的嶄新一步。