智源Emu3登場:只基於下一個token預測,一套模型搞定圖片、視頻、文本

本站科技10月21日消息,智源研究院正式發佈了其最新的多模態AI模型——原生多模態世界模型Emu3,該模型實現了視頻、圖像和文本三種模態的統一理解與生成。

Emu3採用了完全基於下一個token預測的技術架構,避免了以往復雜的擴散模型或組合式方法。它將圖像、文本和視頻統一編碼爲一個離散的表示空間,並在多模態混合序列上,從頭開始聯合訓練一個Transformer模型。這種簡化的統一架構,極大提升了模型的靈活性與效率。

在圖像生成、視覺語言理解、視頻生成任務中,Emu3的表現超過了 SDXL 、LLaVA-1.6、OpenSora等知名開源模型。

圖注:在圖像生成任務中,人類評估得分Emu3高於SD-1.5與SDXL。在視覺語言理解任務中,12項基準測試的平均得分,Emu3領先於LlaVA-1.6與LlaVA-1.5。在視頻生成任務中,VBench基準測試得分,Emu3優於OpenSora 1.2。

下一token預測被認爲是通往AGI的可能路徑,但這種範式在語言以外的多模態任務中沒有被證明,此次Emu3則成功展示了下一個token預測技術在多模態任務中的適用性。

爲了推動技術的廣泛應用,智源研究院已將Emu3的關鍵技術和模型開源,並提供了生成和理解一體的預訓練模型及SFT訓練代碼。

Emu3一經上線,就已經在海外開發者中引起了廣泛熱議。

相關技術從業者紛紛表示:“對於研究人員來說,Emu3意味着出現了一個新的機會,可以通過統一的架構探索多模態,無需將複雜的擴散模型與大語言模型相結合。這種方法類似於transformer在視覺相關任務中的變革性影響。”

“Emu3的統一方法將帶來更高效、更多功能的AI系統,簡化多模態AI的開發和應用以及內容生成、分析和理解的新可能性。”

“Emu3將徹底改變多模態AI領域,提供無與倫比的性能和靈活性。”

"Emu3改寫了多模態人工智能的規則...Emu3重新定義了多模態AI,展示了簡單可以戰勝複雜。多模態AI的未來變得更加精煉與強大。"

智源研究院院長王仲遠表示:“Emu3證明了下一個token預測能在多模態任務中取得高性能的表現,爲構建多模態AGI提供了廣闊的技術前景。”他認爲,Emu3有可能將多模態AI技術基礎設施建設收斂到一條技術路線上,簡化多模態任務的開發流程,有望推動產業化應用。

未來,Emu3將廣泛應用於機器人大腦、自動駕駛、多模態對話和推理等場景,促進AI技術在實際應用中的突破與發展。(袁寧)

圖注:Emu3文生圖案例

圖注:Emu3文生視頻過程幀畫面展示

圖注:Emu3圖片理解案例

本文來自本站科技報道,更多資訊和深度內容,關注我們。