☰

智源Emu3登場：只基於下一個token預測，一套模型搞定圖片、視頻、文本

本站科技10月21日消息，智源研究院正式發佈了其最新的多模態AI模型——原生多模態世界模型Emu3，該模型實現了視頻、圖像和文本三種模態的統一理解與生成。

Emu3採用了完全基於下一個token預測的技術架構，避免了以往復雜的擴散模型或組合式方法。它將圖像、文本和視頻統一編碼爲一個離散的表示空間，並在多模態混合序列上，從頭開始聯合訓練一個Transformer模型。這種簡化的統一架構，極大提升了模型的靈活性與效率。

在圖像生成、視覺語言理解、視頻生成任務中，Emu3的表現超過了 SDXL 、LLaVA-1.6、OpenSora等知名開源模型。

圖注：在圖像生成任務中，人類評估得分Emu3高於SD-1.5與SDXL。在視覺語言理解任務中，12項基準測試的平均得分，Emu3領先於LlaVA-1.6與LlaVA-1.5。在視頻生成任務中，VBench基準測試得分，Emu3優於OpenSora 1.2。

下一token預測被認爲是通往AGI的可能路徑，但這種範式在語言以外的多模態任務中沒有被證明，此次Emu3則成功展示了下一個token預測技術在多模態任務中的適用性。

爲了推動技術的廣泛應用，智源研究院已將Emu3的關鍵技術和模型開源，並提供了生成和理解一體的預訓練模型及SFT訓練代碼。

Emu3一經上線，就已經在海外開發者中引起了廣泛熱議。

相關技術從業者紛紛表示：“對於研究人員來說，Emu3意味着出現了一個新的機會，可以通過統一的架構探索多模態，無需將複雜的擴散模型與大語言模型相結合。這種方法類似於transformer在視覺相關任務中的變革性影響。”

“Emu3的統一方法將帶來更高效、更多功能的AI系統，簡化多模態AI的開發和應用以及內容生成、分析和理解的新可能性。”

“Emu3將徹底改變多模態AI領域，提供無與倫比的性能和靈活性。”

"Emu3改寫了多模態人工智能的規則...Emu3重新定義了多模態AI，展示了簡單可以戰勝複雜。多模態AI的未來變得更加精煉與強大。"

智源研究院院長王仲遠表示：“Emu3證明了下一個token預測能在多模態任務中取得高性能的表現，爲構建多模態AGI提供了廣闊的技術前景。”他認爲，Emu3有可能將多模態AI技術基礎設施建設收斂到一條技術路線上，簡化多模態任務的開發流程，有望推動產業化應用。

未來，Emu3將廣泛應用於機器人大腦、自動駕駛、多模態對話和推理等場景，促進AI技術在實際應用中的突破與發展。（袁寧）

圖注：Emu3文生圖案例

圖注：Emu3文生視頻過程幀畫面展示

圖注：Emu3圖片理解案例

本文來自本站科技報道，更多資訊和深度內容，關注我們。

相關資訊