「黑神話」級3A大作AI實時遊戲生成!港科大、中科大等祭出最強擴散Transformer,火爆國外
新智元報道
編輯:編輯部 HYh
【新智元導讀】AI顛覆遊戲產業,一場無聲革命已經開啓!繼AI遊戲模型Oasis之後,港科大、中科大等機構聯手推出GameGen-X,首次實現了開放世界遊戲的AI生成與交互控制。
爆火國產3A大作《黑神話·悟空》,如今也能由AI生成了?
一夜之間,國內首個實時視頻遊戲生成AI,火遍全網。
致敬「西遊記」
幾天前,專做推理芯片初創Etched曾推出世界首個實時生成AI遊戲Oasis,每一幀都是擴散Transformer預測。
無需遊戲引擎,就能實現每秒20幀實時渲染,幾乎沒有延遲。
沒想到,GameGen-X一出,再次顛覆了我們對AI遊戲的認知。
來自港科大、中科大、港中文等機構聯手,提出開放世界視頻遊戲生成AI,可以實時交互創建遊戲。
這是首個專爲生成和交互控制開放世界遊戲視頻而設計的擴散Transformer模型。
論文地址:https://gamegen-x.github.io/
GameGen-X能夠模擬遊戲引擎特性,實現高質量開放世界遊戲生成。比如,創建新角色、動態環境、複雜動作和各種事件等等。
它還能進行交互式控制,根據當前片段預測或更改未來內容,實現遊戲模擬。
有網友表示,一切都結束了,中國再次在AI遊戲領域拿下第一。
還有人稱,這比Oasis看起來更好。
AI實時遊戲生成,驚呆歪果仁
老黃曾說過,未來每個像素很快都將會是生成的,並非是渲染的。
不論是從谷歌GameNGen,到Oasis,再到GameGen-X,每一步的進化都在逼近這個預言。
高質量遊戲生成
在遊戲生成上,GameGen-X不僅能夠創建角色,還能生成動作、動態環境、各種事件、開放域。
角色生成
《巫師》的Geralt of Rivia
《荒野大鏢客:救贖2》的主角Arthur Morgan
《刺客信條》的Eivor
還有這種偏卡通風的人物——異星探險家
射擊遊戲中的機械戰警RoboCop,機器人角色生成很賽博。
環境生成
不論是春夏秋冬四季,還是山川湖海,各種名勝古蹟,都能實時生成。
動作生成
騎摩托車第一人稱視角,以及第三人稱視角。
駕馬車
飛行
事件生成
下雨、下雪、打雷、日起日落、火災、沙塵暴、海嘯.....
開放域生成
在中國城漫遊的賽博和尚
血月下的幽靈
穿着斗篷的旅行者走在火星上
多模態交互控制
在多模態交互中,GameGen-X能夠支持結構化指令提示、外設操作信號、視頻提示的生成。
結構化指令提示
同在沙漠中行走的旅人,你可以通過提示要求,讓背景實時變幻。
天空之火
黑暗與星星
日落時分
霧出現
操作信號
遊戲中角色向左向右移動,一句話的事。
視頻提示
提供一個Canny提示的視頻
接下來,就會得到
又或者提供一個運動失量的視頻
就會生成一個揚沙的視頻
GameGen-X技術
GameGen-X擅長生成多樣化和創造性的遊戲內容,包括動態環境、多變的角色、引人入勝的事件和複雜的動作,樹立了該領域的新標杆。
更爲震撼的是,它還提供了交互式可控性,並首次將角色交互和場景內容控制統一起來。
AI根據當前片段預測和更改未來內容,從而實現遊戲模擬,賦予了遊戲更多的真實性。
它首先生成一個視頻片段,以設置環境和角色。
隨後,利用當前視頻片段和多模態用戶控制信號,生成動態響應用戶輸入的視頻片段。
這一過程可被視爲模擬現實一般的體驗,因爲這一過程中,環境和角色都是動態發展的!
GameGen-X的訓練過程分爲兩個階段,包括基礎模型預訓練和指令微調。
首先,通過在OGameData-GEN數據集上的文本到視頻的生成和視頻延續對模型進行預訓練,使其具備生成長序列、高質量開放世界遊戲視頻的能力。
此外,爲了實現交互可控性,研究團隊在設計InstructNet時納入了與遊戲相關的多模態信號控制專家系統。
這使得模型能夠根據用戶輸入微調潛表徵,首次在視頻生成中將角色交互和場景內容的調控統一起來。
在指令微調過程中,爲了保證不損失生成視頻內容的多樣性和質量的情況下,實現多模態交互式控制,模型引入了 InstructNet。具體來說,InstructNet 的主要目的是根據指令修改未來的預測。
當沒有給出用戶輸入信號時,視頻自然延伸。因此會將預先訓練好的基礎模型凍結,只利用OGameData-INS數據集更新InstructNet,從而將用戶輸入(如遊戲環境動態的結構化文本指令和角色動作與操作的鍵盤控制)映射到生成的遊戲內容上。
總之,GameGen-X代表了使用生成模型進行開放世界視頻遊戲設計的一次重大飛躍。它展示了生成模型作爲傳統渲染技術輔助工具的潛力,有效地將創意生成與交互能力融合在一起。
首個開放世界遊戲視頻數據集OGameData
爲了促進交互式控制遊戲生成領域的發展,研究團隊構建了開放世界視頻遊戲數據集(Open-World Video Game Dataset,OGameData),這是首個專爲遊戲視頻生成和交互式控制精心設計的大規模數據集。
它提供遊戲特定知識,幷包含遊戲名稱、玩家視角和角色細節等元素。該數據集從150多款下一代遊戲中收集而來,其中包括評分、篩選、排序和結構化註釋。
OGameData的構建與處理流程
如表1所示,OGameData包含100萬個高分辨率視頻片段,來源從幾分鐘到幾小時不等。
與其他特定領域的數據集相比,OGameData在文本-視頻對的規模、多樣性和豐富性方面脫穎而出。
即使與最新的開放域生成數據集Miradata相比,仍然具有提供更多細粒度註釋的優勢,其在單位時間內提供的註釋甚至是Miradata數據集的2倍多!
該數據集具有幾個主要特點:OGameData 具有高度精細的文本,並擁有大量可訓練的視頻-文本對,從而提高了模型訓練中文本-視頻的一致性。
此外,它還包括兩個子集:生成數據集(OGameData-GEN)和指令數據集(OGameData-INS)。
其中OGameData-GEN專門用於訓練生成基礎模型,而OGameData-INS則針對指令微調和交互式控制任務進行了優化。
OGameData-GEN需要製作詳細的註釋來描述遊戲元數據、場景背景和關鍵角色,以確保生成基礎模型訓練所需的全面文本描述。
相比之下,OGameData-INS使用基於指令的簡明註釋,突出顯示初始幀和後續幀之間的差異,重點是描述遊戲場景的變化,以便進行交互式生成。
這種結構化註釋方法可實現精確的生成和細粒度的控制,允許模型在保留場景的同時修改特定元素。該數據集的高質量得益於10多位人類專家的精心設計。
每個視頻片段都配有使用GPT-4o生成的註釋,以保持清晰度和連貫性,並確保數據集不受用戶界面和視覺僞影的影響。
模型架構
在將視頻片段進行編碼時,爲解決時空信息冗餘問題,GameGen-X引入了三維時空變分自編碼器(3D-VAE),將視頻片段壓縮爲潛表徵。
這種壓縮技術可以對具有較長幀序列的高分辨率視頻進行高效訓練。
具體來說,3D-VAE首先進行空間下采樣以獲得幀級潛特徵。此外,它還進行了時間組合,以捕捉時間依賴性並有效減少幀上的冗餘。
通過3D-VAE對視頻片段進行處理,可以得到一個具有空間-時間信息並降低了維度的潛張量。這樣的張量可以支持長視頻和高分辨率模型訓練,滿足遊戲內容生成的要求。
GameGen-X還引入了掩碼時空擴散Transformer(Masked Spatial-Temporal Diffusion Transformer,MSDiT)。
具體來說,MSDiT結合了空間注意力、時間注意力和交叉注意力機制,可有效生成由文本提示引導的遊戲視頻。
對於每個時間步長t,模型會處理捕捉幀細節的潛特徵z。
空間注意力通過對空間維度(H′、W′)的自注意力來增強幀內關係。時間注意通過在時間維度F′上進行操作,捕捉幀間的依賴關係,從而確保幀間的一致性。
交叉注意力整合了通過文本編碼器T5獲得的外部文本特徵的指導,使視頻生成與文本提示的語義信息保持一致。
而掩碼機制則可以在擴散處理過程中,將某些幀從噪聲添加和去噪中屏蔽掉。
如圖4所示,整體框架採用了將成對的空間和時間區塊堆疊在一起的設計,其中每個區塊都配備了交叉注意和空間或時間注意力機制。
這樣的設計使模型能夠同時捕捉空間細節、時間序列動態和文本引導,從而使GameGen-X能夠生成高保真、時間上一致的視頻,並與所提供的文本提示緊密結合。
負責實現交互式控制的指令微調的部分由N個InstructNet模塊組成,每個模塊利用專門的操作集成式專家層和指令集成式專家層來整合不同的條件。
輸出特徵被注入到基礎模型中以融合原始潛在特徵,根據用戶輸入調製潛在表徵,並有效地將輸出與用戶意圖對齊,這使用戶能夠影響角色動作和場景動態。
InstructNet主要通過視頻連續訓練來模擬遊戲中的控制和反饋機制。此外,還在初始幀中巧妙地添加了高斯噪聲,以減少誤差累積。
實驗結果
爲了全面評估GameGen-X在生成高質量、逼真且可交互控制的視頻遊戲內容方面的能力,研究團隊採用了一套十分細緻的度量標準。
包括Fréchet Inception Distance(FID)、Fréchet Video Distance(FVD)、文本視頻對齊(TVA)、用戶偏好度(UP)、運動平滑度(MS)、動態度(DD)、主體一致性(SC) 和成像質量(IQ)。
表2對比了GameGen-X和4個知名開源模型,即Mira、OpenSora Plan1.2、OpenSora1.2和CogVideoX-5B。
值得注意的是,Mira和OpenSora1.2都明確提到在遊戲數據上進行訓練,而其他兩個模型雖然不是專門爲此目的設計的,但仍然可以在類似環境中滿足某些生成需求。
結果顯示,GameGen-X在FID、FVD、TVA、MS和SC等指標上表現良好。這表明GameGen-X在生成高質量和連貫的視頻遊戲內容方面具有優勢,同時保持了競爭性的視覺和技術質量。
此外,團隊還使用了有條件的視頻片段和密集提示詞來評估模型的生成響應。
其中,新引入的指標——成功率(SR),負責衡量模型對控制信號的準確響應頻率。這是由人類專家和PLLaVA共同評估的。
SR指標分爲兩部分:角色動作的成功率(SR-C),評估模型對角色動作的響應能力,以及環境事件的成功率(SR-E),評估模型對天氣、光照和物體變化的處理能力。
如表3所示,GameGen-X在控制能力方面優於其他模型,突顯了其在生成上下文適宜和互動性遊戲內容方面的有效性。
在生成性能方面,有着8fps視頻的CogVideo和場景頻繁變化的OpenSora1.2,獲得了更高的DD。
圖5展示了GameGen-X在生成各種角色、環境、動作和事件的多樣化生成能力。
這些例子顯示模型可以創建刺客和法師等角色,模擬櫻花森林和熱帶雨林等環境,執行飛行和駕駛等複雜動作,並重現暴風雪和暴雨等環境事件。
圖6展示了GameGen-X根據文本指令和鍵盤輸入控制環境事件和角色動作的能力。
在提供的示例中,模型有效地操控了場景的各個方面,如光照條件和大氣效果,突顯了其模擬不同時間和天氣條件的能力。此外,角色的動作,主要涉及環境中的導航,通過輸入的鍵盤信號得到精確控制。
通過調整光照和大氣等環境因素,模型提供了一個逼真而沉浸的環境。同時,管理角色動作的能力確保生成的內容能夠直觀地響應用戶的互動。
通過這些能力,GameGen-X展示出了在提升開放世界電子遊戲模擬的真實感和參與度方面的潛力。
如圖7所示,GameGen-X在角色細節、視覺環境和鏡頭邏輯方面更好地滿足了遊戲內容的要求,這得益於嚴格的數據集收集和OGameData的構建。
此外,GameGen-X還與包括Kling、Pika、Runway、Luma和Tongyi在內的其他商業產品進行了比較,如圖8所示。
在左側部分,即最初生成的視頻片段中,只有Pika、Kling1.5和GameGen-X正確地遵循了文本描述。其他模型要麼未能顯示角色,要麼將其描繪爲進入洞穴而非退出。
在右側部分,GameGen-X和Kling1.5都成功引導角色走出洞穴。GameGen-X實現了高質量的控制響應,同時保持了一致的鏡頭邏輯,並遵循了類似遊戲的體驗。這得益於整體訓練框架和InstructNet的設計。
結論
OGameData的開發爲模型訓練提供了重要的基礎,使其能夠捕捉開放世界遊戲的多樣性和複雜性。而通過兩階段的訓練過程,GameGen-X實現了內容生成和交互控制之間的相互增強,從而實現了豐富且身臨其境般的模擬體驗。
除了技術貢獻之外,更重要的是:GameGen-X 還爲遊戲內容設計的未來開闢了新的視野。它表明遊戲設計與開發有可能轉向更加自動化、數據驅動的流程,從而顯著減少遊戲內容早期創建所需的手動工作。
通過利用模型來創建身臨其境的世界和交互式遊戲玩法,我們可能對於玩家自己通過創造性的探索來構建一個遊戲的未來越來越近了。
儘管挑戰依然存在,GameGen-X代表了遊戲設計中向新穎範式邁出的重大飛躍。它爲未來的研究和開發奠定了基礎,也爲生成模型成爲創建下一代交互式數字世界的不可或缺的工具鋪平了道路。
團隊介紹
Haoxuan Che
Haoxuan Che正在香港科技大學(HKUST)攻讀計算機科學與工程博士學位。他的主要研究興趣在於計算機視覺、醫學圖像分析和可信賴人工智能。
在加入香港科技大學之前,我曾畢業於西北工業大學(NWPU),獲得了軟件與微電子學院的軟件工程學士學位。
Xuanhua He(何炫華)
何炫華目前是中國科學技術大學的碩士生,由Jie Zhang和Chengjun Xie教授指導。他於2022年在廈門大學獲得了軟件工程學士學位,師從Yongxuan Lai教授。
他的研究興趣集中在計算機視覺領域,特別是圖像超分辨率、圖像增強和視頻生成。此前,他還曾曾探索過遙感圖像處理和聯邦學習。
參考資料:
https://gamegen-x.github.io/
https://x.com/kimmonismus/status/1853861306601967864