Sora:大型視覺模型的背景、技術、侷限性和機遇綜述 【官方論文】

文:城主

寫在前面:今天OpenAI和微軟聯合發佈了Sora的官方論文。這裡和關心Sora的同學們分享本城翻譯製作的中文版(全文3.4萬字)

英文原版傳送門:https://arxiv.org/pdf/2402.17177v1.pdf

Sora:大型視覺模型的背景、技術、侷限性和機遇綜述

Yixin Liu1* Kai Zhang1* Yuan Li1* Zhiling Yan1* Chujie Gao1*

Ruoxi Chen1* Zhengqing Yuan1* Yue Huang1Hanchi Sun1

Jianfeng Gao2 Lifang He1 Lichao Sun1†

1利哈伊大學2微軟研究院

摘要

Sora是一款由OpenAI在2024年2月發佈的文本到視頻生成的AI模型。該模型被訓練用於根據文本指令生成現實或想象場景的視頻,並展現出模擬物理世界的潛力。基於公開的技術報告和逆向工程,本文對該模型的背景、相關技術、應用、現存挑戰和文本到視頻AI模型的未來方向進行了全面的綜述。我們首先追溯Sora的發展,並探究用於構建這一“世界模擬器”的底層技術。然後,我們詳細描述了Sora在從電影製作和教育到市場營銷等多個行業中的應用和潛在影響。我們討論了需要解決的主要挑戰和侷限性,以便廣泛部署Sora,例如確保安全且無偏見的視頻生成。最後,我們討論了Sora和一般視頻生成模型的未來發展,以及該領域的進步如何能夠實現新的人工智能交互方式,提高視頻生成的生產力和創造力。

圖1:Sora:AI驅動視覺生成的突破。

*平等貢獻。順序是通過擲骰子確定的。Chujie, Ruoxi, Yuan, Yue, 和 Zhengqing 是在利哈伊大學LAIR實驗室的訪問學生。GitHub鏈接爲 https://github.com/lichao-sun/SoraReview

†Lichao Sun 是共同通訊作者:lis221@lehigh.edu

目錄

1 引言

2 背景

2.1 歷史

2.2 高級概念

3 技術

3.1 Sora概述

3.2 數據預處理

3.2.1 變量持續時間、分辨率、寬高比

3.2.2 統一視覺表示

3.2.3 視頻壓縮網絡

3.2.4 時空潛在補丁

3.2.5 討論

3.2.6 擴散變換器

3.3 建模

3.3.1 討論

3.4 遵循語言指令

3.4.1 大型語言模型

3.4.2 文本到圖像

3.4.3 文本到視頻

3.4.4 討論

3.5 提示工程

3.5.1 文本提示

3.5.2 圖像提示

3.5.3 視頻提示

3.5.4 討論

3.6 可信度

3.6.1 安全問題

3.6.2 其他利用

3.6.3 對齊

3.6.4 討論

4 應用

4.1 電影

4.2 教育

4.3 遊戲

4.4 醫療保健

4.5 機器人技術

5 討論

5.1 侷限性

5.2 機遇

6 結論

A 相關工作

1 引言

自從 2022 年 11 月 ChatGPT 發佈以來,人工智能技術的出現標誌着一個重大的轉變,重塑了交互方式,並深入融入日常生活和行業的各個方面[1, 2]。基於這一勢頭,OpenAI 在 2024 年 2 月發佈了 Sora,一個文本到視頻的生成式 AI 模型,能夠根據文本提示生成現實或想象場景的視頻。與之前的視頻生成模型相比,Sora 的特點是能夠在遵循用戶文本指令的同時,生成長達 1 分鐘的高質量視頻[3]。Sora 的進步體現了長期以來人工智能研究任務的實質,即賦予 AI 系統(或 AI 代理)理解和與運動中的物理世界互動的能力。這涉及到開發不僅能解釋複雜用戶指令,而且能將這種理解應用於通過動態和富有上下文的模擬解決現實世界問題的 AI 模型。

圖 2:Sora 在文本到視頻生成中的示例。文本指令被給予 OpenAI Sora 模型,它根據指令生成三個視頻。

Sora 展示了準確解釋和執行復雜人類指令的顯著能力,如圖 2 所示。該模型能生成包含多個執行特定動作的角色以及複雜背景的詳細場景。研究人員將 Sora 的熟練程度歸因於不僅處理用戶生成的文本提示,而且還能辨別場景內元素之間複雜的相互作用。Sora 最引人注目的方面之一是其生成長達一分鐘的視頻的能力,同時保持高視覺質量和引人入勝的視覺連貫性。與只能生成短視頻片段的早期模型不同,Sora 的一分鐘長視頻創作具有進展感和從第一幀到最後一幀的視覺一致性之旅。此外,Sora 的進步在於其生成具有細膩運動和互動描繪的擴展視頻序列的能力,克服了早期視頻生成模型所特有的短片段和簡單視覺呈現的限制。這一能力代表了 AI 驅動創意工具向前的一大步,允許用戶將文本敘述轉換爲豐富的視覺故事。總的來說,這些進步展示了 Sora 作爲世界模擬器的潛力,爲描繪場景的物理和上下文動態提供了細膩的見解。[3]。

技術。Sora 的核心是一個預訓練的擴散變換器[4]。變換器模型已被證明對許多自然語言任務具有可擴展性和有效性。與 GPT-4 等強大的大型語言模型(LLMs)類似,Sora 能夠解析文本並理解複雜的用戶指令。爲了使視頻生成在計算上高效,Sora 使用時空潛在補丁作爲其構建塊。具體來說,Sora 將原始輸入視頻壓縮成一個時空潛在表示。然後,從壓縮視頻中提取一系列時空潛在補丁,以封裝短時間間隔內的視覺外觀和運動動態。這些補丁,類似於語言模型中的單詞標記,爲 Sora 提供了用於構建視頻的詳細視覺短語。Sora 的文本到視頻生成是通過擴散變換器模型執行的。從一個充滿視覺噪聲的幀開始,模型迭代地去除噪聲並根據提供的文本提示引入特定細節。本質上,生成的視頻通過多步精煉過程出現,每一步都使視頻更加符合期望的內容和質量。

Sora 的亮點。Sora 的能力在各個方面都有深遠的影響:

• 提高模擬能力:將 Sora 進行大規模訓練歸功於其模擬物理世界各個方面的顯著能力。儘管缺乏顯式的 3D 建模,Sora 展現了具有動態相機運動和長距離連貫性的 3D 一致性,包括對象持久性和模擬與世界的簡單互動。此外,Sora 有趣地模擬了像 Minecraft 這樣的數字環境,由基本策略控制,同時保持視覺保真度。這些涌現能力表明,擴大視頻模型的規模在創建模擬物理和數字世界複雜性的 AI 模型方面是有效的。

• 促進創造力:想象通過文本概述一個概念,無論是一個簡單的對象還是一個完整的場景,並在幾秒鐘內看到一個現實的或高度風格化的視頻被渲染出來。Sora 使設計過程加速,加快了探索和精煉想法的速度,從而顯著提高了藝術家、電影製作人和設計師的創造力。

• 推動教育創新:視覺輔助工具長期以來一直是理解教育中重要概念的核心。有了 Sora,教育工作者可以輕鬆地將課堂計劃從文本轉換爲視頻,以吸引學生的注意力並提高學習效率。從科學模擬到歷史劇情再現,可能性是無限的。

• 增強可訪問性:在視覺領域增強可訪問性至關重要。Sora 通過將文本描述轉換爲視覺內容提供了一種創新解決方案。這一能力使所有人,包括視覺障礙者,都能積極參與內容創作並以更有效的方式與他人互動。因此,它爲每個人提供了通過視頻表達自己想法的機會,創造了一個更具包容性的環境。

• 培育新興應用:Sora 的應用範圍廣泛。例如,營銷人員可能使用它創建針對特定受衆描述的動態廣告。遊戲開發者可能使用它從玩家敘述中生成定製化的視覺效果甚至角色動作。

限制和機遇。儘管 Sora 的成就突出了 AI 方面的重大進步,但仍存在挑戰。描繪複雜動作或捕捉微妙的面部表情是模型可以增強的領域之一。此外,如何減輕生成內容中的偏見並防止有害視覺輸出等倫理考慮,強調了開發者、研究人員和更廣泛社區負責任使用的重要性。確保 Sora 的輸出始終安全且無偏見是一個主要挑戰。視頻生成領域正在迅速發展,學術和行業研究團隊正在不懈努力。競爭性文本到視頻模型的出現表明,Sora 可能很快就會成爲一個動態生態系統的一部分。這種協作和競爭環境促進了創新,導致視頻質量的提高和新應用的出現,這些應用有助於提高工人的生產力並使人們的生活更加有趣。

我們的貢獻。基於已發佈的技術報告和我們的逆向工程,本文提出了 Sora 的背景、相關技術、新興應用、當前限制和未來機遇的首次全面審查。

2 背景2.1 歷史

在計算機視覺(CV)領域,在深度學習革命之前,傳統的圖像生成技術依賴於諸如紋理合成[5]和紋理映射[6]等方法,這些方法基於手工製作的特徵。然而,這些方法在生成複雜和生動的圖像方面的能力是有限的。

圖3:視覺領域生成式AI的歷史。

生成對抗網絡(GANs)[7]和變分自編碼器(VAEs)[8]的引入標誌着一個重要的轉折點,因爲它在各種應用中展現出了非凡的能力。隨後的發展,如流模型[9]和擴散模型[10],進一步提高了圖像生成的細節和質量。最近在人工智能生成內容(AIGC)技術方面的進展,使內容創作民主化,使用戶能夠通過簡單的文本指令生成所需內容[11]。

在過去的十年中,生成式計算機視覺(CV)模型的發展採取了多種路徑,如圖3所示。這一格局在成功應用變壓器架構[12]於自然語言處理(NLP)後開始顯著轉變,如BERT[13]和GPT[14]所示。在CV中,研究人員通過將變壓器架構與視覺組件相結合,將這一概念推向更遠,使其能夠應用於下游CV任務,如視覺變壓器(ViT)[15]和Swin變壓器[16]。與變壓器的成功平行,擴散模型在圖像和視頻生成領域也取得了重大進展[10]。擴散模型提供了一個數學上合理的框架,通過U-Nets[17]將噪聲轉換成圖像,其中U-Nets通過學習在每一步預測和減輕噪聲來促進這一過程。

自2021年以來,AI領域的一個重要焦點是能夠解釋人類指令的生成式語言和視覺模型,即多模態模型。例如,CLIP[18]是一種開創性的視覺-語言模型,它將變壓器架構與視覺元素相結合,使其能夠在大量的文本和圖像數據集上進行訓練。通過從一開始就整合視覺和語言知識,CLIP可以在多模態生成框架中充當圖像編碼器。另一個值得注意的例子是Stable Diffusion[19],這是一個多才多藝的文本到圖像AI模型,以其適應性和易用性而受到讚譽。它採用變壓器架構和潛在擴散技術來解碼文本輸入,並生成各種風格的圖像,進一步展示了多模態AI的進步。

隨着2022年11月ChatGPT的發佈,我們在2023年見證了商業文本到圖像產品的出現,如Stable Diffusion[19]、Midjourney[20]、DALL-E 3[21]。這些工具使用戶能夠用簡單的文本提示生成高分辨率和高質量的新圖像,展示了AI在創意圖像生成方面的潛力。然而,從文本到圖像過渡到文本到視頻由於視頻的時間複雜性而具有挑戰性。儘管工業界和學術界做出了許多努力,但大多數現有的視頻生成工具,如Pika[22]和Gen-2[23],僅限於生成幾秒鐘的短視頻片段。在這種背景下,Sora代表了一個重大突破,類似於ChatGPT在NLP領域的影響。Sora是第一個能夠根據人類指令生成長達一分鐘的視頻的模型,標誌着對生成式AI研究和開發產生深遠影響的里程碑。爲了便於輕鬆訪問最新的視覺生成模型進展,最新的作品已被彙編並提供在附錄和我們的GitHub中。

2.2 高級概念

視覺模型的規模化定律。有了LLMs的規模化定律,自然會問視覺模型的發展是否遵循類似的規模化定律。最近,Zhai等人[24]展示了,有足夠訓練數據的ViT模型的性能-計算前沿大致遵循(飽和)冪律。繼他們之後,谷歌研究[25]提出了一種高效穩定訓練22B參數ViT的方法。結果顯示,使用凍結模型產生嵌入,然後在頂部訓練薄層可以實現出色的性能。Sora作爲一個大型視覺模型(LVM),符合這些規模化原則,揭示了文本到視頻生成中的幾種新興能力。這一重大進展強調了LVMs實現類似LLMs所見進步的潛力。

新興能力。LLMs中的新興能力是在某些規模上——通常與模型參數的大小有關——表現出的複雜行爲或功能,這些行爲或功能並未被開發者明確編程或預期。這些能力被稱爲“新興”,因爲它們源於模型在多樣化數據集上的全面訓練,以及其龐大的參數數量。這種組合使模型能夠形成聯繫並做出超越簡單模式識別或死記硬背的推斷。通常,這些能力的出現不能通過從小規模模型的性能外推來直接預測。雖然許多LLMs,如ChatGPT和GPT-4,展示了新興能力,但直到Sora的出現,展示類似能力的視覺模型還很少。根據Sora的技術報告,它是第一個展示確認新興能力的視覺模型,標誌着計算機視覺領域的一個重要里程碑。

除了其新興能力,Sora還展示了其他顯著能力,包括遵循指令、視覺提示工程和視頻理解。Sora的這些功能方面代表了視覺領域的重大進步,並將在後續部分進行探討和討論。

3 技術3.1 Sora概述

從核心本質上看,Sora是一個具有靈活採樣維度的擴散變壓器[4],如圖4所示。它有三個部分:(1)時空壓縮器首先將原始視頻映射到潛在空間。(2)ViT然後處理標記化的潛在表示,並輸出去噪的潛在表示。(3)類似CLIP[26]的條件機制接收LLM增強的用戶指令和可能的視覺提示,以指導擴散模型生成風格化或主題化的視頻。經過多次去噪

圖4:逆向工程:Sora框架概覽

在這一步驟中,生成視頻的潛在表示被獲得,然後通過相應的解碼器映射回像素空間。在本節中,我們的目標是對Sora使用的技術進行逆向工程,並討論廣泛的相關工作。

3.2 數據預處理3.2.1 變化的持續時間、分辨率、寬高比

Sora的一個區別特徵是其能夠在原始尺寸上訓練、理解和生成視頻及圖像,如圖5所示。傳統方法通常會調整視頻的大小、裁剪或調整寬高比,以適應一個統一標準——通常是以固定低分辨率的正方形幀的短片段[27][28][29]。這些樣本通常在更寬的時間跨度上生成,並依賴於分別訓練的幀插入和分辨率渲染模型作爲最後一步,這在視頻中造成了不一致性。利用擴散變換器架構[4](見3.2.4節),Sora是第一個擁抱視覺數據多樣性的模型,並且可以在從寬屏1920x1080p視頻到豎屏1080x1920p視頻以及之間的任何格式上採樣,而不會損害它們的原始尺寸。

圖5:Sora可以生成從1920x1080p到1080x1920p及其間任何尺寸或分辨率的圖像。

圖6:Sora(右)與一個修改版的模型(左)之間的比較,後者將視頻裁剪成正方形——這是模型訓練中的一種常見做法——凸顯了優勢。

在原始尺寸上訓練數據顯著改善了生成視頻的構圖和框架。經驗發現,通過保持原始寬高比,Sora實現了更自然和連貫的視覺敘事。如圖6所示,Sora與一個在統一裁剪的正方形視頻上訓練的模型之間的比較展示了明顯的優勢。Sora生成的視頻展示了更好的框架,確保場景中完全捕捉到了主體,與正方形裁剪導致的有時被截斷的視圖相反。

這種對原始視頻和圖像特徵的細膩理解和保留標誌着生成模型領域的一個重大進步。Sora的方法不僅展示了生成更真實和吸引人視頻的潛力,而且還強調了在訓練數據中的多樣性對於在生成AI中實現高質量結果的重要性。Sora的訓練方法與Richard Sutton的《苦澀的教訓》[30]的核心原則一致,該原則指出,利用計算而不是人爲設計的特徵,可以導致更有效和靈活的AI系統。正如擴散變換器的原始設計尋求簡單性和可擴展性[31],Sora在原始尺寸上訓練數據的策略避免了傳統AI對人爲抽象的依賴,而是選擇了一種隨着計算能力擴展的通用方法。在本節的其餘部分,我們嘗試對Sora的架構設計進行逆向工程,並討論實現這一驚人特性的相關技術。

3.2.2 統一的視覺表示

爲了有效處理包括具有不同持續時間、分辨率和寬高比的圖像和視頻在內的多樣化視覺輸入,一個關鍵方法涉及將所有形式的視覺數據轉換爲統一表示,這有助於生成模型的大規模訓練。具體來說,Sora通過最初將視頻壓縮到較低維度的潛在空間,然後將表示分解爲時空補丁來對視頻進行分塊。然而,Sora的技術報告[3]僅提出了一個高層次的想法,使得研究社區難以複製。在本節中,我們嘗試逆向工程潛在的成分和技術路徑。此外,我們將討論可行的替代方案,這些方案可以複製Sora的功能,借鑑現有文獻中的見解。

圖7:在高層次上,Sora通過首先將視頻壓縮到較低維度的潛在空間,然後將表示分解爲時空補丁來對視頻進行分塊。來源:Sora的技術報告[3]。

3.2.3 視頻壓縮網絡

圖8:ViT將圖像分割成固定大小的補丁,線性嵌入每個補丁,添加位置嵌入,然後將生成的向量序列輸入標準的Transformer編碼器。

Sora的視頻壓縮網絡(或視覺編碼器)旨在降低輸入數據的維度,尤其是原始視頻,並輸出一個在時間和空間上都被壓縮的潛在表示,如圖7所示。根據技術報告中的參考文獻,壓縮網絡是基於VAE或向量量化-VAE(VQ-VAE)[32]構建的。然而,如果不使用調整大小和裁剪,如技術報告中所述,VAE難以將任何大小的視覺數據映射到統一且固定大小的潛在空間。我們總結了兩種不同的實現來解決這個問題:空間補丁壓縮。

這涉及將視頻幀轉換爲固定大小的補丁,類似於ViT[15]和MAE[33](見圖8)中使用的方法,然後將它們編碼到潛在空間中。這種方法特別適用於適應不同分辨率和寬高比的視頻,因爲它通過處理個別補丁來編碼整個幀。隨後,這些空間標記按時間順序組織,創建一個空間-時間潛在表示。這種技術強調了幾個關鍵考慮因素:時間維度的可變性——鑑於訓練視頻的持續時間不同,時間維度潛在空間表示的維度不能固定。爲了解決這個問題,可以選擇採樣特定數量的幀(對於較短的視頻可能需要填充或時間插值[34]),或者爲後續處理定義一個通用的擴展(超長)輸入長度(更多細節在第3.2.4節中描述);使用預訓練的視覺編碼器——爲了處理高分辨率視頻,利用現有的預訓練視覺編碼器,如Stable Diffusion[19]中的VAE編碼器,對大多數研究者來說是可取的,而Sora的團隊則預期將從頭開始通過訓練潛在擴散模型[19, 35, 36]的方式訓練自己的壓縮網絡及解碼器(視頻生成器)。這些編碼器可以高效壓縮大尺寸的圖塊(例如,256×256),便於大規模數據的管理;時間信息聚合——由於這種方法主要關注空間圖塊壓縮,因此需要一個額外的機制在模型內聚合時間信息。這一方面對於捕捉隨時間動態變化至關重要,並在後續章節中進一步闡述(詳見第3.2.6節和圖14)。

空間-時間-圖塊壓縮。這項技術旨在封裝視頻數據的空間和時間維度,提供全面的表示。這項技術不僅僅分析靜態幀,還考慮幀間的運動和變化,從而捕捉視頻的動態方面。使用3D卷積作爲實現這種整合的直接和強大方法[37]。圖形說明和與純空間圖塊化的比較在圖9中展示。與空間圖塊壓縮類似,採用空間-時間圖塊壓縮並預設卷積核參數——如固定的核大小、步長和輸出通道——會由於視頻輸入的不同特性導致潛在空間維度的變化。這種變異主要由處理的視頻的不同持續時間和分辨率驅動。爲了緩解這一挑戰,採用空間圖塊化的方法同樣適用且有效。

圖9:視頻壓縮的不同圖塊化比較。來源:ViViT[38]。(左)空間圖塊化僅採樣nt幀,並獨立嵌入每個2D幀,遵循ViT。(右)空間-時間圖塊化提取併線性嵌入跨越時空輸入體積的非重疊或重疊管狀體。

總結來說,我們基於VAE或其變體如VQ-VQE對兩種圖塊級壓縮方法進行了逆向工程,因爲對圖塊的操作在處理不同類型的視頻時更加靈活。由於Sora旨在生成高保真視頻,因此使用大圖塊尺寸或核大小進行高效壓縮。這裡,我們期望使用固定大小的圖塊,以簡化、可擴展性和訓練穩定性。但也可以使用不同大小的圖塊[39],使整個幀或視頻在潛在空間的維度一致。然而,這可能導致無效的位置編碼,併爲解碼器生成不同大小潛在圖塊的視頻帶來挑戰。

圖10:圖塊打包允許保持縱橫比的可變分辨率圖像或視頻。6令牌丟棄在某種程度上可以被視爲數據增強。來源:NaViT[40]。

3.2.4 時空潛在圖塊

在壓縮網絡部分仍有一個關鍵問題:如何處理潛在空間維度的變化性(即,來自不同視頻類型的潛在特徵塊或圖塊的數量)在將圖塊輸入到擴散變換器的輸入層之前。這裡,我們討論了幾種解決方案。基於Sora的技術報告和相應的參考文獻,圖塊打包(PNP)[40]可能是解決方案。PNP將來自不同圖像的多個圖塊打包成單個序列,如圖10所示。這種方法受到自然語言處理中示例打包的啓發[41],通過丟棄令牌來適應可變長度輸入的高效訓練。這裡需要在壓縮網絡中完成圖塊化和令牌嵌入步驟,但Sora可能會進一步將潛在圖塊化爲變換器令牌,如擴散變換器所做[4]。無論是否進行第二輪圖塊化,我們需要解決兩個問題,如何以緊湊的方式打包這些令牌以及如何控制應該丟棄哪些令牌。對於第一個問題,使用了一種簡單的貪婪方法,將示例添加到有足夠剩餘空間的第一個序列中。一旦沒有更多示例可以適配,序列就用填充令牌填充,產生批處理操作所需的固定序列長度。這種簡單的打包算法可能導致顯著的填充,這取決於輸入長度的分佈。另一方面,我們可以通過調整序列長度和限制填充來控制我們採樣的分辨率和幀,以確保高效打包。對於第二個問題,一種直觀的方法是丟棄相似的令牌[42, 43, 33, 44],或者像PNP那樣應用丟棄率調度器。然而,值得注意的是,3D一致性是Sora的一個好特性。在訓練期間丟棄令牌可能會忽略細微的細節。因此,我們相信OpenAI可能會使用超長的上下文窗口並打包所有視頻的令牌,儘管這樣做在計算上是昂貴的,例如,多頭注意力[45, 46]操作在序列長度上展示出二次成本。具體來說,來自長時視頻的時空潛在圖塊可以打包成一個序列,而來自幾個短時視頻的圖塊則在另一個序列中連接。

3.2.5 討論

我們討論了Sora可能使用的兩種數據預處理的技術解決方案。這兩種解決方案都是在圖塊級別執行的,因爲它們對於建模具有靈活性和可擴展性的特點。與之前將視頻調整大小、裁剪或修剪到標準大小的方法不同,Sora在其原生大小上進行訓練。儘管有幾個好處(詳見第3.2.1節分析),但它帶來了一些技術挑戰,其中最顯著的是,神經網絡不能固有地處理具有可變持續時間、分辨率和縱橫比的視覺數據。通過逆向工程,我們相信Sora首先將視覺圖塊壓縮成低維潛在表示,並將這樣的潛在圖塊或進一步圖塊化的潛在圖塊排列成序列,然後將噪聲注入這些潛在圖塊中。在將它們輸入擴散變換器的輸入層之前。Sora採用了時空分塊化,因爲它易於實現,並且可以通過高信息密度的令牌有效減少上下文長度,並降低後續對時間信息建模的複雜性。對於研究社區,我們推薦使用成本效益高的替代解決方案進行視頻壓縮和表示,包括利用預訓練的檢查點(例如,壓縮網絡)[47],縮短上下文窗口,使用輕量級建模機制如(分組的)多查詢注意力[48, 49]或高效的架構(例如,Mamba [50]),必要時對數據進行下采樣和丟棄令牌。視頻建模的效果與效率之間的權衡是一個重要的研究課題。

3.2.6 擴散變換器

圖11:DiT(左)和U-ViT(右)的整體框架。

3.3 建模

圖像擴散變換器。傳統的擴散模型[51, 52, 53]主要利用包括下采樣和上採樣塊的卷積U-Net作爲去噪網絡骨幹。然而,最近的研究表明,U-Net架構對擴散模型的良好性能並不是關鍵。通過整合更靈活的變換器架構,基於變換器的擴散模型可以使用更多的訓練數據和更大的模型參數。沿着這一思路,DiT[4]和U-ViT[54]是首批採用視覺變換器的潛在擴散模型之一。如同ViT,DiT採用了多頭自注意力層和逐點前饋網絡,其中穿插了一些層歸一化和縮放層。此外,如圖11所示,DiT通過自適應層歸一化(AdaLN)加上一個額外的MLP層進行條件化,該層用於零初始化,它將每個殘差塊初始化爲恆等函數,從而極大地穩定了訓練過程。DiT的可擴展性和靈活性得到了實證驗證。DiT成爲擴散模型的新骨幹。在U-ViT中,如圖11所示,它們將所有輸入,包括時間、條件和噪聲圖像塊,視爲令牌,並在淺層和深層變換器層之間提出長跳躍連接。結果表明,基於CNN的U-Net中的下采樣和上採樣操作並不總是必要的,U-ViT在圖像和文本到圖像生成中取得了破紀錄的FID分數。

像掩碼自編碼器(MAE)[33]一樣,掩碼擴散變換器(MDT)[55]將掩碼潛在建模整合到擴散過程中,以顯式增強圖像合成中對象語義部分之間的上下文關係學習。具體來說,如圖12所示,MDT在訓練期間使用側插值來進行額外的掩碼令牌重建任務,以提高訓練效率並學習強大的上下文感知位置嵌入以用於推理。與DiT[4]相比,MDT實現了更好的性能和更快的學習速度。Hatamizadeh等人[56]介紹了擴散視覺變換器(DiffiT),它使用了一個時間依賴的自注意力(TMSA)模塊來對採樣時間步驟上的動態去噪行爲進行建模,而不是使用AdaLN(即,移位和縮放)進行時間條件建模。此外,DiffiT使用了兩種混合的分層架構,分別用於像素空間和潛在空間中的高效去噪,並在各種生成任務中實現了新的最佳結果。總的來說,這些研究在使用視覺變換器進行圖像潛在擴散方面展示了有希望的結果,爲未來其他模態的研究鋪平了道路。

圖12:掩碼擴散變換器(MDT)的整體框架。實線/虛線表示每個時間步驟的訓練/推理過程。掩碼和側插值僅在訓練期間使用,在推理期間被移除。

視頻擴散變換器。在文本到圖像(T2I)擴散模型的基礎工作之上,最近的研究集中在實現擴散變換器用於文本到視頻(T2V)生成任務的潛力。由於視頻的時間性質,將DiTs應用於視頻領域的關鍵挑戰是:i) 如何在潛在空間中對視頻進行空間和時間上的壓縮以實現高效去噪;ii) 如何將壓縮的潛在表示轉換爲塊並將它們輸入變換器;以及iii) 如何處理長期的時間和空間依賴性並確保內容一致性。請參閱第3.2.3節以瞭解第一個挑戰。在本節中,我們將討論旨在在空間和時間壓縮的潛在空間中操作的基於變換器的去噪網絡架構,我們將詳細回顧OpenAI Sora技術報告參考列表中描述的兩項重要工作(Imagen Video [29]和Video LDM [36])。

(a)左:級聯擴散模型。級聯採樣管道的基礎擴散模型和六個向上採樣模型,操作的空間和時間。文本嵌入被注入到所有的擴散模型。

(b)右:視頻U-Net時空可分離塊。空間操作進行獨立的幀與共享的參數,而時間的操作混合激活幀。時間注意僅用於在基本模型的記憶效率。

圖13:Imagen Video的整體框架。來源:Imagen Video [29]。

基礎模型用於低分辨率視頻生成,然後通過級聯擴散模型進行細化以提高分辨率。基礎視頻和超分辨率模型採用3D U-Net架構,以時空可分離的方式使用。該架構將時間注意力和卷積層與空間對應物結合起來,以有效捕獲幀間依賴性。它採用v-預測參數化以確保數值穩定性,並使用條件增強來促進模型間的並行訓練。該過程涉及對圖像和視頻的聯合訓練,將每個圖像視爲一個幀以利用更大的數據集,並使用無分類器引導[57]來增強提示的忠實度。應用漸進式蒸餾[58]來簡化採樣過程,顯著減少計算負載同時保持感知質量。結合這些方法和技術,Imagen Video不僅能生成高保真度的視頻,還能展現出卓越的可控性,如其生成多樣化視頻、文字動畫和各種藝術風格內容的能力所示。

14(a)額外的時間層。通過插入學習將幀對齊成時間一致序列的時間層,將預訓練的LDM轉變爲視頻生成器。在優化過程中,圖像骨幹θ保持固定,只有時間層li的參數ϕ接受訓練。

14(b)視頻LDM堆棧。視頻LDM首先生成稀疏關鍵幀,然後使用相同的潛在擴散模型進行兩次時間插值以實現高幀率。最後,將潛在視頻解碼到像素空間,並可選地應用視頻上採樣器擴散模型。

圖14:視頻LDM的整體框架。來源:視頻LDM [36]。

Blattmann等人[36]提出將2D潛在擴散模型轉變爲視頻潛在擴散模型(視頻LDM)。他們通過在U-Net骨幹和VAE解碼器的現有空間層之間添加一些事後時間層來實現這一點,這些時間層學習對齊單個幀。這些時間層在編碼的視頻數據上訓練,而空間層保持固定,使模型能夠利用大型圖像數據集進行預訓練。LDM的解碼器經過微調以在像素空間中實現時間一致性,並且時間對齊擴散模型上採樣器用於增強空間分辨率。爲了生成非常長的視頻,模型被訓練以預測給定一些上下文幀的未來幀,允許在採樣過程中使用無分類器引導。爲了實現高時間分辨率,視頻合成過程被劃分爲關鍵幀生成和這些關鍵幀之間的插值。遵循級聯LDMs,使用DM進一步將視頻LDM輸出擴大4倍,確保高空間分辨率同時保持時間一致性。這種方法使得以計算高效的方式生成全局一致的長視頻成爲可能。此外,作者展示了將預訓練的圖像LDM(例如,穩定擴散)轉換爲文本到視頻模型的能力,僅通過訓練時間對齊層,實現了高達1280×2048分辨率的視頻合成。

3.3.1 討論

空間和時間上採樣的級聯擴散模型。Sora能生成高分辨率視頻。通過回顧現有工作和我們的逆向工程,我們推測Sora也利用了級聯擴散模型架構[59],該架構由一個基礎模型和多個時空細化模型組成。在基礎擴散模型和低分辨率擴散模型中,考慮到在高分辨率情況下使用注意力機制的高計算成本和有限的性能增益,注意力模塊不太可能被大量使用。對於空間和時間場景一致性,正如先前的工作所示,對於視頻/場景生成,時間一致性比空間一致性更重要,Sora可能會通過使用較長視頻(用於時間一致性)和較低分辨率的高效訓練策略來實現這一點。此外,Sora可能會使用v參數化擴散模型[58],考慮到其與預測原始潛在值或噪聲ϵ的其他變體相比的卓越性能。

關於潛在編碼器。爲了訓練效率,大多數現有工作利用穩定擴散[60, 61]的預訓練VAE編碼器作爲初始化模型檢查點。然而,編碼器缺乏時間壓縮能力。儘管一些工作提出只對解碼器進行微調以處理時間信息,但解碼器在壓縮潛在空間中處理視頻時間數據的性能仍然不是最佳的。根據技術報告,我們的逆向工程顯示,與其使用現有的預訓練VAE編碼器,Sora可能使用從頭開始在視頻數據上訓練的時空VAE編碼器,該編碼器在具有視頻導向的壓縮潛在空間中的性能優於現有的編碼器。

3.4 語言指令跟隨

用戶主要通過自然語言指令,即文本提示[62, 63],與生成式AI模型進行交互。模型指令調整旨在增強AI模型遵循提示的能力。這種在遵循指令方面的改進能力使模型能夠生成更接近於對自然語言查詢的人類響應的輸出。我們從回顧大型語言模型(LLMs)和諸如DALL·E 3之類的文本到圖像模型的指令跟隨技術開始討論。爲了增強文本到視頻模型遵循文本指令的能力,Sora採用了類似於DALL·E 3的方法。該方法涉及訓練描述性字幕器並使用字幕器生成的數據進行微調。由於指令調整,Sora能夠適應廣泛的用戶請求,確保對指令中的細節給予細緻的注意,並生成精確滿足用戶需求的視頻。

3.4.1 大型語言模型

LLMs遵循指令的能力已被廣泛探索[64, 65, 66]。這種能力使LLMs能夠閱讀、理解並適當響應描述未見任務的指令,而無需示例。通過在格式化爲指令的任務混合物上對LLMs進行微調[64, 66],獲得並增強了遵循提示的能力,這稱爲指令調整。Wei等人[65]展示了經過指令調整的模型能夠更準確地遵循指令。LLMs在未見任務上的表現顯著優於未調整的模型。指令遵循能力將LLMs轉變爲通用任務解決器,標誌着AI發展歷史上的一個範式轉變。

3.4.2 文本到圖像

DALL·E 3中的指令遵循通過一種假設爲基礎的標題改進方法來解決,即模型訓練所依賴的文本-圖像對的質量決定了最終文本到圖像模型的性能。數據的低質量,特別是噪聲數據的普遍存在和省略大量視覺信息的簡短標題,導致了許多問題,如忽略關鍵詞和詞序,以及誤解用戶意圖。標題改進方法通過用詳細、描述性的標題重新標註現有圖像來解決這些問題。該方法首先訓練一個圖像標題生成器,這是一個視覺-語言模型,用於生成精確和描述性的圖像標題。然後,使用標題生成器生成的描述性圖像標題來微調文本到圖像模型。具體來說,DALL·E 3遵循對比標題生成器(CoCa)的方法,聯合訓練一個圖像標題生成器,該生成器具有CLIP架構和一個語言模型目標。這個圖像標題生成器結合了一個圖像編碼器、一個單模態文本編碼器用於提取語言信息,以及一個多模態文本解碼器。它首先使用單模態圖像和文本嵌入之間的對比損失,然後是多模態解碼器輸出的標題生成損失。進一步在詳細描述圖像的主要對象、周圍環境、背景、文本、風格和顏色方面進行微調後,圖像標題生成器能夠爲圖像生成詳細的描述性標題。文本到圖像模型的訓練數據集是由圖像標題生成器生成的重新標註數據集和真實人類編寫的數據混合而成,以確保模型能夠捕捉用戶輸入。這種圖像標題改進方法引入了一個潛在問題:實際用戶提示與訓練數據中的描述性圖像描述之間的不匹配。DALL·E 3通過上採樣來解決這個問題,其中LLMs被用來將簡短的用戶提示重寫爲詳細且冗長的指令。這確保了模型在推理時接收到的文本輸入與模型訓練中的輸入一致。

3.4.3 文本到視頻

爲了增強指令遵循能力,Sora採用了類似的標題改進方法。該方法首先通過訓練一個能夠爲視頻生成詳細描述的視頻標題生成器來實現。然後,將這個視頻標題生成器應用於訓練數據中的所有視頻,以生成高質量的(視頻,描述性標題)對,這些對被用來微調Sora,以提高其指令遵循能力。Sora的技術報告沒有透露視頻標題生成器是如何訓練的。鑑於視頻標題生成器是一個視頻到文本的模型,構建它有許多方法。一種直接的方法是利用CoCa架構進行視頻標題生成,通過取視頻的多個幀並將每個幀輸入到圖像編碼器,稱爲VideoCoCa。VideoCoCa基於CoCa,並重用預訓練的圖像編碼器權重,獨立地應用於採樣的視頻幀。結果產生的幀令牌嵌入被展平並連接成一個長序列的視頻表示。這些展平的幀令牌隨後被一個生成性池化器和一個對比性池化器處理,這兩者與對比損失和標題生成損失一起聯合訓練。構建視頻標題生成器的其他替代方法包括mPLUG-2、GIT、FrozenBiLM等。最後,爲了確保用戶提示與訓練數據中的描述性標題格式一致,Sora執行了一個額外的提示擴展步驟,其中GPT-4V被用來將用戶輸入擴展爲詳細的描述性提示。

3.4.4 討論

對於Sora來說,遵循指令的能力對於生成忠實於用戶意圖的、包含複雜場景的一分鐘長視頻至關重要。根據Sora的技術報告,這種能力是通過上述方法獲得的。通過開發一個能夠生成長而詳細的標題的字幕器,然後用這些標題來訓練模型。然而,收集用於訓練此類字幕器的數據的過程是未知的,且可能需要大量勞動,因爲它可能需要視頻的詳細描述。此外,描述性視頻字幕器可能會虛構視頻的重要細節。我們認爲,如何改進視頻字幕器值得進一步研究,並且對於增強文本到圖像模型的遵循指令能力至關重要。

3.5 提示工程

提示工程指的是設計和完善提供給AI系統的輸入的過程,特別是在生成模型的背景下,以實現特定的或優化的輸出。提示工程的藝術和科學涉及以一種引導模型產生儘可能準確、相關和連貫響應的方式來構建這些輸入。

3.5.1 文本提示

文本提示工程對於指導文本到視頻模型(例如,Sora)生成在視覺上引人注目同時精確滿足用戶規格的視頻至關重要。這涉及到制定詳細描述,以指導模型有效地彌合人類創造力和AI執行能力之間的差距。Sora的提示涵蓋了廣泛的場景。最近的工作(例如,VoP、Make-A-Video和Tune-A-Video)展示了提示工程如何利用模型的自然語言理解能力來解碼複雜指令,並將它們渲染成連貫、生動和高質量的視頻敘述。如圖15所示,“一個穿着時尚的女人走在霓虹燈照亮的東京街道上...”是一個精心製作的文本提示,它確保Sora生成的視頻與預期視覺良好對齊。提示工程的質量取決於對詞語的仔細選擇、提供的細節的具體性,以及理解它們對模型輸出的影響。例如,圖15中的提示詳細指定了場景的動作、設置、角色外觀,甚至是期望的情緒和氛圍。

圖15:一個關於文本到視頻生成的提示工程案例研究,使用顏色編碼來劃分創造過程。藍色高亮的文本描述了Sora生成的元素,如對一個時尚女性的描繪。相比之下,黃色的文本強調了模型對動作、設置和角色外觀的解釋,展示了一個精心製作的提示是如何轉化爲生動和動態的視頻敘述的。

3.5.2 圖像提示

圖像提示作爲即將生成視頻的內容和其他元素(如角色、設置和情緒)的視覺錨點。此外,文本提示可以指導模型通過添加運動層、互動和敘事進展等來使這些元素動起來,從而使靜態圖像變得生動。通過利用視覺和文本信息,圖像提示允許Sora將靜態圖像轉換爲動態、敘事驅動的視頻。在圖16中,我們展示了使用DALL·E生成的圖像提示Sora的AI生成視頻的例子,如“一個戴貝雷帽和高領衫的柴犬”、“一個獨特的怪物家庭”、“形成‘SORA’字樣的雲”和“衝浪者在一個歷史悠久的大廳內導航巨浪”。這些例子展示了通過向Sora提示DALL·E生成的圖像可以實現什麼。

圖16:這個例子展示了圖像提示指導Sora的文本到視頻模型生成的過程。紅色框體視覺上錨定了每個場景的關鍵元素——不同設計的怪物、拼寫“SORA”的雲形成和在華麗大廳面對巨大海浪的衝浪者。

3.5.3 視頻提示

如[82, 83]所示,視頻提示也可以用於視頻生成。最近的工作(例如,Moonshot和Fast-Vid2Vid)顯示,好的視頻提示需要具體且靈活。這確保模型在特定目標上獲得清晰的指導,如特定對象和視覺主題的描繪,並且還允許在最終輸出中進行富有想象力的變化。例如,在視頻擴展任務中,提示可以指定方向(向前或向後時間)和擴展的上下文或主題。在圖17(a)中,視頻提示指導Sora向時間倒退擴展視頻,以探索導致原始起點的事件。在通過視頻提示進行視頻到視頻編輯時,如圖17(b)所示,模型需要清楚地理解所需的轉變,如改變視頻的風格、設置或氛圍,或改變細微方面,如照明或情緒。在圖17(c)中,提示指導Sora連接視頻,同時確保不同場景中的對象之間平滑過渡。

3.5.4 討論

提示工程允許用戶指導AI模型生成與他們的意圖一致的內容。例如,文本、圖像和視頻提示的綜合使用使Sora能夠創建的內容不僅在視覺上引人注目,而且與用戶的期望和意圖良好對齊。儘管之前的提示工程研究主要集中在LLMs和LVMs的文本和圖像提示上,但我們預計對視頻生成模型的視頻提示將會越來越受到關注。

3.6 可信度

隨着ChatGPT、GPT4-V和Sora等複雜模型的快速發展,這些模型的能力得到了顯著增強。這些發展爲提高工作效率和推動技術進步做出了重大貢獻。然而,這些進步也引發了對這些技術潛在濫用的擔憂,包括生成假新聞、隱私泄露和倫理困境。因此,在大型模型中的可信度問題已經從學術界和工業界獲得了廣泛關注,成爲當代研究討論的焦點。

圖17:這些示例展示了Sora模型的視頻提示技術:(a)視頻擴展,模型將序列向原始素材的反方向外推;(b)視頻編輯,根據文本提示,特定元素如場景被轉換;以及(c)視頻連接,兩個不同的視頻提示被無縫融合以創建連貫的敘述。每個過程都由一個視覺錨點指導,用紅色框標記,確保生成的視頻內容連續性和精確性。

3.6.1 安全問題

一個主要關注點是模型的安全性,特別是其抵抗濫用和所謂的“越獄”攻擊的能力,用戶試圖利用漏洞生成禁止或有害內容[96, 97, 98, 99, 100, 101, 102, 103, 104, 105]。例如,AutoDAN[103],一種基於梯度技術的新型可解釋對抗攻擊方法,被引入以實現系統繞過。在最近的一項研究中,研究人員探討了大型語言模型(LLMs)難以抵抗越獄攻擊的兩個原因:目標衝突和泛化不匹配[106]。除了文本攻擊外,視覺越獄也威脅到多模態模型的安全(例如,GPT-4V[90]和Sora[3])。最近的一項研究[107]發現,大型多模態模型更容易受到攻擊,因爲額外的視覺輸入的連續性和高維性使其對對抗攻擊更加脆弱,代表了擴大的攻擊面。

3.6.2 其他利用

由於大型基礎模型(例如,ChatGPT[89]和Sora[3])的訓練數據集規模和訓練方法,這些模型的真實性需要得到增強,因爲相關問題如幻覺已被廣泛討論[108]。在這個上下文中,幻覺指的是模型傾向於生成看似令人信服但是無根據或虛假的迴應[96]。這一現象提出了關於模型輸出可靠性和可信度的關鍵問題,需要採取全面的方法來評估和解決這一問題。已有大量研究致力於從各個角度剖析幻覺問題。這包括旨在評估不同模型和場景中幻覺的程度和性質的努力[109, 96, 110, 111]。這些評估提供了寶貴的見解,說明了幻覺如何以及爲什麼發生,爲制定減少其發生的策略奠定了基礎。同時,大量研究集中於設計和實施方法以減少這些大型模型中的幻覺[112, 113, 114]。

另一個關於可信度的重要方面是公平性和偏見。開發不會傳播或加劇社會偏見的模型的重要性是一個至關重要的關注點。這一優先事項源於這樣的認識:這些模型中編碼的偏見可以加強現有的社會不平等,導致歧視性結果。在這一領域的研究,如Gallegos等人[115]、張等人[116]、樑等人[117]和Friedrich等人[118]的工作,致力於這些固有偏見的細緻識別和糾正。目標是培養公平運作的模型,公平對待所有個體,不對種族、性別或其他敏感屬性持有偏見。這不僅涉及檢測和減輕數據集中的偏見,還包括設計能夠主動對抗這些偏見傳播的算法[119, 120]。

隱私保護成爲部署這些模型時的另一個基礎支柱。在數據隱私關切日益升高的時代,保護用戶數據的重點從未如此關鍵。公衆對個人數據處理方式的日益關注和擔憂促使對大型模型進行了更嚴格的評估。這些評估關注模型保護用戶數據的能力,確保個人信息保持機密,不會無意中泄露。Mireshghallah等人[121]、Plant等人[122]和Li等人[123]的研究代表了推進保護隱私的方法和技術的努力。

3.6.3 對齊

在應對這些挑戰時,確保大型模型的可信度已成爲研究人員的主要關切之一[124, 96, 99, 125]。最重要的技術之一是模型對齊[125, 126],它指的是確保模型的行爲和輸出與人類設計者的意圖和倫理標準一致的過程和目標。這涉及技術的發展、其道德責任和社會價值。在大型語言模型(LLMs)領域,使用人類反饋的強化學習(RLHF)[127, 128]方法已被廣泛應用於模型對齊。這種方法結合了強化學習(RL)和直接人類反饋,允許模型更好地與人類的期望和標準對齊,以理解和執行任務。

3.6.4 討論

從Sora(特別是其技術報告)中,我們總結了一些有見地的發現,這些發現可能爲未來的工作提供有益的指導:

模型和外部安全的綜合保護:隨着模型變得更強大,特別是在內容生成方面,確保它們不被濫用來生產有害內容(如仇恨言論[129]和虛假信息[92, 91])已成爲一個嚴峻的挑戰。除了對模型本身進行調整外,外部安全保護同樣重要。這包括內容過濾和審查機制、使用權限和訪問控制、數據隱私保護,以及在透明度和可解釋性方面的增強。例如,OpenAI現在使用檢測分類器來判斷給定視頻是否由Sora生成[130]。此外,還部署了文本分類器來檢測潛在有害的文本輸入[130]。

多模態模型的安全挑戰:多模態模型,如文本到視頻模型Sora,由於其理解和生成各種類型內容(文本、圖像、視頻等)的能力,給安全帶來額外的複雜性。多模態模型可以以各種形式生產內容,增加了濫用和版權問題的方式和範圍。由於多模態模型生成的內容更加複雜和多樣,傳統的內容驗證和真實性方法可能不再有效。這要求開發新的技術和方法來識別和過濾這些模型生成的有害內容,增加了監管和管理的難度。

跨學科合作的需求:確保模型的安全不僅是一個技術問題,還需要跨學科合作。爲了應對這些挑戰,來自各個領域的專家,如法律[131]和心理學[132],需要共同努力制定適當的規範(例如,什麼是安全的,什麼是不安全的?)、政策和技術解決方案。跨學科合作的需求顯著增加了解決這些問題的複雜性。

4 應用

圖18:Sora的應用。

隨着Sora等視頻擴散模型作爲前沿技術的興起,它們在不同研究領域和行業中的採用正在迅速加速。這項技術的影響遠遠超出了簡單的視頻創作,爲從自動化內容生成到複雜決策過程的任務提供了變革性的潛力。在本節中,我們將深入探討視頻擴散模型當前的應用情況,重點介紹Sora不僅展示了其能力,而且還革新瞭解決複雜問題方法的關鍵領域。我們旨在爲實際部署場景提供一個廣闊的視角(見圖18)。

4.1 電影

傳統上,創作電影傑作是一個艱鉅且昂貴的過程,通常需要數十年的努力、尖端設備和大量的財務投資。然而,先進視頻生成技術的出現預示着電影製作的新時代,一個從簡單文本輸入自主製作電影的夢想正在成爲現實的時代。研究人員通過將視頻生成模型擴展到電影製作領域,MovieFactory[133]應用擴散模型從ChatGPT[89]生成的詳細劇本生成電影風格的視頻,代表了一次重大飛躍。在後續中,MobileVidFactory[134]可以僅根據用戶提供的簡單文本自動生成垂直移動視頻。Vlogger[135]使用戶能夠組成一分鐘長的視頻博客。這些發展,以Sora輕鬆生成引人入勝的電影內容的能力爲典範,標誌着電影製作民主化的關鍵時刻。它們展示了一個未來的畫面,任何人都可以成爲電影製作者,顯著降低了進入電影行業的門檻,並引入了將傳統敘事與AI驅動的創造力相結合的電影製作新維度。這些技術的影響不僅僅是簡化,它們承諾將重塑電影製作的格局,使其在不斷變化的觀衆偏好和分發渠道面前變得更加易於訪問和多樣化。

4.2 教育

教育內容的格局長期以來一直被靜態資源所主導,儘管它們具有價值,但往往無法滿足當今學生多樣化的需求和學習風格。視頻擴散模型站在教育革命的前沿,提供了前所未有的機會,以顯著增強學習者的參與度和理解力,定製和動態化教育材料。這些先進技術使教育者能夠將文本描述或課程大綱轉化爲針對個別學習者的特定風格和興趣量身定製的動態、引人入勝的視頻內容[136, 137, 138, 139]。此外,圖像到視頻編輯技術[140, 141, 142]提供了將靜態教育資產轉換爲互動視頻的創新途徑,從而支持一系列學習偏好,並有可能增加學生的參與度。通過將這些模型整合到教育內容創作中,教育者可以就廣泛的主題製作視頻,使複雜概念對學生更加易於理解和吸引人。Sora在教育領域的應用體現了這些技術的變革潛力。這種轉向個性化、動態教育內容的轉變預示着教育的新時代。

4.3 遊戲

遊戲行業不斷尋求推動現實主義和沉浸感的界限,然而傳統遊戲開發經常與預渲染環境和腳本事件的限制作鬥爭。擴散模型生成的動態、高保真視頻內容和實時效果的真實聲音,承諾克服現有限制,爲開發者提供創建響應玩家行動和遊戲事件的不斷髮展的遊戲環境的工具[143, 144]。這可能包括生成變化的天氣條件、變換的景觀,甚至即興創造全新的設置,使遊戲世界更加沉浸和響應。一些方法[145, 146]還從視頻輸入中合成真實的衝擊聲音,增強遊戲音頻體驗。通過將Sora整合到遊戲領域,可以創造前所未有的沉浸式體驗,吸引並吸引玩家。遊戲的開發、玩法和體驗將得到創新,同時爲敘事、互動和沉浸打開新的可能性。

4.4 醫療保健

儘管具有生成能力,視頻擴散模型在理解和生成複雜視頻序列方面表現出色,使它們特別適合識別身體內的動態異常,如早期細胞凋亡[147]、皮膚病變進展[148]和不規則人體運動[149],這對於早期疾病檢測和干預策略至關重要。此外,像MedSegDiffV2[150]和[151]這樣的模型利用變壓器的力量,以前所未有的精度對醫學圖像進行分割,使臨牀醫生能夠在各種成像模式中準確地定位感興趣的區域。將Sora整合到臨牀實踐中,不僅承諾改進診斷過程,還提供基於精確醫學成像分析的個性化患者護理。然而,這種技術整合帶來了自身的一系列挑戰,包括需要強大的數據隱私措施和解決醫療保健中的倫理考慮。

4.5 機器人

視頻擴散模型在機器人學中扮演着重要角色,展示了一個新時代,其中機器人可以生成和解釋複雜視頻序列,以增強感知[152, 153]和決策[154, 155, 156]。這些模型爲機器人解鎖了新的能力,使它們能夠與環境互動並以前所未有的複雜性和精確度執行任務。將網絡規模的擴散模型引入機器人學[152]展示了利用大規模模型增強機器人視覺和理解的潛力。潛在擴散模型用於語言指導的視頻預測[157],通過預測視頻格式中動作的結果,使機器人能夠理解和執行任務。此外,對於機器人研究依賴模擬環境的問題,已通過能夠創建高度逼真視頻序列的視頻擴散模型得到了創新性的解決[158, 159]。這使得能夠爲機器人生成多樣化的訓練場景,減輕了現實世界數據稀缺所帶來的限制。我們相信,像Sora這樣的技術整合到機器人領域,預示着突破性的發展。通過利用Sora的力量,機器人的未來正迎來前所未有的進步,機器人能夠無縫地導航和與環境互動。

5 討論

Sora展現出了精確理解和執行人類複雜指令的非凡才能。這個模型擅長創建具有各種角色的詳細視頻,所有這些都設置在精心製作的環境中。Sora的一個特別令人印象深刻的屬性是其能夠製作長達一分鐘的視頻,同時確保一致且引人入勝的敘事。這標誌着相比之前專注於更短視頻片段的嘗試,Sora的擴展序列展現了清晰的敘事流程,並從頭到尾保持視覺一致性。此外,Sora通過生成捕捉複雜動作和互動的更長視頻序列,超越了早期模型只能處理短片和基本圖像的限制。這一進步在AI驅動的創意工具中標誌着重大步伐,使用戶能夠將書面故事轉化爲生動的視頻,達到以前無法實現的細節和複雜度水平。

5.1 限制

物理現實性的挑戰。作爲一個模擬平臺,Sora展現出一系列限制,這些限制削弱了其準確描繪複雜場景的有效性。最重要的是它在處理複雜場景中的物理原理時的不一致性,導致無法準確複製特定示例的因果關係。例如,吃掉一部分餅乾可能不會產生相應的咬痕,說明系統偶爾偏離物理的可能性。這個問題擴展到運動的模擬,其中Sora生成的運動挑戰了現實的物理建模,如物體的不自然變化或椅子等剛性結構的錯誤模擬,導致不現實的物理互動。當模擬物體和角色之間的複雜互動時,挑戰進一步增加,偶爾產生傾向於幽默的結果。

空間和時間的複雜性。Sora偶爾誤解與給定提示中的物體和角色的放置或排列相關的指令,導致對方向的混淆(例如,將左右弄反)。此外,它在保持事件的時間準確性方面面臨挑戰,特別是在遵循指定的攝像機移動或序列時。這可能導致偏離場景預期的時間流。在涉及多個角色或元素的複雜場景中,Sora傾向於插入不相關的動物或人物。這樣的添加可以顯著改變最初設想的場景構成和氛圍,偏離計劃的敘事或視覺佈局。這個問題不僅影響模型準確重現特定場景或敘事的能力,也影響其生成與用戶期望和生成輸出的連貫性緊密對齊的內容的可靠性。

人機交互(HCI)的限制。Sora在視頻生成領域顯示出潛力,但在HCI方面面臨重大限制。這些限制主要體現在用戶系統互動的連貫性和效率上,特別是在對生成內容進行詳細修改或優化時。例如,用戶可能發現很難精確指定或調整視頻中特定元素的呈現,如動作細節和場景轉換。此外,Sora在理解複雜的語言指令或捕捉微妙的語義差異方面的限制可能導致在視頻內容方面,若不能完全滿足用戶的期望或需求,這些不足之處限制了Sora在視頻編輯和增強方面的潛力,也影響了用戶體驗的整體滿意度。

使用限制。關於使用限制,OpenAI尚未爲Sora公開訪問設定具體的發佈日期,強調在廣泛部署之前對安全性和準備情況採取謹慎的態度。這表明Sora可能仍需要在安全性、隱私保護和內容審查等領域進行進一步的改進和測試。此外,目前Sora只能生成長達一分鐘的視頻,根據已發佈的案例,大多數生成的視頻僅有幾十秒長。這一限制限制了其在需要較長內容展示的應用中的使用,例如詳細的教學視頻或深入的故事講述。這一限制減少了Sora在內容創作中的靈活性。

5.2機遇

學術界。(1) OpenAI推出Sora標誌着向鼓勵更廣泛的AI社區深入探索文本到視頻模型的戰略轉變,利用擴散和變換器技術。這一舉措旨在將焦點轉向直接從文本描述創建高度複雜和細膩視頻內容的潛力,這是一個有望徹底改變內容創作、講故事和信息分享的前沿。(2) 以其原生大小對Sora進行訓練的創新方法,與傳統的調整大小或裁剪方法相反,爲學術界提供了突破性的靈感。它通過強調使用未修改數據集的好處,開闢了新的路徑,這導致了更高級的生成模型的創建。

行業。(1) Sora目前的能力預示着視頻模擬技術進步的有希望的道路,突出了在物理和數字領域內顯著增強現實感的潛力。Sora通過文本描述創建高度逼真環境的前景爲內容創作提供了充滿希望的未來。這一潛力擴展到了革命性地改變遊戲開發,提供了一個未來的窺視,其中沉浸式生成的世界可以以前所未有的便捷性和準確性被創造。(2) 公司可以利用Sora生產迅速適應市場變化的廣告視頻,並創建定製化的營銷內容。這不僅降低了生產成本,還增強了廣告的吸引力和效果。Sora僅憑文本描述就能生成高度逼真的視頻內容的能力,可能會徹底改變品牌與其受衆互動的方式,允許創造沉浸式和引人入勝的視頻,以前所未有的方式捕捉其產品或服務的精髓。

社會。(1) 雖然利用文本到視頻技術替代傳統電影製作的前景仍然遙遠,但Sora和類似平臺對社交媒體上的內容創作具有變革性的潛力。當前視頻長度的限制並未減少這些工具在使高質量視頻製作普及化方面可以產生的影響,使個人能夠在無需昂貴設備的情況下製作引人入勝的內容。這代表了向賦予像TikTok和Reels這樣的平臺上的內容創作者更多權力的重大轉變,開啓了創意和參與的新時代。(2) 編劇和創意專業人士可以使用Sora將書面劇本轉換爲視頻,幫助他們更好地展示和分享他們的創意概念,甚至製作短片和動畫。從劇本創建詳細、生動的視頻的能力可以從根本上改變電影製作和動畫的前期製作過程,提供了一個窺視未來的故事講述者如何提案、開發和完善他們敘述的方式。這項技術爲腳本開發提供了一種更動態和互動的形式,其中想法可以實時可視化和評估,爲創意和協作提供了強大的工具。(3) 記者和新聞機構也可以利用Sora快速生成新聞報道或解釋性視頻,使新聞內容更加生動和吸引人。這可以顯著增加新聞報道的覆蓋範圍和觀衆參與度。通過提供一個可以模擬逼真環境和場景的工具,Sora爲視覺敘事提供了強大的解決方案。使記者能夠通過吸引人的視頻傳達以前難以製作或成本高昂的複雜故事。總之,Sora在跨越市場營銷、新聞業和娛樂業的內容創作方面革命性的潛力是巨大的。

6 結論

我們提供了對Sora的全面審查,以幫助開發者和研究人員研究Sora的能力和相關工作。該審查基於我們對已發佈的技術報告的調查和基於現有文獻的逆向工程。當Sora的API可用且有關Sora的更多細節被揭露時,我們將繼續更新本文。我們希望這篇綜述論文能爲開源研究社區提供寶貴的資源,併爲社區在不久的將來共同開發一個開源版本的Sora奠定基礎,以在AIGC時代民主化視頻自動創作。爲了實現這一目標,我們邀請在所有方面進行討論、建議和合作。

參考文獻

(注:論文英文名可見原文)

[1] OpenAI, “Chatgpt: 獲取即時答案,尋找創意靈感,學習新事物。” https://openai.com/chatgpt, 2022。

[2] OpenAI, “Gpt-4技術報告”,2023。

[3] OpenAI, “Sora: 從文本創建視頻。” https://openai.com/sora, 2024。

[4] W. Peebles 和 S. Xie, “使用變壓器的可擴展擴散模型”,在IEEE/CVF國際計算機視覺會議論文集中,第4195-4205頁,2023。

[5] A. A. Efros 和 T. K. Leung, “通過非參數採樣的紋理合成”,在第七屆IEEE國際計算機視覺會議論文集中,第2卷,第1033-1038頁,IEEE,1999。

[6] P. S. Heckbert, “紋理映射概述”,IEEE計算機圖形學及應用,第6卷,第11期,第56-67頁,1986。

[7] I. J. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, 和 Y. Bengio, “生成對抗網絡”,arXiv,2014。

[8] D. P. Kingma 和 M. Welling, “自動編碼變分貝葉斯”,arXiv預印本arXiv:1312.6114,2013。

[9] L. Dinh, D. Krueger, 和 Y. Bengio, “Nice: 非線性獨立成分估計”,arXiv預印本arXiv:1410.8516,2014。

[10] Y. Song 和 S. Ermon, “通過估計數據分佈的梯度進行生成建模”,在神經信息處理系統進展中,第32卷,2019。

[11] Y. Cao, S. Li, Y. Liu, Z. Yan, Y. Dai, P. S. Yu, 和 L. Sun, “AI生成內容的全面調查(AIGC):從GAN到ChatGPT的生成AI歷史”,arXiv預印本arXiv:2303.04226,2023。

[12] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. u. Kaiser, 和 I. Polosukhin, “只需注意力”,在神經信息處理系統進展中(I. Guyon, U. V. Luxburg, S. Bengio, H. Wallach, R. Fergus, S. Vishwanathan, 和 R. Garnett, 編輯),第30卷,Curran Associates, Inc., 2017。

[13] J. Devlin, M.-W. Chang, K. Lee, 和 K. Toutanova, “Bert: 深度雙向變壓器的語言理解預訓練”,arXiv預印本arXiv:1810.04805,2018。

[14] A. Radford, K. Narasimhan, T. Salimans, I. Sutskever, 等, “通過生成預訓練提高語言理解”,2018。

[15] A. Dosovitskiy, L. Beyer, A. Kolesnikov, D. Weissenborn, X. Zhai, T. Unterthiner, M. Dehghani, M. Minderer, G. Heigold, S. Gelly, 等, “一幅圖像值得16x16個詞:變壓器在大規模圖像識別中的應用”,arXiv預印本arXiv:2010.11929,2020。

[16] Z. Liu, Y. Lin, Y. Cao, H. Hu, Y. Wei, Z. Zhang, S. Lin, 和 B. Guo, “Swin變壓器:使用移動窗口的分層視覺變壓器”,在IEEE/CVF國際計算機視覺會議論文集中,第10012-10022頁,2021。

[17] O. Ronneberger, P. Fischer, 和 T. Brox, “U-net: 用於生物醫學圖像分割的卷積網絡”,在醫學圖像計算和計算機輔助干預-MICCAI 2015:第18屆國際會議,慕尼黑,德國,2015年10月5-9日,論文集,第三部分18,第234-241頁,Springer,2015。

[18] A. Radford, J. W. Kim, C. Hallacy, A. Ramesh, G. Goh, S. Agarwal, G. Sastry, A. Askell, P. Mishkin, J. Clark, G. Krueger, 和 I. Sutskever, “從自然語言監督中學習可轉移的視覺模型”,2021。

[19] R. Rombach, A. Blattmann, D. Lorenz, P. Esser, 和 B. Ommer, “高分辨率圖像合成與潛在擴散模型”,在IEEE/CVF計算機視覺和模式識別會議論文集中,第10684-10695頁,2022。

[20] M. AI, “Midjourney: 使用AI藝術生成器從文本到圖像。” https://www.midjourneyai.ai/en, 2023。

[21] J. Betker, G. Goh, L. Jing, T. Brooks, J. Wang, L. Li, L. Ouyang, J. Zhuang, J. Lee, Y. Guo, 等, “通過更好的標題改善圖像生成”,計算機科學。https://cdn.openai.com/papers/dall-e-3.pdf,第2卷,第3頁,2023。

[22] P. AI, “Pika是將您的創意付諸行動的從想法到視頻的平臺。” https://pika.art/home,2023。

[23] R. AI, “Gen-2: 生成AI的下一步。” https://research.runwayml.com/gen2,2023。

[24] X. Zhai, A. Kolesnikov, N. Houlsby, 和 L. Beyer, “擴展視覺變壓器”,在IEEE/CVF計算機視覺和模式識別會議論文集中,第12104-12113頁,2022。

[25] M. Dehghani, J. Djolonga, B. Mustafa, P. Padlewski, J. Heek, J. Gilmer, A. P. Steiner, M. Caron, R. Geirhos, I. Alabdulmohsin, 等, “將視覺變壓器擴展到220億參數”,在國際機器學習會議論文集中,第7480-7512頁,PMLR,2023。

[26] A. Radford, J. W. Kim, C. Hallacy, A. Ramesh, G. Goh, S. Agarwal, G. Sastry, A. Askell, P. Mishkin, J. Clark, 等, “從自然語言監督中學習可轉移的視覺模型”,在國際機器學習會議論文集中,第8748-8763頁,PMLR,2021。

[27] A. Blattmann, T. Dockhorn, S. Kulal, D. Mendelevitch, M. Kilian, D. Lorenz, Y. Levi, Z. English, V. Voleti, A. Letts, 等, “穩定視頻擴散:將潛在視頻擴散模型擴展到大型數據集”,arXiv預印本arXiv:2311.15127,2023。[28] U. Singer, A. Polyak, T. Hayes, X. Yin, J. An, S. Zhang, Q. Hu, H. Yang, O. Ashual, O. Gafni, D. Parikh, S. Gupta, 和 Y. Taigman, “無需文本視頻數據的文本到視頻生成”,2022年。

[29] J. Ho, W. Chan, C. Saharia, J. Whang, R. Gao, A. Gritsenko, D. P. Kingma, B. Poole, M. Norouzi, D. J. Fleet 等,“Imagen video: 使用擴散模型生成高清視頻”,arXiv預印本arXiv:2210.02303,2022年。

[30] R. Sutton, “苦澀的教訓”。http://www.incompleteideas.net/IncIdeas/BitterLesson.html,2019年3月。訪問日期:您的訪問日期在此。

[31] S. Xie, “關於sora技術報告的看法”。https://twitter.com/sainingxie/status/1758433676105310543,2024年。

[32] A. Van Den Oord, O. Vinyals 等,“神經離散表示學習”,在神經信息處理系統進展中,第30卷,2017年。

[33] K. He, X. Chen, S. Xie, Y. Li, P. Dollár, 和 R. Girshick, “掩蔽自編碼器是可擴展的視覺學習者”,在IEEE/CVF計算機視覺與模式識別會議論文集中,第16000-16009頁,2022年。

[34] S. Ge, S. Nah, G. Liu, T. Poon, A. Tao, B. Catanzaro, D. Jacobs, J.-B. Huang, M.-Y. Liu, 和 Y. Balaji,“保留你自己的相關性:視頻擴散模型的噪聲先驗”,在IEEE/CVF國際計算機視覺會議論文集中,第22930-22941頁,2023年。

[35] A. Sauer, D. Lorenz, A. Blattmann, 和 R. Rombach, “對抗性擴散蒸餾”,arXiv預印本arXiv:2311.17042,2023年。

[36] A. Blattmann, R. Rombach, H. Ling, T. Dockhorn, S. W. Kim, S. Fidler, 和 K. Kreis, “對齊你的潛變量:使用潛在擴散模型的高分辨率視頻合成”,在IEEE/CVF計算機視覺與模式識別會議論文集中,第22563-22575頁,2023年。

[37] M. Ryoo, A. Piergiovanni, A. Arnab, M. Dehghani, 和 A. Angelova, “Tokenlearner:視頻的自適應時空標記化”,在神經信息處理系統進展中,第34卷,第12786-12797頁,2021年。

[38] A. Arnab, M. Dehghani, G. Heigold, C. Sun, M. Lučić, 和 C. Schmid, “Vivit:一個視頻視覺變換器”,arXiv預印本arXiv:2103.15691,2021年。

[39] L. Beyer, P. Izmailov, A. Kolesnikov, M. Caron, S. Kornblith, X. Zhai, M. Minderer, M. Tschannen, I. Alabdulmohsin, 和 F. Pavetic, “Flexivit:適用於所有補丁大小的模型”,在IEEE/CVF計算機視覺與模式識別會議論文集中,第14496-14506頁,2023年。

[40] M. Dehghani, B. Mustafa, J. Djolonga, J. Heek, M. Minderer, M. Caron, A. Steiner, J. Puigcerver, R. Geirhos, I. M. Alabdulmohsin 等,“Patch n’pack:Navit,一個適用於任何寬高比和分辨率的視覺變換器”,在神經信息處理系統進展中,第36卷,2024年。

[41] M. M. Krell, M. Kosec, S. P. Perez, 和 A. Fitzgibbon, “高效序列打包無交叉污染:加速大型語言模型而不影響性能”,arXiv預印本arXiv:2107.02027,2021年。

[42] H. Yin, A. Vahdat, J. M. Alvarez, A. Mallya, J. Kautz, 和 P. Molchanov, “A-vit:高效視覺變換器的自適應標記”,在IEEE/CVF計算機視覺與模式識別會議論文集中,第10809-10818頁,2022年。

[43] D. Bolya, C.-Y. Fu, X. Dai, P. Zhang, C. Feichtenhofer, 和 J. Hoffman, “標記合併:你的vit但更快”,在第十一屆國際學習表示會議中,2022年。

[44] M. Fayyaz, S. A. Koohpayegani, F. R. Jafari, S. Sengupta, H. R. V. Joze, E. Sommerlade, H. Pirsia- vash, 和 J. Gall, “自適應標記採樣用於高效視覺變換器”,在歐洲計算機視覺會議中,第396-414頁,Springer, 2022年。

[45] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, Ł. Kaiser, 和 I. Polosukhin, “注意力就是你所需要的”,在神經信息處理系統進展中,第30卷,2017年。

[46] G. Bertasius, H. Wang, 和 L. Torresani, “時空注意力就是你所需要的用於視頻理解嗎?”,在ICML中,第2卷,第4頁,2021年。

[47] L. Yu, J. Lezama, N. B. Gundavarapu, L. Versari, K. Sohn, D. Minnen, Y. Cheng, A. Gupta, X. Gu, A. G. Hauptmann 等,“語言模型勝過擴散-標記器是視覺生成的關鍵”,arXiv預印本arXiv:2310.05737,2023年。

[48] N. Shazeer, “快速變換器解碼:你所需要的只有一個寫頭”,2019年。

[49] J. Ainslie, J. Lee-Thorp, M. de Jong, Y. Zemlyanskiy, F. Lebrón, 和 S. Sanghai, “Gqa:從多頭檢查點訓練泛化的多查詢變換器模型”,arXiv預印本arXiv:2305.13245,2023年。

[50] A. Gu 和 T. Dao, “Mamba:具有選擇性狀態空間的線性時間序列建模”,arXiv預印本arXiv:2312.00752,2023年。

[51] J. Sohl-Dickstein, E. A. Weiss, N. Maheswaranathan, 和 S. Ganguli, “使用非平衡熱力學的深度無監督學習”,arXiv預印本arXiv:1503.03585,2015年。

[52] J. Ho, A. Jain, 和 P. Abbeel, “去噪擴散概率模型”,在神經信息處理系統進展中,第33卷,第6840-6851頁,2020年。

[53] Y. Song, J. Sohl-Dickstein, D. P. Kingma, A. Kumar, S. Ermon, 和 B. Poole, “通過隨機微分方程的得分基生成模型”,arXiv預印本arXiv:2011.13456,2020年。

[54] F. Bao, S. Nie, K. Xue, Y. Cao, C. Li, H. Su, 和 J. Zhu, “所有都值得一言:用於擴散模型的vit骨幹”,在IEEE/CVF計算機視覺與模式識別會議論文集(CVPR)中,2023年。

[55] S. Gao, P. Zhou, M.-M. Cheng, 和 S. Yan, “掩蔽擴散變換器是一個強大的圖像合成器”,arXiv預印本arXiv:2303.14389,2023年。

[56] A. Hatamizadeh, J. Song, G. Liu, J. Kautz, 和 A. Vahdat, “Diffit:用於圖像生成的擴散視覺變換器”,arXiv預印本arXiv:2312.02139,2023年。

[57] J. Ho 和 T. Salimans, “無分類器擴散指導”,arXiv預印本arXiv:2207.12598,2022年。

[58] T. Salimans 和 J. Ho, “漸進式蒸餾用於擴散模型的快速採樣”,arXiv預印本arXiv:2202.00512,2022年。

[59] J. Ho, C. Saharia, W. Chan, D. J. Fleet, M. Norouzi, 和 T. Salimans, “級聯擴散模型用於高保真圖像生成”,機器學習研究雜誌,第23卷,第1期,第2249-2281頁,2022年。[60] R. Rombach, A. Blattmann, D. Lorenz, P. Esser, 和 B. Ommer, “使用潛在擴散模型的高分辨率圖像合成”,2021年。

[61] D. Podell, Z. English, K. Lacey, A. Blattmann, T. Dockhorn, J. Müller, J. Penna, 和 R. Rombach, “Sdxl: 改進潛在擴散模型以合成高分辨率圖像”,arXiv預印本 arXiv:2307.01952,2023年。

[62] T. B. Brown, B. Mann, N. Ryder, M. Subbiah, J. Kaplan, P. Dhariwal, A. Neelakantan, P. Shyam, G. Sastry, A. Askell 等,“語言模型是少數樣本學習者”,arXiv,2020年。

[63] K. Zhou, J. Yang, C. C. Loy, 和 Z. Liu, “條件提示學習用於視覺-語言模型”,在 IEEE/CVF 計算機視覺與模式識別會議論文集中,第16816-16825頁,2022年。

[64] V. Sanh, A. Webson, C. Raffel, S. H. Bach, L. Sutawika, Z. Alyafeai, A. Chaffin, A. Stiegler, T. L. Scao, A. Raja 等,“多任務提示訓練實現零樣本任務泛化”,arXiv預印本 arXiv:2110.08207,2021年。

[65] J. Wei, M. Bosma, V. Y. Zhao, K. Guu, A. W. Yu, B. Lester, N. Du, A. M. Dai, 和 Q. V. Le,“微調語言模型是零樣本學習者”,arXiv預印本 arXiv:2109.01652,2021年。

[66] L. Ouyang, J. Wu, X. Jiang, D. Almeida, C. Wainwright, P. Mishkin, C. Zhang, S. Agarwal, K. Slama, A. Ray 等,“訓練語言模型根據人類反饋執行指令”,在神經信息處理系統進展中,第35卷,第27730-27744頁,2022年。

[67] C. Jia, Y. Yang, Y. Xia, Y.-T. Chen, Z. Parekh, H. Pham, Q. Le, Y.-H. Sung, Z. Li, 和 T. Duerig,“通過噪聲文本監督擴大視覺和視覺-語言表示學習”,在國際機器學習會議論文集中,第4904-4916頁,PMLR,2021年。

[68] J. Yu, Z. Wang, V. Vasudevan, L. Yeung, M. Seyedhosseini, 和 Y. Wu, “Coca: 對比性標題生成器是圖像-文本基礎模型”,arXiv預印本 arXiv:2205.01917,2022年。

[69] S. Yan, T. Zhu, Z. Wang, Y. Cao, M. Zhang, S. Ghosh, Y. Wu, 和 J. Yu, “視頻-文本建模與對比性標題生成器的零樣本遷移”,arXiv預印本 arXiv:2212.04979,2022年。

[70] H. Xu, Q. Ye, M. Yan, Y. Shi, J. Ye, Y. Xu, C. Li, B. Bi, Q. Qian, W. Wang 等,“mplug-2: 一個跨文本、圖像和視頻的模塊化多模態基礎模型”,arXiv預印本 arXiv:2302.00402,2023年。

[71] J. Wang, Z. Yang, X. Hu, L. Li, K. Lin, Z. Gan, Z. Liu, C. Liu, 和 L. Wang, “Git: 一個用於視覺和語言的生成圖像到文本變換器”,arXiv預印本 arXiv:2205.14100,2022年。

[72] A. Yang, A. Miech, J. Sivic, I. Laptev, 和 C. Schmid, “通過凍結的雙向語言模型進行零樣本視頻問答”,在神經信息處理系統進展中,第35卷,第124-141頁,2022年。

[73] Y. Li, “零樣本提示設計的實用調查,用於上下文學習”,在自然語言處理的大型語言模型會議最近進展論文集中,RANLP, INCOMA Ltd., Shoumen, 保加利亞,2023年。

[74] B. Chen, Z. Zhang, N. Langrené, 和 S. Zhu, “釋放大型語言模型中提示工程的潛力:一項全面回顧”,arXiv預印本 arXiv:2310.14735,2023年。

[75] S. Pitis, M. R. Zhang, A. Wang, 和 J. Ba, “大型語言模型的提升提示集合”,2023年。

[76] Y. Hao, Z. Chi, L. Dong, 和 F. Wei, “優化文本到圖像生成的提示”,2023年。

[77] S. Huang, B. Gong, Y. Pan, J. Jiang, Y. Lv, Y. Li, 和 D. Wang, “Vop: 文本-視頻合作提示調整用於跨模態檢索”,2023年。

[78] J. Z. Wu, Y. Ge, X. Wang, W. Lei, Y. Gu, Y. Shi, W. Hsu, Y. Shan, X. Qie, 和 M. Z. Shou, “Tune-a-video: 一次性調整圖像擴散模型用於文本到視頻生成”,2023年。

[79] T. Lüddecke 和 A. Ecker, “使用文本和圖像提示的圖像分割”,在 IEEE/CVF 計算機視覺與模式識別會議論文集中,第7086-7096頁,2022年6月。

[80] X. Chen, Y. Wang, L. Zhang, S. Zhuang, X. Ma, J. Yu, Y. Wang, D. Lin, Y. Qiao, 和 Z. Liu, “Seine: 用於生成過渡和預測的短到長視頻擴散模型”,2023年。

[81] H. Chen, Y. Zhang, X. Cun, M. Xia, X. Wang, C. Weng, 和 Y. Shan, “Videocrafter2: 克服數據限制以實現高質量視頻擴散模型”,2024年。

[82] T.-C. Wang, M.-Y. Liu, J.-Y. Zhu, G. Liu, A. Tao, J. Kautz, 和 B. Catanzaro, “視頻到視頻合成”,2018年。

[83] T.-C. Wang, M.-Y. Liu, A. Tao, G. Liu, J. Kautz, 和 B. Catanzaro, “少樣本視頻到視頻合成”,2019年。

[84] D. J. Zhang, D. Li, H. Le, M. Z. Shou, C. Xiong, 和 D. Sahoo, “Moonshot: 朝向可控視頻生成和編輯的多模態條件”,2024年。

[85] L. Zhuo, G. Wang, S. Li, W. Wu, 和 Z. Liu, “Fast-vid2vid: 用於視頻到視頻合成的空間-時間壓縮”,2022年。

[86] P. Liu, W. Yuan, J. Fu, Z. Jiang, H. Hayashi, 和 G. Neubig, “預訓練、提示和預測:自然語言處理中提示方法的系統調查”,2021年。

[87] B. Lester, R. Al-Rfou, 和 N. Constant, “規模的力量對於參數高效的提示調整”,在2021年自然語言處理實證方法會議論文集中,第3045-3059頁,2021年。

[88] M. Jia, L. Tang, B.-C. Chen, C. Cardie, S. Belongie, B. Hariharan, 和 S.-N. Lim, “視覺提示調整”,在歐洲計算機視覺會議論文集中,第709-727頁,Springer,2022年。

[89] OpenAI, “介紹chatgpt”,2023年。

[90] OpenAI, “Gpt-4v(視覺)系統卡片”,2023年。

[91] Y. Huang 和 L. Sun, “在假新聞中利用chatgpt的力量:生成、檢測和解釋的深入探索”,2023年。

[92] C. Chen 和 K. Shu, “可以檢測到由LLM生成的錯誤信息嗎?”,2023年。

[93] Z. Liu, Y. Huang, X. Yu, L. Zhang, Z. Wu, C. Cao, H. Dai, L. Zhao, Y. Li, P. Shu, F. Zeng, L. Sun, W. Liu, D. Shen, Q. Li, T. Liu, D. Zhu, 和 X. Li, “Deid-gpt: 通過gpt-4進行零樣本醫學文本去識別”,2023年。[94] J. Yao, X. Yi, X. Wang, Y. Gong, 和 X. Xie, “價值支點:將大型語言模型映射到基本人類價值的多維譜系中”,2023。

[95] Y. Huang, Q. Zhang, P. S. Y, 和 L. Sun, “Trustgpt:一個可信賴和負責任的大型語言模型基準”,2023。

[96] L. Sun, Y. Huang, H. Wang, S. Wu, Q. Zhang, C. Gao, Y. Huang, W. Lyu, Y. Zhang, X. Li, Z. Liu, Y. Liu, Y. Wang, Z. Zhang, B. Kailkhura, C. Xiong, C. Xiao, C. Li, E. Xing, F. Huang, H. Liu, H. Ji, H. Wang, H. Zhang, H. Yao, M. Kellis, M. Zitnik, M. Jiang, M. Bansal, J. Zou, J. Pei, J. Liu, J. Gao, J. Han, J. Zhao, J. Tang, J. Wang, J. Mitchell, K. Shu, K. Xu, K.-W. Chang, L. He, L. Huang, M. Backes, N. Z. Gong, P. S. Yu, P.-Y. Chen, Q. Gu, R. Xu, R. Ying, S. Ji, S. Jana, T. Chen, T. Liu, T. Zhou, W. Wang, X. Li, X. Zhang, X. Wang, X. Xie, X. Chen, X. Wang, Y. Liu, Y. Ye, Y. Cao, Y. Chen, 和 Y. Zhao, “Trustllm:大型語言模型中的可信度”,2024。

[97] M. Mazeika, L. Phan, X. Yin, A. Zou, Z. Wang, N. Mu, E. Sakhaee, N. Li, S. Basart, B. Li, D. Forsyth, 和 D. Hendrycks, “Harmbench:一個用於自動化紅隊操作和強健拒絕的標準化評估框架”,2024。

[98] Y. Wang, H. Li, X. Han, P. Nakov, 和 T. Baldwin, “不回答:一個用於評估LLMs中安全防護的數據集”,2023。

[99] B. Wang, W. Chen, H. Pei, C. Xie, M. Kang, C. Zhang, C. Xu, Z. Xiong, R. Dutta, R. Schaeffer, 等,“Decodingtrust:GPT模型中信任度的全面評估”,arXiv預印本arXiv:2306.11698,2023。

[100] Z. Zhang, L. Lei, L. Wu, R. Sun, Y. Huang, C. Long, X. Liu, X. Lei, J. Tang, 和 M. Huang, “Safetybench:使用多項選擇題評估大型語言模型的安全性”,2023。

[101] X. Shen, Z. Chen, M. Backes, Y. Shen, 和 Y. Zhang, “現在就做任何事:在大型語言模型上表徵和評估野外越獄提示”,arXiv預印本arXiv:2308.03825,2023。

[102] X. Liu, N. Xu, M. Chen, 和 C. Xiao, “Autodan:在對齊的大型語言模型上生成隱蔽的越獄提示”,arXiv預印本arXiv:2310.04451,2023。

[103] S. Zhu, R. Zhang, B. An, G. Wu, J. Barrow, Z. Wang, F. Huang, A. Nenkova, 和 T. Sun, “Autodan:對大型語言模型的可解釋梯度基對抗攻擊”,2023。

[104] A. Zhou, B. Li, 和 H. Wang, “針對越獄攻擊保護語言模型的強健提示優化”,arXiv預印本arXiv:2401.17263,2024。

[105] X. Guo, F. Yu, H. Zhang, L. Qin, 和 B. Hu, “Cold-attack:用隱蔽性和可控性越獄LLMs”,2024。

[106] A. Wei, N. Haghtalab, 和 J. Steinhardt, “越獄了:LLM安全訓練如何失敗?”,arXiv預印本arXiv:2307.02483,2023。

[107] Z. Niu, H. Ren, X. Gao, G. Hua, 和 R. Jin, “針對多模態大型語言模型的越獄攻擊”,2024。

[108] H. Liu, W. Xue, Y. Chen, D. Chen, X. Zhao, K. Wang, L. Hou, R. Li, 和 W. Peng, “關於大型視覺-語言模型中的幻覺的調查”,2024。

[109] T. Guan, F. Liu, X. Wu, R. Xian, Z. Li, X. Liu, X. Wang, L. Chen, F. Huang, Y. Yacoob, D. Manocha, 和 T. Zhou, “Hallusionbench:一個用於大型視覺-語言模型中糾纏的語言幻覺和視覺錯覺的高級診斷套件”,2023。

[110] Y. Li, Y. Du, K. Zhou, J. Wang, W. X. Zhao, 和 J.-R. Wen, “評估大型視覺-語言模型中的對象幻覺”,2023。

[111] Y. Huang, J. Shi, Y. Li, C. Fan, S. Wu, Q. Zhang, Y. Liu, P. Zhou, Y. Wan, N. Z. Gong, 等,“大型語言模型的Metatool基準:決定是否使用工具以及使用哪種工具”,arXiv預印本arXiv:2310.03128,2023。

[112] F. Liu, K. Lin, L. Li, J. Wang, Y. Yacoob, 和 L. Wang, “通過強健指令調整減輕大型多模態模型中的幻覺”,2023。

[113] L. Wang, J. He, S. Li, N. Liu, 和 E.-P. Lim, “通過用標題重寫微調大型視覺-語言模型來減輕細粒度幻覺”,在國際多媒體建模會議上,第32-45頁,Springer,2024。

[114] Y. Zhou, C. Cui, J. Yoon, L. Zhang, Z. Deng, C. Finn, M. Bansal, 和 H. Yao, “分析和減輕大型視覺-語言模型中的對象幻覺”,arXiv預印本arXiv:2310.00754,2023。

[115] I. O. Gallegos, R. A. Ros...