比擴散模型快50倍!OpenAI發佈多模態模型實時生成進展

兩位清華校友,在OpenAI發佈最新研究——

生成圖像,但速度是擴散模型的50倍。

路橙、宋颺再次簡化了一致性模型,僅用兩步採樣,就能使生成質量與擴散模型相媲美。

他們成功將連續時間一致性模型的訓練規模擴展到了前所未有的15億參數,並實現了在512×512分辨率的ImageNet數據集上的訓練。

參數15億模型在單張A100 GPU上無需任何推理優化即可在0.11秒內生成一個樣本。

團隊還表示通過定製系統優化,可以進一步加速,爲實時生成圖像、音頻和視頻提供新的可能。

值得一提的是,論文僅有的兩位作者還都是清華校友。

該項研究發佈後得到大量網友點贊轉發。

把正在休假的Openai總裁Greg Brockman都炸出來了:

那麼,sCM是如何實現的?

一致性模型是一種快速的擴散模型替代方案。

當前擴散模型的採樣方法通常需要數十到數百個連續步驟才能生成單個樣本,這限制了其實時應用的效率和可擴展性。

與逐步通過大量去噪步驟生成樣本的擴散模型不同,它旨在一步直接將噪聲轉換爲無噪聲樣本。

OpenAI最新這項研究提出了一種改進連續時間一致性模型(Continuous-time Consistency Models)的綜合方法,主要包含題目中提到的三個關鍵點:簡化、穩定和擴展。

論文指出,現有一致性模型主要採用離散時間步訓練,這種方法會引入額外的超參數並容易產生離散化誤差。儘管連續時間公式可以避免這些問題,但之前的工作中連續時間一致性模型始終面臨訓練不穩定的挑戰。

爲此,論文首先提出了TrigFlow,巧妙地統一了EDM(Exponential Diffusion Model)和Flow Matching兩種方法。

TrigFlow使擴散過程、擴散模型參數化、PF-ODE、擴散訓練目標和一致性模型參數化都能夠擁有簡潔的表達式,如下所示。

在此基礎上,研究人員深入分析了導致訓練連續時間一致性模型不穩定的原因。

在TrigFlow框架的基礎上引入了幾項理論上的改進,重點是參數化、網絡架構和訓練目標。

連續時間一致性模型訓練的關鍵是:

取決於:

經過進一步分析,研究人員發現不穩定源自於時間導數:

並據此提出了三個關鍵改進:

此外,論文還改進了訓練目標,包括切向量歸一化和自適應權重等技術。

以上種種改進使得研究人員成功將時間一致性模型的訓練規模擴展到15億參數,並在多個基準數據集上表現優異。

CIFAR-10上的FID(越低越好)爲2.06,ImageNet 64×64上爲1.48,ImageNet 512×512上爲1.88。

特別值得注意的是,這些模型只需要兩步採樣就能達到接近最好的擴散模型的生成質量(FID差距在10%以內),而計算開銷僅爲後者的10%。

研究人員還比較了改進後的一致性模型與變分分數蒸餾(VSD)方法的區別,發現一致性模型能產生更多樣的樣本,並且在更高的引導水平下表現更好。

他們還有一個關鍵發現,隨着teacher擴散模型的規模擴大,sCM的改進也呈比例增加。

用FID分數的比率來衡量樣本質量的相對差異在模型大小不同的規模上是一致的,這意味着當模型規模增加時,樣本質量的絕對差異會減小。

此外,增加sCM的採樣步驟可以進一步減少質量差距。

路橙

去年在清華大學TSAIL實驗室,在朱軍教授指導下獲得博士學位;2019年獲清華大學計算機科學與技術系學士學位。

現在他是OpenAI研究科學家,對大規模深度生成模型和強化學習算法感興趣。

他對一致性模型、擴散模型、歸一化流和基於能量的模型及其在圖像生成、3D 生成和強化學習中的應用有豐富的研究經驗。

宋颺

宋颺在清華大學獲數學和物理學士學位後,在斯坦福大學獲得了計算機科學博士學位,導師Stefano Ermon。

其研究目標是開發能夠理解、生成並處理多種形態高維數據的強大AI模型。

目前,宋颺專注於改進生成模型,包括它們的訓練方法、架構設計、對齊、魯棒性、評估技巧及推理效率。

他對探索生成模型作爲科學發現工具的潛力也很感興趣。

參考鏈接:[1]https://x.com/OpenAI/status/1849139783362347293[2]https://luchengthu.github.io/[3]https://yang-song.net/