MIT系初創打破Transformer霸權!液體基礎模型刷新SOTA,非GPT架構首次顯著超越Transformer

新智元報道

編輯:Aeneas 好睏

【新智元導讀】就在剛剛,MIT系初創公司Liquid AI推出液體基礎模型LFM,1B模型在基準測試中成爲SOTA,這是非GPT架構首次顯著超越Transformer模型!背後功臣,就是基於團隊提出的液體神經網絡(LNN)。

就在剛剛,MIT系初創公司Liquid AI團隊官宣:推出首批多模態非Transformer模型——液體基礎模型LFM。

作爲通用人工智能模型,LFM可用於建模任何類型的順序數據,包括視頻、音頻、文本、時間序列和信號。

目前,LFM有三種不同的規模:

1.3B的稠密模型,適用於資源高度受限的環境

3.1B的稠密模型,爲邊緣部署進行了優化

40.3B的混合專家(MoE)模型,專爲處理更復雜的任務而設計

在各種規模上,這三個模型都實現了最佳質量表現,同時保持了更小的內存佔用和更高效的推理能力。

公司的後訓練主管Maxime Labonne表示,LFM是「我職業生涯中發佈的最自豪的產品」

這是因爲,Liquid AI的新模型保留了液體神經網絡適應性的核心優勢,允許在推理過程中進行實時調整,而不會產生與傳統模型相關的計算開銷,能夠高效處理多達100萬個token,同時將內存使用保持在最低水平。

其中LFM-1B在1B類別的公共基準測試中表現良好,成爲該尺寸模型中的SOTA。

這是非GPT架構首次顯著優於基於Transformer的模型!

而LFM-3B的性能也優異得令人難以置信。

在3B參數的Transformer、混合模型和RNN模型中,它都取得了第一名;不僅如此,它的性能也優於前代的7B和13B模型。

在多項基準測試中,它的性能和Phi-3.5-mini相當,規模卻小了18.4%。

可以說,LFM-3B是移動端側和和其他邊緣文本應用的理想選擇。

LFM-40B在模型尺寸和輸出質量之間實現了新的平衡。

在運行時,它利用了12B的激活參數。

這樣,它的性能就可以媲美更大的模型,而其MoE架構,則可以實現更高的吞吐量,並且能部署在更具成本效益的硬件上。

現在,LFM模型已經可以免費體驗了:

https://playground.liquid.ai

https://lambda.chat/liquid-ai

https://labs.perplexity.ai

Attention Is Not All You Need

Liquid AI是由MIT計算機科學與人工智能實驗室(CSAIL)的前研究人員共同創立的初創公司。

公司的後訓練主管Maxime Labonne表示,LFM是「我職業生涯中發佈的最自豪的產品」。

LFM的核心優勢,就是使用顯著更少內存的同時,超越基於Transformer的模型。

的確,LFM的內存效率十分顯著,Liquid的LFM-3B僅需16 GB內存,而Meta的Llama-3.2-3B模型則需要超過48 GB內存。

在目前,Transformer架構還是GenAI浪潮中大多數模型的主流。

然而Liquid AI卻另闢蹊徑,希望探索構建超越生成式預訓練Transformer(GPT)的基礎模型的方法。

新的LFM,是從第一性原理出發,以工程師構建發動機、汽車和飛機的相同方式來構建的。

果然,他們做到了這一點。新的LFM模型,在性能上已經超越了同等規模基於Transformer的模型,如Meta的Llama 3.1-8B和微軟的Phi-3.5 3.8B。

爲何如此?

LFM是由深深植根於動力系統、信號處理和數值線性代數理論的計算單元構建的大型神經網絡。

這種大型神經網絡可用於建模任何類型順序數據的通用人工智能模型,包括視頻、音頻、文本、時間序列和信號,從而用於訓練新的LFM模型。

LFM的一大特點,就是高效內存。與Transformer架構相比,LFM的內存佔用更少。

對於長輸入尤其如此,而這種情況下,基於Transformer的LLMs中的KV緩存會隨着序列長度而線性增長。

LFM-3B模型在推理內存佔用率方面優於谷歌的Gemma-2、微軟的Phi-3和Meta的Llama-3.2,特別是在token長度擴展時

相比之下,LFM真正利用了它們的上下文長度。

在預覽版本中,團隊優化了模型,提供了一流的32k token上下文長度,直接突破了這一尺寸的效率邊界!

隨後的RULER基準測試,更是證實了這一點。

高於85.6分時,上下文長度纔是「有效的」

顯然,LFM通過Liquid AI團隊設計的全新算法進展,直接推進了大規模AI模型的帕累託邊界。

這些算法可以增強模型的知識容量、多步驟推理能力和上下文記憶能力,還能用於高效訓練和推理。

Liquid AI爲計算單元建立了新的設計空間的基礎,從而能夠根據不同的模型和硬件要求進行定製。

不過,團隊也承認,LFM也有很多不擅長的任務:

- 零樣本學習的代碼任務

- 精確的數值計算

- 時效性信息

- 數「Strawberry」中有幾個「r」

而且,人類偏好優化方法尚未廣泛應用於LFM模型中。

目前,LFM擅長的領域包括:

- 一般知識和專業知識

- 數學和邏輯推理

- 高效且有效的長上下文任務

- 主要語言爲英語,輔助語言爲西班牙語、法語、德語、中文、阿拉伯語、日語和韓語

其他模型在長文本處理時內存使用急劇增加,但LFM-3B保持顯著較小的內存佔用,這就使它非常適合需要大量順序數據處理的應用,比如文檔分析或聊天機器人。

LFM基礎模型還具備多模態的功能,包括音頻、視頻和文本。這種多模態能力,讓它在金融服務、生物技術、消費電子等行業都有應用空間。

它不僅在性能基準測試上具有競爭力,在操作效率上也經過了精心設計,成爲各種用例的理想選擇,包括上述領域的企業級應用,以及在「邊緣設備」上的部署。

不過要注意,LFM並不是開源的,用戶需要通過Liquid的推理Playground、Lambda Chat或Perplexity AI來訪問模型。

如何「超越」GPT?

立下大功的「液體神經網絡」,究竟是什麼原理?

液體神經網絡(Liquid Neural Networks,LNN)是團隊提出的一種全新架構,可以使人工「神經元」或用於轉化數據的節點更高效、適應性更強。

與需要數千個神經元來執 行復雜任務的傳統深度學習模型不同,LNN只用較少的神經元——結合創新的數學公式——就可以達到相同的結果。

Liquid Time-constant Networks

有趣的是,MIT CSAIL主任Daniela Rus介紹稱,液體神經網絡的靈感起源於線蟲的神經結構。

秀麗隱杆線蟲的大腦

作爲一種受大腦啓發的系統,LNN即使在訓練後,也能保持適應性和對變化的魯棒性。

論文地址:https://www.nature.com/articles/s42256-020-00237-3

團隊通過理論分析和實驗證明,這套系統:

是通用近似器(universal approximators)

在處理序列數據方面,是具有強大表現力的連續時間機器學習系統

在學習新技能方面具有極高的參數效率

論文地址:https://www.nature.com/articles/s42256-022-00556-7

具有因果性和可解釋性

在線性化時,可以高效建模序列數據中的超長期依賴關係

論文地址:https://www.science.org/doi/10.1126/scirobotics.adc8892

團隊開發了一類非線性神經微分方程序列模型,並將其推廣到了圖結構上。

並且,利用混合數值方法和時間並行方案,對連續時間模型進行擴展和優化,從而在控制和預測任務中實現了SOTA。

此外,還發布了最爲全面的神經微分方程開源庫之一,目前在各種應用中被廣泛用於基於擴散的生成建模和預測任務。

論文地址:https://physical-reasoning.github.io/assets/pdf/papers/03.pdf

值得一提的是,團隊提出了首個高效的基於並行掃描的線性狀態空間架構,以及基於有理函數的SOTA時間序列狀態空間模型。

此外,還首次提出了用於時間序列的生成式狀態空間架構,以及適用於視頻處理的狀態空間架構。

論文地址:https://arxiv.org/pdf/2208.04933

團隊提出了一個新的神經算子框架。在解決微分方程和預測任務方面,性能超越了包括傅里葉神經算子在內的多種方法。

論文地址:https://proceedings.neurips.cc/paper_files/paper/2022/file/342339109d7d756ef7bb30cf672aec02-Paper-Conference.pdf

團隊共同發明了一系列能夠有效擴展到長上下文的深度信號處理架構,如Hyena、HyenaDNA和StripedHyena等。

其中,基於StripedHyena的Evo是一個創新的DNA基礎模型。它不僅可以在DNA、RNA和蛋白質之間進行泛化,還能夠生成設計新的CRISPR系統。

不僅對超越Transformer架構的模型進行了迄今爲止最廣泛的擴展法則分析,而且還在此基礎上提出了性能超越現有開源替代方案的全新模型變體。

團隊主導開發了許多最佳的開源LLM微調和合並技術。

最後,團隊的研究還在多個領域做出了重要貢獻:爲圖神經網絡和幾何深度學習模型做了開創性工作;爲神經網絡的可解釋性定義了新的衡量標準;開發了SOTA的數據集蒸餾算法。

論文地址:https://arxiv.org/pdf/2312.04501

實際上,相關的研究論文有數十篇之多,感興趣的朋友可以去官方博客瞭解。

博客地址:https://www.liquid.ai/blog/liquid-neural-networks-research

全新的模型架構

這次,團隊在此前研究的基礎上開發了一個全新的基礎模型設計空間,專注於不同的模態和硬件需求。

目標也很明確——探索構建超越生成式預訓練Transformer(GPT)的基礎模型的方法。

通過LFM,團隊將在過去幾個月中開發的新原則和方法付諸了實踐,用於指導模型設計:

1. LFM由結構化操作單元組成

模型基於一組計算單元構建而成。這些架構的基本組成部分,屬於一個全新的設計空間。

Liquid系統及其組成將知識容量和推理能力最大化,同時實現了更高的訓練效率,降低了推理過程中的內存消耗,並提高了視頻、音頻、文本、時間序列和信號等數據的建模性能。

2. LFM架構是可控制的

模型的設計反過來也爲擴展、推理、對齊和模型分析方面的策略提供了信息。

通過運用經典的信號處理分析方法,團隊能夠深入分析LFM的動態特性,並全面探究其行爲特徵,包括模型輸出和內部運作機制等等。

3. LFM具有自適應能力,可作爲各種規模AI的基礎

模型架構能夠被自動優化,進而適配特定硬件平臺(例如,蘋果、高通、Cerebras和AMD)或滿足特定的參數要求和推理緩存大小限制。

全新的設計空間

具體來說,Liquid的設計空間主要由兩個維度定義:架構及其核心運算符的特徵化和計算複雜度。

- 特徵化是指將輸入數據(如文本、音頻、圖像、視頻)轉換爲結構化的特徵集或向量的過程。這些特徵或向量被用來以自適應方式調節模型內部的計算過程。例如,與語言和多模態數據相比,音頻和時間序列數據通常由於信息密度較低,在運算符中需要較少的特徵化處理。

- 另一個關鍵維度是運算符的計算複雜度,即完成操作所需的計算資源。通過探索和完善結構化自適應運算符的設計空間,團隊能夠在控制計算需求的同時最大化模型性能。

在覈心層面,LFM是由一系列計算單元構建而成的。這些計算單元可以表示爲自適應線性算子,其行爲由輸入數據動態決定。

LFM設計框架統一併涵蓋了深度學習中廣泛存在的各種計算單元,爲系統性探索模型架構空間提供了方法論基礎。

具體而言,可以通過改進以下三個關鍵方面來指導模型構建:

1. token混合結構:算子如何在輸入序列中混合嵌入

2. 通道混合結構:如何混合通道維度

3. 特徵化:負責根據輸入上下文調整計算

推進大規模AI模型的帕累託邊界

爲了實現這些突破性成果,團隊對訓練前準備和訓練後處理的全流程進行了優化,同時也升級了相關的計算硬件和軟件系統。

1. 知識儲備

在任何特定模型規模下,都能在各種領域和任務中展現廣泛而深入的信息處理能力。

團隊通過改進模型架構,以及採用新的預訓練、訓練中優化和後訓練策略等方式,使得LFM能夠在需要豐富知識儲備的任務上與更大規模的模型相抗衡。

2. 多步推理

這種能力指的是將複雜問題拆解並運用嚴密邏輯進行思考的技能。

團隊通過在訓練的關鍵階段對系統2任務進行蒸餾和優化,在有限的計算資源和緊湊的模型架構下,賦予了模型更高級的認知功能和強大的分析能力

3. 長上下文召回

需要注意的是,模型的最大輸入大小與其有效上下文長度並不相同。

團隊專門對大語言模型進行了訓練,目的是在所有可能的輸入長度範圍內,最大化其記憶和提取信息的能力,以及根據上下文進行學習和推理的能力。

4. 推理效率

基於Transformer的模型在處理長輸入時內存使用量會急劇增加,這使得它們不適合在資源受限的邊緣設備上部署。

相比之下,LFM具有近乎恆定的推理時間和內存複雜度。這意味着,即使輸入的上下文長度增加,也不會顯著影響文本生成速度或增加所需的內存量。

5. 訓練效率

訓練類GPT的基礎模型需要大量的計算資源。而LFM在訓練長上下文數據時效率更高。

團隊介紹

Ramin Hasani,CEO

Ramin Hasani是Liquid AI的聯合創始人兼首席執行官,同時也是MIT CSAIL的機器學習研究合作伙伴。

在此之前,他以優異成績獲得維也納工業大學(TU Wien)的計算機科學博士學位。隨後,來到CSAIL MIT進行博士後研究,與Daniela Rus教授一起負責關於智能建模和序列決策的研究。

他的研究主要集中在複雜動態系統中的魯棒性深度學習和決策制定。

Mathias Lechner,CTO

Mathias Lechner是Liquid AI的聯合創始人兼首席技術官,同時也是MIT CSAIL的研究合作伙伴。

他於2022年在奧地利科學技術研究所(ISTA)獲得了博士學位,分別於2017年和2016年在維也納工業大學(TU Wien)獲得了計算機科學碩士和學士學位。

在MIT的研究工作中,他專注於開發魯棒且可信的機器學習模型。

Alexander Amini,CSO

Alexander Amini是Liquid AI的聯合創始人兼首席科學官,同時也是MIT的研究合作伙伴,並擔任MIT官方深度學習入門課程——「MIT 6.S191:深度學習導論」的主辦者和講師。

他分別於2022年、2108年和2017年獲得了MIT的計算機科學博士學位、理學碩士和學士,輔修數學。

他的研究目標是發展自主性科學與工程,並將其應用於自主智能體的安全決策,曾研究過自主系統的端到端控制,神經網絡的置信度形成,人類移動的數學建模,以及構建複雜的慣性優化系統。

Daniela Rus

Daniela Rus是MIT電氣工程和計算機科學系的Andrew和Erna Viterbi教授,同時擔任CSAIL主任。

她是美國計算機學會(ACM)、美國人工智能協會(AAAI)和電氣電子工程師學會(IEEE)的會士,並且是美國國家工程院和美國藝術與科學學院的院士。

她在康奈爾大學獲得了計算機科學博士學位。研究興趣包括機器人學、移動計算和數據科學。

Liquid:在每個規模上,創造同類最佳的系統

Liquid AI的官方博客介紹道——

第一代液體基礎模型LFM,是一種從基本原理構建的新一代生成式AI模型。

我們的使命,是在每個規模上創造同類最佳、智能和高效的系統——這些系統旨在處理大量的順序多模態數據,實現高級推理,並達成可靠的決策制定。

LFM計算單元和動力系統理論、信號處理和數值線性代數的獨特融合,使我們能在追求各個規模智能的過程中,利用這些領域數十年的理論進展。

而「Liquid」這個名字,恰恰體現了公司在動態和自適應學習系統領域的根源。

參考資料:

https://x.com/maximelabonne/status/1840770427292958749

https://x.com/LiquidAI_/status/1840768716784697688

https://www.liquid.ai/blog/liquid-neural-networks-research