蟻羣、蜂羣的智慧,大模型也可以有,谷歌等機構羣體智能研究亮相
機器之心報道
編輯:張倩、小舟
在我們的自然界,螞蟻、蜜蜂、蝗蟲都是非常簡單的生物,單獨行動的它們也非常脆弱。但一旦它們組成羣體,就會涌現出遠超個體簡單相加的力量,比如幾隻螞蟻湊到一起可以往洞穴搬運食物,一羣蜜蜂可以建造精密的蜂巢。這種羣居性生物表現出來的智能行爲被稱爲羣體智能。
從宏觀上說,人類社會的不斷髮展和演化也是一種羣體智能現象。因此,計算機科學家們就想到,爲什麼不在人工智能的研究中借鑑這種思路呢?說不定,這能比 OpenAI 等公司所追求的「超級智能個體」更接近 AGI 呢?
隨着大模型變得越來越聰明,越來越多的研究團隊開始挖掘這一方向的潛力,比如機器之心前段時間報道的國內創業公司 RockAI(參見《與其造神,不如依靠羣體的力量:這家公司走出了一條不同於 OpenAI 的 AGI 路線》)。
最近,來自谷歌、華盛頓大學的研究團隊也公佈了一項研究,讓「羣體智能」走入了更多 AI 研究者的視野。
在這篇論文中,作者提出了一種協同搜索算法 ——MODEL SWARMS,該算法通過羣體智能來適應和優化大型語言模型(LLM)。具體來說,MODEL SWARMS 從一組 LLM 專家和一個效用函數開始。在跨模型找到的最佳檢查點的引導下,多樣化的 LLM 專家通過協作在權重空間中移動,並優化表示模型適應目標的效用函數。
與現有的模型組合方法相比,MODEL SWARMS 提供了無需微調的模型適應,可以在數據量低至 200 個樣本的情況下工作,並且不需要對羣體中的特定專家或它們應該如何組合做出假設。
大量實驗表明,MODEL SWARMS 可以靈活地使 LLM 專家適應單一任務、多任務領域、獎勵模型以及不同的人類興趣,在不同任務和上下文中,它將超過 12 個模型組合基線提高了 21.0%。
論文概覽
除了努力訓練一個單一的、通用的大型語言模型(LLM),在所有語言和任務中共享參數之外,最近的工作越來越多地認識到通過多 LLM 協作的模塊化的重要性,其中不同的模型以各種方式相互作用和互補。例如,混合專家(MoE)依賴於將查詢路由到各種神經子組件,利用一個模型的專門知識。路由到特定領域的專家這種方法顯示了巨大的潛力,但在 MoE 過程中沒有產生新的模型 / 專家。然而,具有挑戰性的現實世界任務通常需要靈活的組合和適應新的領域的能力,超出了現有專家的範圍。
有兩種研究工作旨在將多 LLM 合作擴展到路由之外,以組成和產生新的適應模型:
1、Learn-to-fuse 設計可訓練的組件,將專家「粘合」在一起,形成一個合併的模型,然後使用監督目標對模型進行微調,以產生組合專家。這些方法通常依賴於大型訓練集從頭開始微調可學習部分,並且很難提供無縫添加 / 移除專家的模塊化。
2、Model arithmetic(模型算術)通過對模型權重和 / 或 token 概率進行算術運算來組合 LLM 專家。這些方法通常對可用專家和期望的適應應該如何分解有強烈的假設(例如,lion indoors = lion outdoors + (dog indoors - dog outdoors))。因此,一個不依賴於過多微調數據或對現有模型有強烈假設的靈活方法至關重要,可以讓多樣化的 LLM 專家適用於廣泛的場景。
爲了解決這一問題,作者提出了 MODEL SWARMS,在這個框架中,多個 LLM 專家通過協作在權重空間中搜索新的適應模型。受粒子羣優化(Particle Swarm Optimization, PSO)的啓發,MODEL SWARMS 將每個 LLM 專家視爲一個「粒子」,並將 LLM 適應定義爲粒子的協作移動,這種移動由表示適應目標的效用函數指導。
具體來說,爲了建模 LLM 的主動搜索而不是被動合併,每個專家粒子都以一個位置(模型權重)和速度(權重空間中的方向)開始。速度會受到慣性(保持當前速度的傾向)、個體最佳(給定粒子找到的最佳位置)和全局最佳 / 最差(所有粒子中找到的最佳 / 最差位置)的迭代影響,而 LLM 粒子隨後朝着更新的速度方向邁出一步。這些速度因素使得 LLM 粒子能夠繪製出獨立的搜索路徑,並探索個體 / 全局最佳鄰域。
得益於靈活的搜索方法,MODEL SWARMS 不需要任何有監督的微調數據或關於 LLM 專家或效用函數的預先存在的知識,僅通過任何 model-to-scalar 效用函數指導的協作搜索和移動來適應 LLM 專家。
MODEL SWARMS 在四種不同的 LLM 適應目標上實現了卓越的性能:
實證分析表明,初始專家的多樣性至關重要,模型展現出了在初始檢查點中未見的新能力,而且令人驚訝的是,最終表現最好的粒子通常並不是開始就表現最佳的那個。MODEL SWARMS 可以通過類似 dropout 的策略加速,並可以無縫擴展到不同模型架構專家的 token 概率算術。
方法
MODEL SWARMS 通過羣體智能來適應 LLM 專家,圖 1 和算法 1 概述了 MODEL SWARMS。
MODEL SWARMS 主要包括以下 4 個步驟:
粒子的位置和速度使 LLM 專家能夠主動搜索而不是被動合併,而個體 / 全局最佳檢查點有助於跟蹤權重空間中的良好位置和鄰域以進一步探索。
實驗結果
如下表 1 所示,MODEL SWARMS 在所有 9 個單一任務上都實現了 SOTA 性能:
在多任務方面,下表 2 展示了 MODEL SWARMS 跨 8 個任務和 4 個域的測試集性能:
下表 3 展示了在驗證和測試指令集上的獎勵模型分數:
在 16 個人類興趣主題上,MODEL SWARMS 前後的 LLM-as-a-judge 分數、事實性分數如下表 4 所示:
感興趣的讀者可以閱讀論文原文,瞭解更多研究內容。