LLM超越人類時該如何對齊?谷歌用新RLHF框架解決了這個問題

機器之心報道

編輯:Panda

我們這個世界是不斷變化的開放世界。人工智能要在這個世界長久立足,就需要突破許多限制,包括可用數據和規模和質量以及有用新信息的增長率。

對基於 LLM 的 AI 來說,高質量的人類數據非常關鍵,但已有研究預計這些高質量數據將在未來幾年耗盡。

如果 LLM 保持現在的發展勢頭,預計在 2028 年(中位數)左右,已有的數據儲量將被全部利用完,來自論文《Will we run out of data? Limits of LLM scaling based on human-generated data》

此後,這類數據的質量也將停滯不前:隨着 LLM 能力越來越強,它們將能解決越來越複雜和越來越多的難題,而這些難題所需的訓練數據已經超出了人類的能力。

因此,我們就需要爲 LLM 構建一種能使其實現自我提升的基本機制,讓模型可以持續地自我生成和自我求解更困難的問題。

於是,問題就來了:語言模型能否自我創建可學習的新任務,從而實現自我改進以更好地泛化用於人類偏好對齊?

爲了提升語言模型的對齊能力,人們已經提出了許多偏好優化算法,但它們都默認使用固定的提示詞訓練分佈。這種固定的訓練範式缺乏可擴展性,並不可避免地導致泛化問題和效率問題。

基於這些考慮,谷歌 DeepMind 和芝加哥大學一個研究團隊開發了一種可擴展的開放式 RLHF 框架 eva,即 Evolving Alignment via Asymmetric Self-Play,也就是「通過非對稱自博弈實現的演進式對齊」。

eva 能讓自我提升式語言模型的訓練分佈自動演進,如圖 1 所示。

eva 的核心方法

在介紹 eva 的核心方法之前,我們需要先了解一些前提設置,這裡截圖如下:

概述地講,eva 可通過一個創建器(creator)將經典 RLHF 擴展成開放式 RLHF,該創建器使用易於實現的估計、採樣、進化程序來調整提示詞的分佈,模仿不對稱自博弈的最小最大遺憾(minimax-regret)策略。

原理:用於聯合自我提升的開放式 RLHF

直觀說明

經典 RLHF 是在一個靜態提示詞分佈上執行優化,這意味着智能體僅與固定的參考點對齊,這使得它難以對應不斷變化的現實世界中的新問題。

新提出的開放式 RLHF 框架 eva 則打破了這個靜態設置,其目標是開發出一種能很好地泛化到未曾見過的新環境的智能體。爲此,該團隊必須設計一個新的目標,而不僅僅是在一個固定數據集上執行優化。

形式化描述

π_φ (x) 是可優化的提示詞生成策略,其會與響應策略 π_θ (y | x) 一起被聯合優化,如下所示:

其中,p_ref (x) 表示所有可能任務(通過提示詞實例化)的理想化的可能很難處理的概率,其可作爲智能體可能遇到的任務的全部多樣性和複雜性的概念參考,同時用作對齊的指導目標。此外,聯合優化可確保任務分配和智能體的響應策略同步更新,從而適應日益複雜的任務,進而促進泛化。

機制:通過創建器和求解器博弈實現非對稱自博弈

直觀說明

由於未指定的參考很難處理以及聯合微分存在不穩定問題,因此 (7) 式很難直接優化。爲此,該團隊提出了一種交替式的優化方案,其做法是將該問題表述成一個非對稱的創建器 - 求解器博弈。

形式化描述

該團隊將這種交替優化表述成了一種非對稱博弈,如下所示:

該團隊採用了 minimax regret 策略,其中求解器的目標是最小化後悔值,而創建器則是爲了最大化這個值,即當前策略和最優策略之間的獎勵之差爲:

在納什均衡下,之前已有研究表明:

然而,如果無法獲得真正的最優策略,就必須近似後悔值。利用隨機策略和獎勵信號,該團隊設計了基於優勢的代理函數:

總之,eva 允許創建一個不斷演進的提示詞分佈,其難度會隨智能體的演進而逐步提升。新引入的 minimax regret 可進一步增加這種不斷髮展的例程的穩健性,其做法是激勵智能體在所有情況下都表現良好。他們使用了信息量代理來指導學習。

總之,eva 是將對齊視爲一種非對稱博弈,其機制是創建器不斷挑戰求解器,而求解器則不斷學習提升。

實際的算法

下面說明如何實際實現算法 1 中的 eva。

1. 創建器步驟:估計,採樣,然後演進

顯然,創建器會找到最有用的提示詞並生成它們的變體,並將這些變體用於偏好優化。創建器的實現分爲 3 步。

2. 求解器步驟:求解然後優化

此步驟是經典的偏好優化,其中生成響應並執行梯度下降。以逐點獎勵模型設置爲例,對於每個提示,採樣 n 個響應,每個響應都帶有獎勵註釋;這裡採用最大和最小獎勵的響應來構建偏好對,然後進行優化。

總之,eva 可以使用新的創建器模塊統一現有的迭代優化工作流程,該模塊可以與求解器策略共享相同的網絡,也可獨立運行。

實驗結果

這裡我們僅關注實驗的主要結果,實驗設置請參看原論文。

eva 能實現自我提升

如表 1 紅色標記所示,eva 在不同優化算法中的表現顯著優於基礎設置,尤其是在更難的 Arena-Hard 基準上,該基準由於其提示詞的複雜性和更公平的評分系統而被認爲更具挑戰性。

具體來說,eva 使用 SimPO 作爲求解器時增益爲 8.4%,使用 DPO 作爲求解器時增益爲 8.5%,超越了其 27B 版本並與 Arena-Hard 排行榜上報告的 claude-3-opus-240229 相當,同時還使用了全自動的提示詞生成進行對齊。

eva 可以超越人工編寫的提示詞

實驗進一步表明,使用 eva 提示詞訓練的模型的表現能夠比肩甚至超越那些使用了來自 UltraFeedback 的額外新提示詞訓練的模型,這可被視爲是人類提示詞。同時,前者還能做到成本更低,速度更快。

此外,在 MT-Bench 上,使用新的人類提示詞進行訓練通常會在第一輪中表現出性能下降,在第二輪中也只會有適度的提升。相比之下,eva 能顯著提高第二輪的表現。

針對此現象,該團隊給出了自己的假設:eva 可演化出全新的可學習的提示詞,並且其中包含第二輪問題的特徵,這表明 eva 涌現出了處理後續互動等新技能。

消融研究

爲了驗證 eva 各組件的有效性,該團隊也執行了消融研究,下面我們簡單給出其發現,詳細實驗過程請訪問原論文: