綜合RLHF、DPO、KTO優勢,統一對齊框架UNA來了

論文主要作者:

1. 王智超:本科就讀於廈門大學土木工程系,研究生博士就讀於佐治亞理工並獲得土木工程和計算機工程碩士及機械工程博士,現任職於 Salesforce,專注於 LLM Alignment。

2. 閉彬:本科就讀於華中科技大學計算機工程系,研究生就讀於香港大學計算機科學系,博士就讀於 UCLA 計算機科學系,現任職於 Salesforce,專注於 LLM Alignment。

3. 黃燦:廈門大學數學系副教授

隨着大規模語言模型的快速發展,如 GPT、Claude 等,LLM 通過預訓練海量的文本數據展現了驚人的語言生成能力。然而,即便如此,LLM 仍然存在生成不當或偏離預期的結果。這種現象在推理過程中尤爲突出,常常導致不準確、不符合語境或不合倫理的回答。爲了解決這一問題,學術界和工業界提出了一系列對齊(Alignment)技術,旨在優化模型的輸出,使其更加符合人類的價值觀和期望。

其中,RLHF 是一種廣泛使用的方法,依賴於從人類反饋中學習強化策略。RLHF 的流程包括兩個階段:首先,通過人類偏好數據訓練獎勵模型(Reward Model, RM),然後使用該獎勵模型指導策略模型(Policy Model)的強化學習優化。然而,RLHF 存在若干顯著問題,如高內存佔用、訓練不穩定以及流程複雜等。

爲了解決 RLHF 的複雜性,DPO 方法被提出。DPO 簡化了 RLHF 的流程,將強化學習的訓練階段轉化爲一個二分類問題,減少了內存消耗並提高了訓練穩定性。但 DPO 無法充分利用獎勵模型,且僅適用於成對的偏好數據,無法處理更爲廣泛的反饋類型。

此外,KTO 進一步擴展了 DPO,能夠處理二元數據(如正向和負向反饋),但它同樣有其侷限性,無法統一處理不同類型的反饋數據,也無法有效利用已有的獎勵模型。

在這種背景下,來自 Salesforce、廈門大學的研究團隊提出了一種名爲 UNA 的新方法,它通過一種通用的隱式獎勵函數,統一了當前主流的大規模語言模型(LLM)對齊技術。主要包括 RLHF、DPO 和 KTO,這些技術的結合不僅簡化了模型的訓練流程,還提高了模型對齊的性能,穩定性和效率。

UNA 的創新點

UNA 的核心創新點在於通過一個(generalized implicit reward function)將 RLHF、DPO 和 KTO 統一爲一個監督學習問題。UNA 的創新體現在以下幾個方面:

UNA 的理論基礎

UNA 的理論基礎源於對 RLHF 目標函數的重新推導。研究人員證明,給定 RLHF 的經典目標函數,最優策略可以通過一個隱式的獎勵函數來誘導。該隱式獎勵函數是策略模型與參考策略之間的對比結果,通過這個函數,UNA 能夠將不同類型的獎勵信息整合到統一的框架中進行處理。

實驗結果與性能表現

研究人員通過一系列實驗驗證了 UNA 的有效性和優越性。在多個下游任務中,UNA 相較於傳統的 RLHF、DPO 和 KTO 都有顯著的性能提升,特別是在訓練速度、內存佔用和任務表現等方面。以下是實驗結果的主要亮點:

總結

UNA 的提出標誌着大規模語言模型對齊技術的一個重要進展。通過統一 RLHF、DPO 和 KTO,UNA 不僅簡化了模型的訓練流程,還提高了訓練的穩定性和效率。其通用的隱式獎勵函數爲模型的對齊提供了一個統一的框架,使得 UNA 在處理多樣化反饋數據時具有更強的適應性和靈活性。實驗結果表明,UNA 在多個下游任務中表現優越,爲語言模型的實際應用提供了新的可能性。未來,隨着 UNA 的進一步發展,預期它將在更多的應用場景中展現出強大的能力。