在人工智能快速發(fā)展的今天,如何讓大型語言模型(LLM)更好地理解并滿足人類的期望,是確保AI安全部署的關鍵一環(huán)。2023年5月,來自韓國科學技術院(KAIST AI)的研究團隊(Yunjae Won、Hyunji Lee、Hyeonbin Hwang和Minjoon Seo)在arXiv(arXiv:2505.23761v1)上發(fā)表了一篇題為《差分信息:偏好優(yōu)化的信息論視角》的研究論文,為我們提供了理解大型語言模型學習人類偏好的全新視角。
直接偏好優(yōu)化(Direct Preference Optimization,簡稱DPO)作為一種讓AI理解人類偏好的方法,已經因其強大性能、訓練穩(wěn)定性和計算效率而成為業(yè)界標準。然而,盡管DPO在實踐中取得了成功,研究人員對于它為什么有效,以及它采用的"對數比率獎勵"形式(log-ratio reward)為何如此有效的理論解釋卻不夠完整。這就好比我們知道某種藥物能治病,但不完全明白它為什么能治病。
KAIST AI的研究團隊提出了一個新概念——"差分信息分布"(Differential Information Distribution,簡稱DID),為理解DPO提供了全新視角。想象一下,如果將語言模型看作是一本食譜書,那么差分信息就好比是從基礎食譜到高級食譜的"升級指南"。這個升級指南不需要重寫整本食譜書,只需告訴我們在哪些關鍵步驟需要做出調整,就能將普通菜肴變成米其林級美食。
研究團隊發(fā)現,當人類的偏好標記包含了從參考策略(reference policy)到目標策略(target policy)所需的差分信息時,DPO中的對數比率獎勵形式就成為了學習目標策略的最佳選擇。這就像是發(fā)現了一種最有效的食譜更新方法,不需要完全重寫食譜,而只需標記關鍵改進點。
通過分析差分信息分布的熵(不確定性程度),研究團隊進一步揭示了一個有趣現象:學習低熵差分信息會加強策略分布(就像讓食譜更專注于幾道拿手菜),而學習高熵差分信息則會產生平滑效應(就像讓食譜更加多樣化)。這一發(fā)現解釋了人們常觀察到的對數似然位移(log-likelihood displacement)現象,即模型在學習人類偏好時,可能會降低原本"正確"答案的概率。
研究團隊通過合成實驗驗證了他們的理論發(fā)現,并將其擴展到真實世界的指令跟隨數據集。結果表明,對于通用指令跟隨任務,學習高熵差分信息至關重要;而對于知識密集型問答任務,學習低熵差分信息則更為有利。這就像一個廚師需要在多樣化烹飪技巧和專精特定菜系之間找到平衡。
總的來說,這項研究通過差分信息的鏡頭,為我們提供了一個統一的視角,幫助我們理解DPO目標函數、偏好數據的結構以及由此產生的策略行為,為人工智能的安全發(fā)展提供了重要理論支持。
一、研究背景:為什么需要一種新的理論視角?
想象一下,你正在教一個聰明但對世界了解有限的外星人如何做飯。最開始,你給了它一本基礎食譜書(這相當于初始語言模型)。但你發(fā)現這個外星人按照食譜做出的菜肴雖然能吃,但并不符合人類的口味偏好。于是,你開始通過指出哪道菜更好吃、哪道菜不那么好吃來引導它(這就是偏好學習)。
在AI領域,直接偏好優(yōu)化(DPO)方法就是這樣一種教導AI理解人類偏好的方式。DPO由Rafailov等人于2023年提出,它不需要顯式地估計獎勵函數,而是直接優(yōu)化語言模型以最大化給定偏好數據的經驗似然。特別地,DPO使用了一種特殊形式的"獎勵"——β log(π/πref),其中π是正在學習的策略,πref是固定的參考策略,β是KL正則化強度。
雖然研究人員提出了各種DPO變體和替代獎勵參數化方法,但原始的對數比率形式仍然是偏好優(yōu)化的事實標準。然而,對于為什么這種特定形式如此有效,以及在什么條件下它是最優(yōu)的,這些問題的深層理解仍然不足。
KAIST AI的研究團隊決定從信息論的角度重新審視這個問題。他們提出了"差分信息分布"(DID)的概念,簡單來說,差分信息分布代表了從一個分布更新到另一個分布所需的信息。
回到我們的烹飪比喻,差分信息就像是一份"改進指南",它不是完整的新食譜,而是告訴外星人:"在這道菜中,你需要少放鹽,多加香料"。這種改進指南比完全重寫食譜更高效,因為它只關注需要改變的部分。
研究團隊提出了一個假設:通過偏好學習,模型實際上是在學習從參考策略πref到目標策略π*所需的差分信息。這個假設為理解DPO的工作原理提供了全新視角。
二、差分信息分布:理解語言模型策略更新的新工具
要理解差分信息分布,我們可以想象兩本不同版本的烹飪書。第一本是基礎版(參考策略πref),第二本是改進版(目標策略π*)。差分信息分布就像是一份列出了所有改進之處的文檔,它告訴我們:哪些菜譜需要調整,以及如何調整才能從基礎版變成改進版。
在技術層面,研究團隊將差分信息分布定義為從參考策略πref到目標策略π的"歸一化比率分布":
qπ/πref(y) = π(y)/πref(y) / Z
其中Z是歸一化因子,確保分布的概率總和為1。
簡單來說,差分信息分布強調了兩個策略之間的差異。如果某個回答在新策略中的概率是舊策略的兩倍,那么這個回答在差分信息分布中就會有較高的概率。
研究團隊進一步分析了:在什么條件下,偏好數據會自然地編碼從參考策略到目標策略所需的差分信息?他們發(fā)現,當差分信息分布之間存在冪律關系時(即qπref/πl(y) ∝ qπ*/πref(y)^β),偏好概率可以表示為由差分信息分布誘導的偏好。
回到烹飪比喻,這就好比外星人不僅知道哪道菜更好吃,還能理解為什么它更好吃——是因為少放了鹽還是多加了香料。這種深層次的理解才能真正幫助外星人改進自己的烹飪技巧。
三、DPO的對數比率獎勵為何是最優(yōu)的?
現在我們來到研究的核心問題:為什么DPO中使用的對數比率獎勵形式是最優(yōu)的?
研究團隊證明,當偏好數據編碼了學習目標策略所需的差分信息時,DPO中的對數比率獎勵r = β log(π/πref)是唯一能夠通過偏好優(yōu)化恢復目標策略π*的函數形式。
這就好比在烹飪學習過程中,外星人發(fā)現記錄"與基礎食譜的差異"是學習新食譜最有效的方法,而不是每次都從頭開始寫新食譜。
有趣的是,這一結論自然地產生了一個用于采樣被拒絕響應的最優(yōu)分布的閉式表達式:
πl(y) ∝ πref(y)(πref(y)/π*(y))^β
這個公式告訴我們,在構建偏好數據集時,應該如何選擇負面例子。它不僅僅是隨機選擇一些"不好"的回答,而是有策略地選擇那些能夠最有效傳達差分信息的例子。
在烹飪學習中,這相當于不僅要展示好的菜品(正面例子),還要有針對性地展示那些犯了特定錯誤的菜品(負面例子),這樣外星人才能更清楚地理解什么是需要避免的。
四、對數邊緣排序與差分信息的內在聯系
研究團隊進一步探索了差分信息分布的冪律結構與策略"對數邊緣排序"之間的聯系。他們發(fā)現,這兩個概念實際上是等價的。
簡單來說,如果我們有三個策略π*、πref和πl,當它們之間的對數邊緣滿足特定的順序關系時(即πref的對數邊緣比πl大,同時π*的對數邊緣比πref大),策略之間的差分信息分布就會呈現冪律關系。
這一發(fā)現揭示了許多偏好優(yōu)化方法(如SLiC、SimPO和CPO)背后共同的歸納偏差。這些方法都試圖最大化對數邊緣來學習目標策略π*,而這一行為隱含地假設了差分信息分布之間的冪律結構。
在烹飪學習中,這相當于發(fā)現:"菜品口味改進的程度"與"食譜調整的方向和幅度"之間存在一種數學上的對應關系。理解了這種對應關系,我們就能更有效地指導外星人改進烹飪技巧。
五、差分信息的熵與策略動態(tài)
研究團隊接著分析了差分信息分布的熵(不確定性程度)如何影響策略動態(tài)。
他們提出,差分信息分布的熵反映了策略更新的特征:學習低熵差分信息會導致策略強化(集中概率質量),而學習高熵差分信息則會導致策略平滑(分散概率質量)。
想象外星人學習烹飪的兩種不同情況: - 如果你只教它一兩道特定菜品的改進技巧(低熵差分信息),它可能會在這幾道菜上變得非常精通,但整體烹飪水平仍有限。 - 如果你教它廣泛的烹飪原則和技巧(高熵差分信息),它的整體烹飪水平會提高,但可能在特定菜品上沒有達到極致。
這一理論為解釋DPO中常見的"對數似然位移"現象提供了新視角。對數似然位移指的是,即使模型對齊度提高,首選響應的對數似然卻可能下降。以往的解釋通常集中在樣本相似性或梯度動態(tài)上,而研究團隊從信息論角度提供了互補的解釋。
當偏好編碼了高熵差分信息(例如通用指令跟隨任務中的多方面標準),學習這種DID會導致π相對于πref的平滑,從而可能降低在πref中高概率區(qū)域的概率質量,導致對數似然位移。
六、實驗驗證:從合成數據到真實世界
研究團隊首先在合成設置中驗證了他們的理論發(fā)現。他們使用能量基模型(EBM)構建了一個環(huán)境,其中偏好分布自然編碼了差分信息。
在這個設置中,他們測試了各種偏好優(yōu)化目標,結果證實了當偏好編碼差分信息時,DPO的對數比率獎勵確實是唯一能學習目標策略的形式。
接著,他們將分析擴展到真實世界的指令跟隨數據集。有趣的是,他們發(fā)現這些數據集的偏好更準確地解釋為編碼了學習目標策略所需的差分信息,而不是直接反映目標策略本身。
這就像發(fā)現外星人通過觀察你做菜,實際上學到的不是完整的食譜,而是從基礎食譜到高級食譜的"升級路徑"。
七、差分信息熵與下游能力的關系
研究團隊進一步探索了差分信息分布的熵與下游能力獲取之間的關系。
他們在真實世界的指令跟隨數據集上實驗,支持了這些數據集通常編碼高熵DID,從而在DPO訓練期間導致對數似然位移的假設。
更有趣的是,他們發(fā)現DID熵與下游性能之間存在相關性: - 學習高熵DID對于通用指令跟隨至關重要 - 學習低熵DID則有利于知識密集型問答任務
這就像外星人在學習烹飪時發(fā)現: - 要成為一個全能的家庭廚師,需要掌握廣泛的烹飪原則(高熵差分信息) - 要成為特定菜系的專家,則需要專注學習該菜系的特定技巧(低熵差分信息)
這些發(fā)現為如何設計和優(yōu)化語言模型的訓練策略提供了重要指導。
八、差分信息視角的深遠意義
這項研究不僅為理解DPO提供了新視角,還為偏好優(yōu)化領域的未來發(fā)展指明了方向。
首先,理解偏好優(yōu)化是在學習差分信息,而不僅僅是目標策略本身,這改變了我們思考人類反饋對齊的方式。這表明,在設計偏好數據集時,應該考慮所編碼的差分信息的特性,而不僅僅是選擇"好"和"壞"的例子。
其次,差分信息分布的熵與下游能力之間的關系提供了一種新的方式來思考和設計訓練策略。對于不同類型的任務,可能需要不同熵級別的差分信息。
最后,這項研究提出的最優(yōu)拒絕響應分布為構建更有效的偏好數據集提供了理論指導,這可能會改進未來的語言模型對齊方法。
九、結論:差分信息視角的啟示
在這項研究中,KAIST AI團隊通過引入差分信息分布的概念,為我們提供了理解偏好優(yōu)化的全新視角。他們證明了DPO中使用的對數比率獎勵是唯一能夠從編碼差分信息的偏好中學習目標策略的形式,這解釋了為什么DPO在實踐中如此有效。
此外,他們揭示了差分信息分布的熵與策略動態(tài)之間的關系,為解釋對數似然位移現象提供了新的解釋,并證明了不同熵級別的差分信息適合不同類型的任務。
總的來說,這項研究通過差分信息的鏡頭,為我們提供了一個統一的視角,幫助我們理解DPO目標函數、偏好數據的結構以及由此產生的策略行為。這些見解不僅有助于我們更好地理解現有的偏好優(yōu)化方法,還為未來設計更有效的人類反饋對齊方法提供了理論基礎。
正如研究團隊所言,未來的工作可能會探索注釋協議如何影響DID熵,以及該框架在文本以外模態(tài)中的適用性。
對于有興趣深入了解的讀者,可以通過訪問arXiv:2505.23761v1獲取完整論文。研究團隊也承諾在論文被接受后發(fā)布模型檢查點和訓練/評估代碼。
好文章,需要你的鼓勵
浙江大學團隊提出動態(tài)專家搜索方法,讓AI能根據不同問題靈活調整內部專家配置。該方法在數學、編程等任務上顯著提升推理準確率,且不增加計算成本。研究發(fā)現不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數學競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現了效率與性能的雙重優(yōu)化,為AI模型訓練提供了新思路。
南洋理工大學與騰訊聯合研究團隊開發(fā)出Rolling Forcing技術,實現AI視頻實時流式生成的重大突破。該技術通過滾動窗口聯合去噪、注意力錨點機制和高效訓練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質量視頻,延遲僅0.76秒,質量漂移指標從傳統方法的1.66降至0.01,為交互式媒體和內容創(chuàng)作開辟新可能。
華中科技大學研究團隊發(fā)現,通過讓AI模型學習解決幾何問題,能夠顯著提升其空間理解能力。他們構建了包含約30000個幾何題目的Euclid30K數據集,使用強化學習方法訓練多個AI模型。實驗結果顯示,幾何訓練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎幾何知識對培養(yǎng)AI空間智能的重要價值。