av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 研究推理的獎勵模型:微軟提出新方法讓AI評判能力更上一層樓

研究推理的獎勵模型:微軟提出新方法讓AI評判能力更上一層樓

2025-05-26 08:09
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-26 08:09 ? 科技行者

微軟研究院今年5月發(fā)表了一項突破性研究,為人工智能評估系統(tǒng)帶來了新的視角。這項由微軟研究院的郭家鑫、遲澤文、董力等研究者共同完成的論文《獎勵推理模型》(Reward Reasoning Model)發(fā)表于arXiv預印本平臺(arXiv:2505.14674v1),為大型語言模型(LLM)的能力評估和提升開辟了新路徑。

想象一下,你有一位助手,他總是能給你提供答案,但有時候答案質(zhì)量參差不齊。你可能會想:如何判斷哪個答案更好?這正是人工智能研究者們面臨的挑戰(zhàn)。目前,研究人員使用"獎勵模型"來評估AI生成內(nèi)容的質(zhì)量,就像一位品鑒專家為不同答案打分。但傳統(tǒng)的獎勵模型面臨一個困境:它們對所有問題都投入相同的思考資源,無論問題簡單還是復雜。

想象一下我們?nèi)祟惖乃伎挤绞?mdash;—面對"1+1=?"這樣的簡單問題,我們幾乎不需要思考就能給出答案;但面對"如何解釋量子糾纏"這樣的復雜問題,我們需要深入思考、分析各個角度、權(quán)衡不同因素才能形成判斷。傳統(tǒng)的獎勵模型不具備這種適應性,它們無法根據(jù)問題的復雜度調(diào)整思考深度。

微軟研究院的研究團隊提出了一個全新的框架——獎勵推理模型(Reward Reasoning Models,簡稱RRMs)。這個模型不再像傳統(tǒng)獎勵模型那樣直接給出評分,而是模仿人類的思考過程,先進行深入的推理,然后再做出判斷。就像一位認真的評審員,在給出最終評分前,先在紙上寫下詳細的分析過程。

這項研究的核心創(chuàng)新在于,RRMs能夠根據(jù)問題的復雜程度,靈活調(diào)整分配給思考過程的計算資源。對于簡單問題,它可以快速給出評判;而對于復雜問題,它會投入更多的推理步驟,確保評判的準確性。這就像一位靈活的考官,對簡單題目快速判分,而對復雜題目則仔細推敲每個環(huán)節(jié)。

研究團隊采用了一種稱為"通過強化學習的獎勵推理"的訓練框架,使模型能夠自主發(fā)展推理能力,而無需提供顯式的推理路徑作為訓練數(shù)據(jù)。這就像教孩子學習思考,不是通過背誦思考步驟,而是鼓勵他們通過嘗試和反饋逐漸形成自己的思考方式。

實驗結(jié)果顯示,RRMs在多個評估基準上取得了優(yōu)異表現(xiàn),無論是在推理任務、常識知識,還是安全性評估方面。特別值得一提的是,研究團隊還展示了RRMs如何適應性地利用額外的計算資源來進一步提升評判準確性,這在之前的模型中是難以實現(xiàn)的。

接下來,讓我們一起深入了解這項研究的細節(jié),看看微軟研究院的團隊是如何讓AI的判斷能力更接近人類的思考過程的。

一、研究背景:為什么我們需要更智能的獎勵模型?

想象你正在教一個孩子如何判斷哪些回答是好的、哪些回答是不夠好的。最初,你可能會給他一個簡單的評分表,讓他按照表格上的標準給答案打分。但隨著問題變得越來越復雜,你會發(fā)現(xiàn)這種簡單的評分方式不再適用——有些問題需要深入思考,需要從多個角度進行分析,甚至需要先解決一些子問題,才能做出準確的判斷。

大型語言模型(LLM)的發(fā)展正經(jīng)歷類似的轉(zhuǎn)變。最初,研究人員專注于擴大預訓練資源,認為模型越大越好。但現(xiàn)在,重點已轉(zhuǎn)向后訓練技術(shù),尤其是如何使模型與人類偏好保持一致,以及增強特定能力,比如推理能力。

在這個過程中,強化學習成為了一個基礎方法,它可以利用人類反饋(RLHF)或可驗證獎勵(RLVR)來引導模型學習。雖然RLVR在數(shù)學推理等任務上取得了不錯的成果,但它受限于只能用于有明確驗證答案的訓練查詢。相比之下,RLHF通常使用獎勵模型作為人類偏好的代理,可以應用于更廣泛的領域。因此,開發(fā)準確且廣泛適用的獎勵模型對于后訓練技術(shù)的有效性至關(guān)重要。

目前的獎勵模型主要分為兩類:標量獎勵模型和生成式獎勵模型。標量獎勵模型通常將解碼層替換為線性層,以預測單一的標量值。這些模型被訓練來最大化偏好回應和被拒絕回應之間的預測分數(shù)差異。而生成式獎勵模型則是一種新興的替代方法,它利用LLM的能力產(chǎn)生可解釋和忠實的反饋,提供了更大的靈活性,能夠遵循自適應評估指令構(gòu)建合成訓練數(shù)據(jù),從而通過迭代改進實現(xiàn)自我提升。

盡管現(xiàn)有獎勵模型被廣泛應用,但如何有效擴展測試時計算用于獎勵估計仍然是一個開放性挑戰(zhàn)。作為通用評估器,獎勵模型應該能夠適應從立即明顯的問題到需要廣泛推理的復雜任務的多樣化查詢。然而,現(xiàn)有方法幾乎對所有輸入應用統(tǒng)一的計算資源,缺乏根據(jù)查詢難度靈活分配計算資源的能力。這種僵化限制了它們在評估需要細微分析或多步推理的回應時的有效性。

二、獎勵推理模型:像人類一樣思考,再做判斷

那么,微軟研究院的團隊是如何解決這個挑戰(zhàn)的呢?他們提出了獎勵推理模型(Reward Reasoning Models,簡稱RRMs)。不同于現(xiàn)有的獎勵模型,RRM將獎勵建模視為一個推理任務,模型首先產(chǎn)生一個長鏈式思考推理過程,然后再生成最終的獎勵。

想象一下一位細心的評委在評分前會先在筆記本上寫下詳細的思考過程:分析問題的各個方面,考慮不同的解決策略,評估每種方法的優(yōu)缺點,然后才做出最終判斷。RRM正是模仿這種思考過程。

RRM使用Qwen2模型架構(gòu),以Transformer解碼器作為主干。獎勵建模任務被表述為一個文本完成問題:RRM接收查詢和相應的回應作為輸入,然后自回歸地生成由思考過程和最終判斷組成的輸出文本。

每個RRM的輸入都包含一個查詢和兩個相應的回應。RRM的目標是確定哪個回應更受偏好,并且不允許平局。研究團隊使用了RewardBench存儲庫中的系統(tǒng)提示,引導模型根據(jù)幾個評估標準對兩個回應進行系統(tǒng)分析,包括指令忠實度、有用性、準確性、無害性和詳細程度。模型還被明確指示避免常見偏見(如回應順序或長度),并必須在做出判斷前通過結(jié)構(gòu)化推理證明其判斷。

由于RRM的輸入限制為恰好兩個候選回應,因此保留了輸出長度容量用于獎勵推理。當面對多個候選回應的場景時,RRM可以使用兩種獎勵策略:ELO評級系統(tǒng)和淘汰賽。

在ELO評級系統(tǒng)中,每個候選都與所有其他候選進行成對比較,形成一個循環(huán)賽的結(jié)構(gòu)。獲勝-失敗記錄被轉(zhuǎn)化為使用ELO評級系統(tǒng)的評分。雖然這個策略需要處理O(n?)對比較結(jié)果,但可以通過抽樣成對匹配的子集來減少計算成本。

而淘汰賽策略則靈感來自體育比賽結(jié)構(gòu),將多個候選組織成一個競賽支架。候選在連續(xù)輪次中隨機配對,獲勝者晉級到后續(xù)階段。在每次成對比較中,RRMs確定一個偏好回應,將在下一輪參與比賽。給定n個候選,這需要n-1次成對比較,復雜度為O(n)。

這兩種策略都可以與多數(shù)投票相結(jié)合,進一步利用測試時計算。通過對每次成對比較多次采樣RRMs,然后執(zhí)行多數(shù)投票來獲取成對比較結(jié)果,實現(xiàn)了多數(shù)投票與兩種方法的無縫集成。這種組合方法增強了獎勵評估的穩(wěn)健性,同時有效利用了測試時的額外計算資源。

三、如何訓練模型學會思考?強化學習的妙用

但這里有一個難題:如何訓練模型進行這種深入思考?通常,我們需要大量的示例,展示"好的思考過程是什么樣的"。但提供獎勵推理軌跡的監(jiān)督數(shù)據(jù)并不易獲取。

研究團隊開發(fā)了一個稱為"通過強化學習的獎勵推理"的訓練框架來訓練RRMs。不同于依賴現(xiàn)有推理痕跡的常規(guī)監(jiān)督微調(diào)方法,這個框架鼓勵RRMs在基于規(guī)則的獎勵環(huán)境中自主進化其推理能力。

獎勵函數(shù)被定義為:如果RRM選擇了正確的回應,獎勵為+1;否則為-1。注意,這個獎勵評估的是RRM是否正確偏好地面真實回應,而不是對其自身輸出進行評分。盡管獎勵信號很簡單,但這種基于規(guī)則的獎勵可以有效監(jiān)督策略模型發(fā)展出能夠?qū)е抡_最終判斷的推理模式。

研究團隊使用DeepSeek-R1蒸餾模型作為基礎模型,應用群體相對策略優(yōu)化(GRPO)進行訓練,并使用verl庫實現(xiàn)。通過這種方法,模型能夠通過試錯和反饋,逐漸學習到有效的推理策略,就像人類通過經(jīng)驗積累學習思考一樣。

為了訓練RRMs,團隊需要多樣化的成對偏好數(shù)據(jù),涵蓋各種能力并與人類偏好一致。除了來自Skywork-Reward的偏好對外,他們還從各種數(shù)據(jù)源合成了偏好對。他們從Tülu 3提示數(shù)據(jù)集中隨機抽樣了80K個查詢,使用DeepSeek-R1-Distill-Qwen-1.5B為每個查詢生成兩個回應,并使用GPT-4o注釋偏好標簽。

此外,他們還使用來自WebInstruct-verified、Skywork-OR1、Big-Math-RL和DAPO-Math的可驗證問題-答案對合成偏好對。他們提示DeepSeek-R1蒸餾的1.5B和7B Qwen模型為每個問題生成幾個回應,然后應用基于規(guī)則的驗證器來評估回應。如果至少有一個回應是正確的,而另一個是不正確的,他們就將正確-不正確對添加到訓練數(shù)據(jù)中。最終的訓練數(shù)據(jù)集包含約420K個偏好對。

研究團隊訓練了RRM-7B和RRM-32B模型,分別使用不同的數(shù)據(jù)混合比例。這種訓練方法使模型能夠通過反復試錯和反饋,逐步學習如何進行有效的獎勵推理,而無需提供顯式的推理軌跡作為訓練數(shù)據(jù)。

四、實驗結(jié)果:更深入的思考帶來更好的判斷

研究團隊設計了一系列實驗,評估RRMs在獎勵模型基準測試和實際應用中的表現(xiàn),并分析RRMs如何利用額外的測試時計算來實現(xiàn)更好的性能,以及研究RRM在多個領域展示的推理模式。

在RewardBench和PandaLM測試兩個廣泛使用的獎勵模型基準測試上,RRMs與Skywork-Reward、GPT-4o、Claude 3.5 Sonnet、JudgeLM、DeepSeek-GRM和RM-R1等強基準進行了比較。結(jié)果顯示,RRMs實現(xiàn)了與強基準相當?shù)莫剟钅P托阅埽C明了它們在產(chǎn)生與人類偏好一致的獎勵方面的有效性。

值得注意的是,RRM-32B在RewardBench的推理類別中達到了98.6的準確率。將RRMs與DirectJudge模型(使用相同數(shù)據(jù)訓練的模型)進行比較,揭示了在推理方面存在顯著的性能差距。這種差異表明RRMs有效利用了測試時計算,從而增強了復雜查詢的性能,這些查詢受益于深思熟慮的推理過程。

在獎勵引導的最佳N推理評估中,研究團隊使用淘汰賽獎勵策略來識別最佳N個回應。他們的方法與幾個強基準比較,包括Skywork-Reward-Gemma-2-27B-v0.2和GPT-4o。結(jié)果表明,RRMs超過了所有基準模型,即使沒有利用通過多數(shù)投票的額外測試時計算。

此外,研究團隊還評估了他們的獎勵模型,遵循Frick等人提出的二元偏好分類標準協(xié)議。RRMs在所有三個基準測試中保持強勁表現(xiàn),始終優(yōu)于基準獎勵模型和指令調(diào)整的LLMs。值得注意的是,RRM-32B在MMLU-Pro、MATH和GPQA上實現(xiàn)了最先進的準確率,即使與顯著更大的模型(如J1-Llama-70B)相比也是如此。

研究團隊還通過使用強化學習或直接偏好優(yōu)化對LLMs進行后訓練,使用RRM生成的獎勵來進一步評估RRMs。這種方法允許下游后訓練LLMs的性能反映獎勵信號的質(zhì)量。他們在WebInstruct查詢上使用群體相對策略優(yōu)化(GRPO)訓練DeepSeek-R1-Distill-Qwen-7B。不同于為每個樣本單獨分配獎勵,他們將從同一查詢生成的回應樣本分組,并讓它們相互競爭。

結(jié)果表明,后訓練模型的下游性能在整個訓練過程中穩(wěn)步提高。這些結(jié)果證明了RRMs可以有效指導使用強化學習進行后訓練,盡管大多數(shù)之前的工作完全依賴于標量獎勵模型。這凸顯了RRMs作為后訓練管道中傳統(tǒng)標量獎勵模型的引人注目的替代方案的實際可行性。

五、深入推理能力:更靈活的測試時計算

在傳統(tǒng)的獎勵模型中,無論問題簡單還是復雜,模型都會投入相同的計算資源。這就像一位老師對每道題目都花相同的時間評分,無論是加減法還是微積分。而RRMs的一個關(guān)鍵優(yōu)勢在于它們能夠根據(jù)問題的復雜度靈活調(diào)整分配給思考過程的計算資源。

研究團隊進行了并行測試時計算擴展實驗,評估RRMs在增加測試時計算資源下的擴展行為。他們使用Qwen2.5-Math-7B-Instruct為每個MATH問題生成8個候選回應,然后使用RRMs進行獎勵引導的最佳N推理。

如圖5所示,隨著成對比較數(shù)量的增加,RRM-7B和RRM-32B在MATH上的最佳N性能都穩(wěn)步提高。這種一致的趨勢表明RRMs可以適應性地利用動態(tài)測試時計算預算來改進最終輸出。此外,他們還探索了多數(shù)投票的效果,多數(shù)投票是通過多次采樣RRM輸出來利用額外的測試時計算。結(jié)果表明,多數(shù)投票是將增加的測試時計算轉(zhuǎn)化為性能提升的有效方法,進一步證明了他們方法的可擴展性。

研究團隊還比較了評分策略,特別是使用RRMs通過淘汰賽或ELO評級系統(tǒng)評估候選者。結(jié)果表明,ELO評級在RRM-7B和RRM-32B中始終優(yōu)于淘汰賽。然而,淘汰賽產(chǎn)生的性能只略低,同時需要更少的計算資源——只需O(n)比較。這種效率-性能權(quán)衡突顯了他們方法在適應不同計算約束方面的靈活性。

除了并行擴展,研究團隊還研究了啟用更長的思想鏈對性能的影響。他們通過設置最大令牌限制來控制思考預算,評估RRMs在RewardBench上的表現(xiàn)。如果在限制之前沒有生成過渡信號,則該階段被截斷。他們還設置了一個小的后思考預算,以防止計算黑客攻擊,即確保性能改進真正反映了RRMs的推理能力的有效性,而不僅僅是增加輸出長度。

在7B、14B和32B RRMs的實驗中,更長的思考范圍一致地提高了所有模型大小的輸出準確率(圖6)。這些改進在不同的模型容量中是一致的,證明了RRMs能夠有效利用擴展的思考預算來逐步增強獎勵準確率。這一發(fā)現(xiàn)證實了RRMs的推理能力可以通過額外的順序計算來擴展,提供了一種提高獎勵模型性能的靈活方法,既不需要更大的模型大小,也不需要額外的推理通過。

六、揭秘推理模式:RRMs如何思考?

為了更深入地理解RRMs的工作原理,研究團隊分析了RRM-32B的推理模式,通過統(tǒng)計測量模型回應中包含"等待"和"另外"等關(guān)鍵詞的比例。他們將推理模式分為四類:轉(zhuǎn)變(切換視角或策略)、反思(自我檢查或回顧早期步驟)、比較(評估多個選項)和分解(分解問題)。

如圖8所示,與DeepSeek-R1-Distill-Qwen-32B模型相比,RRM-32B在判斷兩個答案的優(yōu)劣時展示了更大程度的推理模式總體利用率,特別是在從不同角度分析和進行深入比較方面。相比之下,DeepSeek-R1-Distill-Qwen-32B模型更頻繁地使用分解模式,這表明在做出判斷時更傾向于直接解決問題,但不太傾向于比較兩個答案的優(yōu)點和進行自我檢查。這種推理模式的區(qū)別突顯了他們的獎勵推理通過強化學習框架如何塑造模型對評估任務的方法。

表6展示了DeepSeek-R1-Distill-Qwen-32B和RRM-32B輸出的案例研究。在對單個示例的回應中,RRM-32B表現(xiàn)出更強的傾向于迭代應用推理模式,以進行更全面、深入的比較。DeepSeek-R1-Distill-Qwen-32B模型的推理過程往往簡單而單一——包括對兩個答案的單獨分析,然后是總結(jié)。相比之下,RRM-32B的思考過程涉及多次迭代的自我反思、比較分析和考慮各種視角,融入了更詳細的分析和對指令的解釋。因此,RRM-32B表現(xiàn)出增強的能力,可以遵循指令并提供更準確的比較判斷。這種迭代推理方法似乎是RRMs在各種評估任務中表現(xiàn)優(yōu)越的關(guān)鍵因素。

七、研究啟示與未來方向

這項研究的主要貢獻集中在三個方面:首先,提出了獎勵推理模型(RRMs),這些模型在產(chǎn)生最終獎勵之前執(zhí)行顯式推理。這種推理階段使RRMs能夠適應性地分配額外的計算資源,評估對復雜任務的回應。RRMs通過有效擴展測試時計算來增強獎勵建模,同時保持在各種評估場景中的普遍適用性和有效性。

其次,開發(fā)了一個名為"通過強化學習的獎勵推理"的框架。這個框架鼓勵RRMs自主發(fā)展獎勵推理能力,無需顯式推理軌跡作為訓練數(shù)據(jù)。

最后,通過廣泛的實驗,團隊不僅證明了RRMs在獎勵建模中的卓越表現(xiàn),還證明了它們有前景的測試時擴展特性。

這項研究為未來的獎勵模型開發(fā)提供了新的視角,表明讓模型"像人類一樣思考"——即通過顯式推理過程來達到判斷——可以顯著提高評估性能。這種方法不僅提高了準確性,還提供了更大的靈活性,允許模型在需要時分配更多計算資源,而對于簡單的判斷則快速處理。

研究團隊還開源了代碼和模型,支持和加速LLM后訓練社區(qū)內(nèi)的研究。未來的研究方向可能包括探索更復雜的獎勵函數(shù)、集成多模態(tài)輸入的能力,以及進一步優(yōu)化推理過程的效率。

總的來說,微軟研究院的這項研究為開發(fā)更智能、更靈活的評估系統(tǒng)鋪平了道路,這些系統(tǒng)能夠像人類一樣,根據(jù)問題的復雜性調(diào)整思考深度,從而做出更準確的判斷。這不僅對人工智能研究有重要意義,也為如何設計更符合人類思考過程的智能系統(tǒng)提供了寶貴啟示。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-