想要讓人工智能變得更聰明,就像培養(yǎng)一個(gè)優(yōu)秀的學(xué)生一樣,需要有好老師來(lái)指導(dǎo)。而在AI的世界里,這個(gè)"老師"的角色就是由"獎(jiǎng)勵(lì)模型"來(lái)?yè)?dān)任的。最近,中科院自動(dòng)化所的研究團(tuán)隊(duì)聯(lián)合字節(jié)跳動(dòng)等機(jī)構(gòu),發(fā)布了一項(xiàng)突破性研究成果——BaseReward,這是一個(gè)專門為多模態(tài)AI模型量身定制的"超級(jí)評(píng)委"系統(tǒng)。這項(xiàng)研究由中科院的張藝凡、楊海華等人領(lǐng)導(dǎo),發(fā)表于2025年9月的arXiv預(yù)印本平臺(tái),感興趣的讀者可以通過(guò)arXiv:2509.16127訪問(wèn)完整論文。
這項(xiàng)研究的重要性可以用一個(gè)簡(jiǎn)單的比喻來(lái)理解:當(dāng)你教孩子畫畫時(shí),如果沒(méi)有人告訴他哪里畫得好、哪里需要改進(jìn),孩子就很難進(jìn)步。同樣,現(xiàn)在的AI模型能夠同時(shí)處理文字、圖片、視頻等多種信息(這就是所謂的"多模態(tài)"),但要讓它們變得更智能、更符合人類的期望,就需要一個(gè)能夠準(zhǔn)確評(píng)判其表現(xiàn)好壞的"評(píng)委"。
傳統(tǒng)的AI訓(xùn)練就像是盲人摸象,缺乏統(tǒng)一的評(píng)判標(biāo)準(zhǔn)。研究團(tuán)隊(duì)發(fā)現(xiàn),雖然目前已經(jīng)有一些多模態(tài)獎(jiǎng)勵(lì)模型,但它們就像是各自為政的地方法官,缺乏一套通用的"執(zhí)法標(biāo)準(zhǔn)"。有的模型專門評(píng)判文字回答,有的專門看圖片理解,還有的專注于安全性檢查,但沒(méi)有一個(gè)真正的"全能評(píng)委"能夠統(tǒng)一標(biāo)準(zhǔn)、綜合評(píng)價(jià)。
更關(guān)鍵的是,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)令人意外的現(xiàn)象:加入純文本數(shù)據(jù)居然能顯著提升多模態(tài)模型的判斷能力。這就好比讓一個(gè)美食評(píng)委不僅要懂得品嘗菜肴,還要學(xué)會(huì)欣賞食譜的文字描述,結(jié)果發(fā)現(xiàn)這樣的綜合訓(xùn)練讓評(píng)委的判斷更加準(zhǔn)確和全面。
一、構(gòu)建多模態(tài)獎(jiǎng)勵(lì)模型的"烹飪秘籍"
研究團(tuán)隊(duì)的工作就像是編寫一本詳盡的"烹飪秘籍",告訴大家如何從零開始制作一道完美的"多模態(tài)獎(jiǎng)勵(lì)模型大餐"。在這個(gè)比喻中,不同的獎(jiǎng)勵(lì)模型訓(xùn)練方法就像是不同的烹飪手法,而數(shù)據(jù)就是各種食材,模型架構(gòu)則是廚具的選擇。
研究團(tuán)隊(duì)首先對(duì)比了三種主要的"烹飪方法"。第一種是"簡(jiǎn)單直接法"(Naive-RM),就像用最基本的平底鍋直接煎蛋,在預(yù)訓(xùn)練好的多模態(tài)模型上直接加一個(gè)線性的評(píng)分頭,讓模型輸出一個(gè)數(shù)字分?jǐn)?shù)。這種方法雖然簡(jiǎn)單快速,但就像黑盒子一樣,你不知道它為什么給出這個(gè)分?jǐn)?shù)。
第二種是"評(píng)論家方法"(Critic-based RM),類似于先讓廚師品嘗并描述菜品的味道,然后根據(jù)描述來(lái)打分。模型會(huì)先生成一段文字分析,解釋為什么這個(gè)回答好或不好,然后再給出最終評(píng)分。這種方法的好處是過(guò)程透明,但問(wèn)題是如果第一步的"品嘗分析"質(zhì)量不高,最終的評(píng)分也會(huì)受影響。
第三種是"生成式方法"(GRM),就像讓評(píng)委直接說(shuō)出"這道菜比那道菜好"。模型不輸出數(shù)字分?jǐn)?shù),而是直接生成文本,比如說(shuō)"回答1比回答2更好"或者簡(jiǎn)單的"1"、"2"來(lái)表示偏好。這種方法的優(yōu)點(diǎn)是結(jié)果容易理解,但計(jì)算成本較高,就像每次都要寫一篇詳細(xì)的美食評(píng)論一樣耗時(shí)。
通過(guò)大量實(shí)驗(yàn)對(duì)比,研究團(tuán)隊(duì)發(fā)現(xiàn),雖然生成式方法在某些特定任務(wù)(如編程和安全判斷)上表現(xiàn)出色,但考慮到計(jì)算效率和實(shí)際應(yīng)用的便利性,簡(jiǎn)單直接的Naive-RM方法實(shí)際上是最佳選擇。這就像發(fā)現(xiàn),有時(shí)候最簡(jiǎn)單的煎蛋方法反而能做出最美味的早餐。
二、精心設(shè)計(jì)獎(jiǎng)勵(lì)模型的"內(nèi)部構(gòu)造"
確定了基本的"烹飪方法"后,研究團(tuán)隊(duì)開始精心設(shè)計(jì)模型的內(nèi)部結(jié)構(gòu),這就像選擇合適的鍋具和調(diào)節(jié)火候一樣重要。在傳統(tǒng)的獎(jiǎng)勵(lì)模型中,評(píng)分頭通常只是一個(gè)簡(jiǎn)單的線性層,就像只用一個(gè)平底鍋來(lái)做所有菜品。
但研究團(tuán)隊(duì)發(fā)現(xiàn),使用多層感知機(jī)(MLP)作為獎(jiǎng)勵(lì)頭能顯著提升性能。具體來(lái)說(shuō),他們測(cè)試了不同層數(shù)和激活函數(shù)的組合。層數(shù)就像是烹飪的步驟數(shù)量,太少可能無(wú)法充分處理復(fù)雜信息,太多則可能導(dǎo)致過(guò)度復(fù)雜化。經(jīng)過(guò)反復(fù)實(shí)驗(yàn),他們發(fā)現(xiàn)兩層結(jié)構(gòu)是最佳選擇,就像很多經(jīng)典菜譜都需要兩個(gè)主要步驟一樣。
激活函數(shù)的選擇就像是調(diào)料的搭配。研究團(tuán)隊(duì)測(cè)試了多種"調(diào)料",包括Tanh、SiLU等,最終發(fā)現(xiàn)SiLU激活函數(shù)能帶來(lái)最好的效果。這個(gè)發(fā)現(xiàn)有點(diǎn)像廚師經(jīng)過(guò)無(wú)數(shù)次嘗試后發(fā)現(xiàn),某種特定的香料搭配能讓菜品的味道達(dá)到最佳平衡。
有趣的是,當(dāng)層數(shù)超過(guò)兩層時(shí),性能反而開始下降,這說(shuō)明在獎(jiǎng)勵(lì)模型設(shè)計(jì)中,"簡(jiǎn)約而不簡(jiǎn)單"是一個(gè)重要原則。就像烹飪中的道理一樣,有時(shí)候過(guò)度復(fù)雜的工序反而會(huì)破壞食材本身的味道。
三、訓(xùn)練策略的"火候掌控"
在確定了基本結(jié)構(gòu)后,研究團(tuán)隊(duì)還深入研究了訓(xùn)練過(guò)程中的各種"火候掌控"技巧。他們測(cè)試了兩種常見(jiàn)的正則化策略,這就像是在烹飪過(guò)程中控制火力大小和調(diào)味量。
第一種是"零系數(shù)正則化",目標(biāo)是讓模型給出的獎(jiǎng)勵(lì)分?jǐn)?shù)盡可能接近零點(diǎn),避免出現(xiàn)極端的高分或低分。這就像是要求廚師在評(píng)價(jià)菜品時(shí)保持中庸態(tài)度,不要輕易給出滿分或零分。第二種是"長(zhǎng)度歸一化",旨在減少模型對(duì)回答長(zhǎng)度的偏見(jiàn),避免簡(jiǎn)單地認(rèn)為"越長(zhǎng)的回答越好"。
但令人意外的是,實(shí)驗(yàn)結(jié)果顯示這些看似合理的"調(diào)味技巧"實(shí)際上并沒(méi)有帶來(lái)性能提升,有時(shí)甚至?xí)a(chǎn)生負(fù)面影響。這個(gè)發(fā)現(xiàn)有點(diǎn)像某些傳統(tǒng)烹飪智慧經(jīng)過(guò)科學(xué)驗(yàn)證后發(fā)現(xiàn)并不準(zhǔn)確。因此,研究團(tuán)隊(duì)在最終的BaseReward模型中選擇了不使用任何額外的正則化損失,保持訓(xùn)練過(guò)程的簡(jiǎn)潔性。
這個(gè)結(jié)果告訴我們,在機(jī)器學(xué)習(xí)中,有時(shí)候"少即是多"的哲學(xué)同樣適用。過(guò)度的約束和限制可能會(huì)束縛模型的學(xué)習(xí)能力,就像過(guò)度調(diào)味可能會(huì)掩蓋食材的本味一樣。
四、數(shù)據(jù)配方的"食材選擇"與"營(yíng)養(yǎng)搭配"
在獎(jiǎng)勵(lì)模型訓(xùn)練中,數(shù)據(jù)的選擇和搭配就像是準(zhǔn)備一桌營(yíng)養(yǎng)均衡的大餐需要精心挑選各種食材。研究團(tuán)隊(duì)收集了超過(guò)十個(gè)不同類型的數(shù)據(jù)集,其中包括多模態(tài)數(shù)據(jù)(同時(shí)包含圖片和文字的內(nèi)容)和純文本數(shù)據(jù)。
這些數(shù)據(jù)集就像是不同類型的食材:有些專門訓(xùn)練模型識(shí)別圖片中的幻覺(jué)錯(cuò)誤,有些專注于提升數(shù)學(xué)推理能力,還有些專門處理安全相關(guān)的問(wèn)題。研究團(tuán)隊(duì)發(fā)現(xiàn),并不是所有的"食材"都對(duì)最終的"菜品"有積極作用。比如MMIF和SHP這兩個(gè)數(shù)據(jù)集,就像是變質(zhì)的食材,不僅沒(méi)有營(yíng)養(yǎng)價(jià)值,還可能影響整體效果。
更令人驚訝的發(fā)現(xiàn)是,某些純文本數(shù)據(jù)集的效果竟然不亞于專門的多模態(tài)數(shù)據(jù)集。這就好比發(fā)現(xiàn),在制作海鮮大餐時(shí),添加一些看似不相關(guān)的陸地蔬菜反而能讓整體味道更加豐富和諧。具體來(lái)說(shuō),像Ultra-Hard和Olmo-2這樣的純文本數(shù)據(jù)集,在多模態(tài)任務(wù)上的表現(xiàn)甚至超過(guò)了一些專門的多模態(tài)數(shù)據(jù)集。
這個(gè)現(xiàn)象的原因在于,純文本數(shù)據(jù)集通常包含大量的安全性和數(shù)學(xué)內(nèi)容,這些"營(yíng)養(yǎng)成分"能夠顯著提升模型在相應(yīng)維度上的判斷能力。比如,在安全性評(píng)估方面,經(jīng)過(guò)純文本數(shù)據(jù)訓(xùn)練的模型在多模態(tài)安全評(píng)估中的表現(xiàn)明顯更好,就像在湯中加入特定的草藥能增強(qiáng)整體的營(yíng)養(yǎng)價(jià)值。
研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)重要的"營(yíng)養(yǎng)搭配"原則:要保持模型在純文本任務(wù)上的強(qiáng)大能力,必須在訓(xùn)練數(shù)據(jù)中包含足夠的文本數(shù)據(jù)。這就像要保持身體健康,日常飲食中必須包含足夠的蛋白質(zhì)和維生素。只用多模態(tài)數(shù)據(jù)訓(xùn)練的模型在處理純文本任務(wù)時(shí)表現(xiàn)會(huì)明顯下降。
五、"主廚"選擇:模型骨干的重要性
在構(gòu)建獎(jiǎng)勵(lì)模型時(shí),選擇合適的基礎(chǔ)模型就像選擇一位經(jīng)驗(yàn)豐富的主廚來(lái)掌勺。研究團(tuán)隊(duì)測(cè)試了多個(gè)知名的多模態(tài)模型作為"主廚候選人",包括Intern-VL系列和Qwen-VL系列,這些就像是來(lái)自不同烹飪學(xué)校的頂級(jí)廚師。
實(shí)驗(yàn)結(jié)果顯示,不同的"主廚"確實(shí)有各自的專長(zhǎng)領(lǐng)域。Qwen-VL系列就像是擅長(zhǎng)處理復(fù)雜多樣菜品的全能型廚師,在多模態(tài)獎(jiǎng)勵(lì)建模任務(wù)上表現(xiàn)出色。而Intern-VL系列則像是專精傳統(tǒng)菜系的大師,在純文本相關(guān)的評(píng)判任務(wù)上更有優(yōu)勢(shì)。
具體來(lái)說(shuō),在MM-RLHF-Reward這個(gè)重要的多模態(tài)評(píng)測(cè)中,Qwen2.5-VL-7B的準(zhǔn)確率達(dá)到93.5%,比Intern-VL3-8B的83.7%高出近10個(gè)百分點(diǎn)。但在RewardBench這個(gè)主要考查文本能力的評(píng)測(cè)中,情況正好相反,Intern-VL3-8B得分84.0,超過(guò)了Qwen2.5-VL-7B的75.8分。
這種性能差異反映了不同模型的"烹飪風(fēng)格"差異。某些模型更適合處理圖文混合的復(fù)雜信息,而另一些模型在純文本理解上更有天賦。這就像有些廚師擅長(zhǎng)創(chuàng)新融合菜,有些廚師則更精通傳統(tǒng)經(jīng)典菜品。
令人意外的是,研究團(tuán)隊(duì)發(fā)現(xiàn),單純?cè)黾幽P鸵?guī)模(從7B增加到72B參數(shù))并不總是帶來(lái)顯著的性能提升。這就好比,一個(gè)經(jīng)驗(yàn)豐富的小餐廳主廚可能比大酒店的新手廚師做出更好的菜品。這個(gè)發(fā)現(xiàn)對(duì)于實(shí)際應(yīng)用很有價(jià)值,因?yàn)樗馕吨谟?jì)算資源有限的情況下,選擇合適的中等規(guī)模模型可能是更明智的選擇。
六、"美食評(píng)審團(tuán)":集體智慧的力量
既然不同的"主廚"各有專長(zhǎng),研究團(tuán)隊(duì)自然想到了組建"美食評(píng)審團(tuán)"的策略——通過(guò)集成多個(gè)模型來(lái)獲得更準(zhǔn)確、更全面的評(píng)判結(jié)果。這就像是邀請(qǐng)多位不同專長(zhǎng)的美食評(píng)委組成評(píng)審團(tuán),每個(gè)人從自己的專業(yè)角度給出評(píng)價(jià),然后綜合所有意見(jiàn)得出最終結(jié)果。
研究團(tuán)隊(duì)設(shè)計(jì)了幾種不同的"評(píng)審團(tuán)運(yùn)作方式"。第一種是基于驗(yàn)證集的加權(quán)方法,類似于根據(jù)每位評(píng)委的歷史評(píng)判準(zhǔn)確率來(lái)決定其發(fā)言權(quán)重。具體包括準(zhǔn)確率加權(quán)和置信度加權(quán)兩種方式。準(zhǔn)確率加權(quán)就像是根據(jù)評(píng)委過(guò)往的判斷正確率來(lái)分配話語(yǔ)權(quán),而置信度加權(quán)則是根據(jù)評(píng)委對(duì)自己判斷的自信程度來(lái)調(diào)整權(quán)重。
第二種是"民主投票"方式,即簡(jiǎn)單地將所有模型的評(píng)分進(jìn)行平均,就像每位評(píng)委的意見(jiàn)都同等重要。雖然這種方法看似簡(jiǎn)單粗暴,但實(shí)驗(yàn)結(jié)果表明它往往能取得很好的效果。
實(shí)驗(yàn)結(jié)果顯示,集成策略確實(shí)能帶來(lái)顯著的性能提升。在三個(gè)主要的多模態(tài)獎(jiǎng)勵(lì)建?;鶞?zhǔn)測(cè)試中,沒(méi)有任何單一模型的平均性能超過(guò)81.0分,但通過(guò)簡(jiǎn)單的平均集成策略,這個(gè)分?jǐn)?shù)提升到了82.6分。這就像是一個(gè)優(yōu)秀的評(píng)審團(tuán)往往比任何單一的評(píng)委都能做出更準(zhǔn)確的判斷。
更有趣的是,當(dāng)研究團(tuán)隊(duì)在評(píng)審團(tuán)中加入一個(gè)專門處理純文本的Qwen 3 LLM 8B模型時(shí),在純文本評(píng)估任務(wù)上的性能從80.7分躍升至82.7分。這說(shuō)明增加模型的多樣性,特別是不同專長(zhǎng)的模型,能夠顯著提升集成系統(tǒng)的整體性能。這就像在美食評(píng)審團(tuán)中加入一位專門研究傳統(tǒng)菜系的專家,能讓整個(gè)評(píng)審團(tuán)的判斷更加全面和準(zhǔn)確。
七、BaseReward的"出爐"與實(shí)力展示
基于所有這些深入研究和實(shí)驗(yàn)發(fā)現(xiàn),研究團(tuán)隊(duì)最終推出了他們的"招牌菜品"——BaseReward。這個(gè)模型采用了Qwen2.5-VL-7B作為基礎(chǔ)架構(gòu),配備了經(jīng)過(guò)優(yōu)化的兩層獎(jiǎng)勵(lì)頭,使用SiLU激活函數(shù),并且在精心篩選的280萬(wàn)個(gè)偏好數(shù)據(jù)對(duì)上進(jìn)行訓(xùn)練。
BaseReward的訓(xùn)練過(guò)程就像是遵循完美食譜的精心烹飪。研究團(tuán)隊(duì)選擇了3e-6的學(xué)習(xí)率,批次大小設(shè)定為128,整個(gè)訓(xùn)練過(guò)程在64張英偉達(dá)H100 GPU上完成。這些技術(shù)參數(shù)看似復(fù)雜,但實(shí)際上就像是烹飪中的火候控制和時(shí)間把握一樣重要。
當(dāng)BaseReward接受各種嚴(yán)格測(cè)試時(shí),它的表現(xiàn)確實(shí)令人印象深刻。在MM-RLHF-Reward Bench這個(gè)重要評(píng)測(cè)中,BaseReward的準(zhǔn)確率達(dá)到91.76%,比之前的最好成績(jī)提升了11.9%。在更具挑戰(zhàn)性的Acc+指標(biāo)上,BaseReward達(dá)到80.43%,比之前的最佳表現(xiàn)提升了23.32%。
在VL-Reward Bench評(píng)測(cè)中,BaseReward的整體準(zhǔn)確率為82.16%,比之前的最好成績(jī)提升了14.2%。這些數(shù)字雖然看起來(lái)抽象,但它們代表的意義就像是一位廚師在各種烹飪比賽中都獲得了冠軍,證明了其全面而卓越的技能。
特別值得一提的是,BaseReward作為一個(gè)"經(jīng)典款"獎(jiǎng)勵(lì)模型,具有非??斓耐评硭俣龋恍└?jìng)爭(zhēng)對(duì)手如R1-Reward和MM-RLHF-Reward需要先生成分析文本再給出評(píng)分,就像是需要先寫評(píng)論再打分的評(píng)委,這大大增加了計(jì)算開銷。BaseReward就像是能夠快速準(zhǔn)確判斷的資深評(píng)委,效率和準(zhǔn)確性兼?zhèn)洹?/p>
八、實(shí)戰(zhàn)檢驗(yàn):真正的"下廚房"測(cè)試
任何優(yōu)秀的評(píng)委系統(tǒng)最終都需要在實(shí)際應(yīng)用中證明自己的價(jià)值。研究團(tuán)隊(duì)將BaseReward集成到真實(shí)的強(qiáng)化學(xué)習(xí)訓(xùn)練流程中,就像讓這位"超級(jí)評(píng)委"真正參與到AI模型的"成長(zhǎng)教育"過(guò)程中。
他們選擇了Qwen-2.5-VL 3B作為"學(xué)生模型",使用Group Relative Policy Optimization(GRPO)算法進(jìn)行訓(xùn)練。訓(xùn)練數(shù)據(jù)來(lái)自多個(gè)具有挑戰(zhàn)性的數(shù)據(jù)集,包括專門測(cè)試感知能力的V*數(shù)據(jù)集、考查圖表理解能力的arXivQA數(shù)據(jù)集,以及評(píng)估推理能力的ThinkLite-VL數(shù)據(jù)集。
為了全面評(píng)估BaseReward的指導(dǎo)效果,研究團(tuán)隊(duì)設(shè)計(jì)了三種不同的"教學(xué)方式"。第一種是"嚴(yán)格標(biāo)準(zhǔn)法",只有當(dāng)模型的回答與標(biāo)準(zhǔn)答案完全一致時(shí)才給予滿分,否則給零分。這就像是傳統(tǒng)的應(yīng)試教育,標(biāo)準(zhǔn)嚴(yán)格但可能過(guò)于刻板。
第二種是"BaseReward評(píng)估法",完全依靠BaseReward來(lái)評(píng)判學(xué)生模型的表現(xiàn)。這就像是讓一位經(jīng)驗(yàn)豐富的老師根據(jù)自己的專業(yè)判斷來(lái)評(píng)估學(xué)生的表現(xiàn),不拘泥于標(biāo)準(zhǔn)答案的字面意思。
第三種是"混合教學(xué)法",結(jié)合了嚴(yán)格標(biāo)準(zhǔn)和靈活評(píng)估的優(yōu)點(diǎn)。當(dāng)學(xué)生的回答與標(biāo)準(zhǔn)答案完全一致時(shí)給予滿分,否則使用BaseReward的評(píng)分并通過(guò)sigmoid函數(shù)歸一化到0-1范圍內(nèi)。這就像是既有基本標(biāo)準(zhǔn),又允許老師根據(jù)學(xué)生的實(shí)際表現(xiàn)給予靈活評(píng)價(jià)。
實(shí)驗(yàn)結(jié)果表明,BaseReward的指導(dǎo)效果確實(shí)優(yōu)于競(jìng)爭(zhēng)對(duì)手R1-Reward。在多個(gè)評(píng)測(cè)基準(zhǔn)上,使用BaseReward訓(xùn)練的模型都表現(xiàn)出更好的性能。更重要的是,R1-Reward由于需要進(jìn)行復(fù)雜的成對(duì)比較計(jì)算,訓(xùn)練過(guò)程中大量時(shí)間都花費(fèi)在等待獎(jiǎng)勵(lì)計(jì)算上,效率遠(yuǎn)低于BaseReward。
特別值得注意的是,混合教學(xué)法取得了最佳效果。在數(shù)學(xué)推理任務(wù)MathVista上,這種方法將準(zhǔn)確率從基線的61.8%提升到64.3%。在對(duì)話質(zhì)量評(píng)估中,模型在LLaVA-Wild基準(zhǔn)上的勝率從48.4%提升到54.0%。這些改進(jìn)雖然看似不大,但在AI領(lǐng)域已經(jīng)是非常顯著的進(jìn)步,就像運(yùn)動(dòng)員將成績(jī)提高幾個(gè)百分點(diǎn)就可能意味著從普通選手到世界冠軍的差距。
九、意外發(fā)現(xiàn):文本數(shù)據(jù)的"神奇效應(yīng)"
研究過(guò)程中最令人意外的發(fā)現(xiàn)之一,是純文本數(shù)據(jù)對(duì)多模態(tài)獎(jiǎng)勵(lì)模型性能的顯著提升作用。這個(gè)發(fā)現(xiàn)就像是在研究海鮮料理時(shí)意外發(fā)現(xiàn),添加某些看似不相關(guān)的蔬菜竟然能讓海鮮的味道更加鮮美。
研究團(tuán)隊(duì)深入探索了這個(gè)現(xiàn)象,試圖理解為什么文本數(shù)據(jù)能夠幫助模型更好地理解圖文混合的內(nèi)容。他們的解釋是,純文本數(shù)據(jù)集通常包含大量關(guān)于安全性、數(shù)學(xué)推理、邏輯分析等方面的高質(zhì)量?jī)?nèi)容,這些"知識(shí)營(yíng)養(yǎng)"能夠增強(qiáng)模型的綜合判斷能力。
當(dāng)模型接觸到大量?jī)?yōu)質(zhì)的文本推理過(guò)程后,它學(xué)會(huì)了如何進(jìn)行深入的邏輯分析和判斷,這種能力自然地遷移到了多模態(tài)內(nèi)容的評(píng)估中。這就像是一個(gè)學(xué)會(huì)了深度思考的評(píng)委,無(wú)論面對(duì)什么類型的內(nèi)容都能給出更有見(jiàn)地的評(píng)價(jià)。
但研究團(tuán)隊(duì)也發(fā)現(xiàn)了一個(gè)有趣的"單向性"現(xiàn)象:雖然文本數(shù)據(jù)能夠提升多模態(tài)模型的性能,但多模態(tài)數(shù)據(jù)并不能顯著提升純文本任務(wù)的表現(xiàn)。這就像是學(xué)會(huì)了高級(jí)烹飪技巧確實(shí)能幫助做出更好的簡(jiǎn)單菜品,但僅僅接觸復(fù)雜菜品并不能自動(dòng)提升基礎(chǔ)烹飪技能。
基于這個(gè)發(fā)現(xiàn),研究團(tuán)隊(duì)建議在實(shí)際應(yīng)用中采用模塊化策略:為純文本任務(wù)專門訓(xùn)練一個(gè)文本獎(jiǎng)勵(lì)模型,為多模態(tài)任務(wù)使用多模態(tài)獎(jiǎng)勵(lì)模型,然后根據(jù)輸入內(nèi)容的類型動(dòng)態(tài)選擇合適的評(píng)估工具。這就像是根據(jù)不同場(chǎng)合選擇不同的專業(yè)評(píng)委,確保每個(gè)領(lǐng)域都有最合適的專家來(lái)評(píng)判。
說(shuō)到底,這項(xiàng)研究最大的貢獻(xiàn)不僅僅是推出了一個(gè)性能優(yōu)異的BaseReward模型,更重要的是為整個(gè)多模態(tài)獎(jiǎng)勵(lì)建模領(lǐng)域提供了一套完整、系統(tǒng)的"最佳實(shí)踐指南"。就像是一本詳盡的烹飪教科書,不僅包含了一道招牌菜的完整食譜,還系統(tǒng)地解釋了每個(gè)步驟背后的科學(xué)原理和實(shí)踐智慧。
研究團(tuán)隊(duì)通過(guò)大量的對(duì)比實(shí)驗(yàn),回答了這個(gè)領(lǐng)域中長(zhǎng)期困擾研究者的關(guān)鍵問(wèn)題:應(yīng)該采用什么樣的模型架構(gòu)、如何設(shè)計(jì)訓(xùn)練策略、怎樣選擇和配比訓(xùn)練數(shù)據(jù)、如何選擇合適的基礎(chǔ)模型,以及何時(shí)采用集成方法。這些問(wèn)題的答案對(duì)于任何想要構(gòu)建高質(zhì)量多模態(tài)獎(jiǎng)勵(lì)模型的研究者和工程師來(lái)說(shuō),都具有極高的參考價(jià)值。
更重要的是,BaseReward在實(shí)際的強(qiáng)化學(xué)習(xí)應(yīng)用中證明了自己的價(jià)值,這表明這項(xiàng)研究不僅在理論上有所突破,在實(shí)用性方面也達(dá)到了很高的水準(zhǔn)。歸根結(jié)底,任何AI技術(shù)的最終價(jià)值都在于能否在真實(shí)世界中發(fā)揮作用,幫助人類解決實(shí)際問(wèn)題。BaseReward在這方面的表現(xiàn)令人鼓舞,為多模態(tài)AI系統(tǒng)的進(jìn)一步發(fā)展奠定了堅(jiān)實(shí)的基礎(chǔ)。
當(dāng)然,研究團(tuán)隊(duì)也坦誠(chéng)地指出了當(dāng)前工作的局限性。由于計(jì)算資源的限制,他們沒(méi)有測(cè)試超大規(guī)模(72B參數(shù)以上)模型的表現(xiàn),這留下了進(jìn)一步探索的空間。此外,如何讓單一的多模態(tài)模型在純文本任務(wù)上也能達(dá)到專門的文本模型水平,仍然是一個(gè)有待解決的挑戰(zhàn)。
對(duì)于有興趣深入了解技術(shù)細(xì)節(jié)的讀者,建議訪問(wèn)原論文的完整版本(arXiv:2509.16127),其中包含了更多詳細(xì)的實(shí)驗(yàn)數(shù)據(jù)和技術(shù)討論。這項(xiàng)研究為多模態(tài)AI的發(fā)展開啟了新的篇章,相信會(huì)激發(fā)更多研究者在這個(gè)令人興奮的領(lǐng)域繼續(xù)探索和創(chuàng)新。
Q&A
Q1:BaseReward是什么?它和普通AI模型有什么區(qū)別?
A:BaseReward是中科院開發(fā)的一種專門用來(lái)評(píng)判AI模型回答質(zhì)量的"超級(jí)評(píng)委"系統(tǒng),特別擅長(zhǎng)處理同時(shí)包含文字和圖片的復(fù)雜內(nèi)容。它不是直接回答問(wèn)題的AI,而是專門負(fù)責(zé)判斷其他AI回答得好不好,就像老師批改作業(yè)一樣。
Q2:為什么說(shuō)文本數(shù)據(jù)能提升多模態(tài)模型的能力?
A:研究發(fā)現(xiàn)純文本數(shù)據(jù)中包含大量高質(zhì)量的邏輯推理、安全判斷和數(shù)學(xué)分析內(nèi)容,這些"知識(shí)營(yíng)養(yǎng)"能增強(qiáng)模型的綜合判斷能力。就像學(xué)會(huì)深度思考的評(píng)委,面對(duì)任何類型內(nèi)容都能給出更準(zhǔn)確的評(píng)價(jià),這種能力會(huì)自然遷移到圖文混合內(nèi)容的評(píng)估中。
Q3:BaseReward在實(shí)際應(yīng)用中表現(xiàn)如何?
A:BaseReward在多個(gè)權(quán)威測(cè)試中都創(chuàng)下了新紀(jì)錄,比如在MM-RLHF-Reward Bench測(cè)試中準(zhǔn)確率達(dá)到91.76%,比之前最好成績(jī)提升11.9%。更重要的是,當(dāng)它被用來(lái)指導(dǎo)AI模型學(xué)習(xí)時(shí),能讓模型在數(shù)學(xué)推理、對(duì)話質(zhì)量等方面都有明顯提升。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛(ài)不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。