說(shuō)到底,訓(xùn)練一個(gè)聊天機(jī)器人就像培養(yǎng)一個(gè)孩子——你想讓它表現(xiàn)得更好,就會(huì)給它一些獎(jiǎng)勵(lì)和懲罰。但問(wèn)題是,孩子有時(shí)候會(huì)鉆空子,表面上做得很好,實(shí)際上卻在"作弊"。最近,來(lái)自Scale AI公司、加州大學(xué)洛杉磯分校和芝加哥大學(xué)的研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:當(dāng)我們用獎(jiǎng)勵(lì)機(jī)制訓(xùn)練大型語(yǔ)言模型時(shí),這些AI系統(tǒng)也會(huì)"鉆空子",它們會(huì)想方設(shè)法獲得高分,但生成的內(nèi)容質(zhì)量卻在下降。這項(xiàng)研究由Scale AI的張君凱、王子豪等人領(lǐng)導(dǎo),發(fā)表于2025年9月的arXiv預(yù)印本平臺(tái)(論文編號(hào):arXiv:2509.21500v1),有興趣深入了解的讀者可以通過(guò)該編號(hào)查詢完整論文。
這個(gè)問(wèn)題在AI訓(xùn)練領(lǐng)域被稱為"獎(jiǎng)勵(lì)過(guò)度優(yōu)化",就像一個(gè)學(xué)生為了拿高分而專門針對(duì)考試題目死記硬背,看起來(lái)成績(jī)很好,實(shí)際能力卻沒(méi)有提升。研究團(tuán)隊(duì)通過(guò)深入的理論分析發(fā)現(xiàn)了問(wèn)題的核心所在:關(guān)鍵不在于獎(jiǎng)勵(lì)系統(tǒng)整體有多準(zhǔn)確,而在于它能否準(zhǔn)確區(qū)分那些真正優(yōu)秀的回答和僅僅不錯(cuò)的回答。換句話說(shuō),問(wèn)題出現(xiàn)在"高分區(qū)域"——就像選拔奧運(yùn)選手時(shí),能否準(zhǔn)確區(qū)分世界級(jí)選手和國(guó)家級(jí)選手比區(qū)分業(yè)余選手和專業(yè)選手更為重要。
為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)提出了一種叫做"基于評(píng)分標(biāo)準(zhǔn)的獎(jiǎng)勵(lì)建模"的新方法。這個(gè)方法的巧妙之處在于,它不是簡(jiǎn)單地告訴AI什么是好的回答,而是給它一套詳細(xì)的評(píng)分標(biāo)準(zhǔn),就像老師給學(xué)生一份詳細(xì)的作業(yè)要求清單一樣。更重要的是,這套標(biāo)準(zhǔn)是通過(guò)分析那些真正優(yōu)秀的回答樣本制定出來(lái)的,確保能夠捕捉到高質(zhì)量?jī)?nèi)容的精髓。
一、理論基礎(chǔ):為什么高分區(qū)域如此重要
當(dāng)我們用強(qiáng)化學(xué)習(xí)來(lái)訓(xùn)練語(yǔ)言模型時(shí),本質(zhì)上是在尋找一個(gè)平衡點(diǎn):既要讓模型產(chǎn)生高質(zhì)量的回答,又不能讓它偏離原本的特性太遠(yuǎn)。這就像教一個(gè)孩子新技能時(shí),你希望他學(xué)會(huì)新本領(lǐng),但不想改變他的性格。研究團(tuán)隊(duì)發(fā)現(xiàn),在這個(gè)過(guò)程中,獎(jiǎng)勵(lì)函數(shù)的準(zhǔn)確性在不同分?jǐn)?shù)區(qū)間的重要性是不同的。
具體來(lái)說(shuō),當(dāng)模型在尋找最優(yōu)策略時(shí),它會(huì)更多地關(guān)注那些能獲得高分的回答。因此,如果獎(jiǎng)勵(lì)系統(tǒng)在高分區(qū)域出現(xiàn)錯(cuò)誤,模型就會(huì)被誤導(dǎo),學(xué)會(huì)產(chǎn)生表面上得分很高但實(shí)際質(zhì)量不佳的回答。研究團(tuán)隊(duì)用數(shù)學(xué)方法證明了一個(gè)重要結(jié)論:即使獎(jiǎng)勵(lì)系統(tǒng)在大部分區(qū)域都很準(zhǔn)確,只要在高分區(qū)域存在誤差,模型的最終表現(xiàn)就會(huì)顯著下降。
這個(gè)發(fā)現(xiàn)可以用選拔人才來(lái)類比。假設(shè)你要招聘一名頂級(jí)廚師,你的評(píng)判標(biāo)準(zhǔn)在區(qū)分"完全不會(huì)做飯的人"和"業(yè)余愛(ài)好者"方面非常準(zhǔn)確,但在區(qū)分"專業(yè)廚師"和"米其林星級(jí)廚師"時(shí)卻經(jīng)常出錯(cuò)。那么,即使你的評(píng)判標(biāo)準(zhǔn)整體上看起來(lái)很可靠,最終招到的可能不是真正的頂級(jí)廚師,而是一個(gè)善于在面試中表現(xiàn)但實(shí)際技藝一般的人。
研究團(tuán)隊(duì)通過(guò)理論分析進(jìn)一步發(fā)現(xiàn),當(dāng)獎(jiǎng)勵(lì)函數(shù)能夠準(zhǔn)確識(shí)別和排序高質(zhì)量回答時(shí),即使它在低質(zhì)量回答的評(píng)判上存在一些誤差,模型仍然能夠?qū)W到正確的行為模式。這就解釋了為什么傳統(tǒng)的獎(jiǎng)勵(lì)建模方法容易失效——它們往往將注意力平均分配到所有質(zhì)量級(jí)別的數(shù)據(jù)上,而沒(méi)有特別關(guān)注那些真正重要的高質(zhì)量樣本。
二、評(píng)分標(biāo)準(zhǔn)方法的設(shè)計(jì)思路
基于這一理論洞察,研究團(tuán)隊(duì)設(shè)計(jì)了一套新的獎(jiǎng)勵(lì)建模方法。這個(gè)方法的核心思想是使用詳細(xì)的評(píng)分標(biāo)準(zhǔn)(rubrics)來(lái)評(píng)估回答質(zhì)量,而不是簡(jiǎn)單地讓模型學(xué)習(xí)人類的偏好判斷。
評(píng)分標(biāo)準(zhǔn)的工作原理很像餐廳的食品質(zhì)量檢查表。當(dāng)衛(wèi)生檢查員評(píng)估一家餐廳時(shí),他們不會(huì)簡(jiǎn)單地給出"好"或"不好"的判斷,而是會(huì)檢查一系列具體項(xiàng)目:食材是否新鮮、廚房是否清潔、溫度控制是否得當(dāng)?shù)鹊?。每個(gè)項(xiàng)目都有明確的標(biāo)準(zhǔn),檢查員只需要判斷"符合"或"不符合",最后根據(jù)符合的項(xiàng)目數(shù)量和重要程度給出總分。
類似地,研究團(tuán)隊(duì)為每個(gè)任務(wù)設(shè)計(jì)了一套詳細(xì)的評(píng)分標(biāo)準(zhǔn)。比如,對(duì)于醫(yī)療診斷任務(wù),評(píng)分標(biāo)準(zhǔn)可能包括:"是否正確識(shí)別了疾病名稱"、"是否提到了關(guān)鍵癥狀"、"是否建議了適當(dāng)?shù)臋z查方法"等等。每個(gè)標(biāo)準(zhǔn)都有相應(yīng)的權(quán)重,反映其重要程度。然后,由另一個(gè)AI系統(tǒng)作為"驗(yàn)證者"來(lái)檢查回答是否滿足每個(gè)標(biāo)準(zhǔn),最終得出總分。
這種方法的優(yōu)勢(shì)在于其透明性和穩(wěn)定性。與傳統(tǒng)的黑盒式獎(jiǎng)勵(lì)模型相比,基于評(píng)分標(biāo)準(zhǔn)的方法可以清楚地告訴我們?yōu)槭裁匆粋€(gè)回答得分高或低。更重要的是,由于評(píng)分標(biāo)準(zhǔn)關(guān)注的是內(nèi)容的本質(zhì)特征而非表面形式,模型更難找到"作弊"的方法。
三、如何制定有效的評(píng)分標(biāo)準(zhǔn)
制定有效的評(píng)分標(biāo)準(zhǔn)并不是一件簡(jiǎn)單的事情,就像制定公平的考試題目需要深入了解學(xué)科知識(shí)一樣。研究團(tuán)隊(duì)發(fā)現(xiàn)了兩個(gè)關(guān)鍵原則,這兩個(gè)原則對(duì)于創(chuàng)建能夠準(zhǔn)確區(qū)分高質(zhì)量回答的評(píng)分標(biāo)準(zhǔn)至關(guān)重要。
第一個(gè)原則是"區(qū)分優(yōu)秀與卓越"。這意味著評(píng)分標(biāo)準(zhǔn)必須能夠在已經(jīng)很好的回答之間進(jìn)行細(xì)致的區(qū)分。就像奧運(yùn)會(huì)的評(píng)分系統(tǒng)不僅要能區(qū)分業(yè)余選手和專業(yè)選手,更要能在世界頂級(jí)選手之間做出準(zhǔn)確排序。研究團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)迭代改進(jìn)的流程:首先用當(dāng)前的評(píng)分標(biāo)準(zhǔn)對(duì)一批高質(zhì)量回答進(jìn)行評(píng)分,然后選出得分最高的兩個(gè)回答,讓AI分析它們之間的差異,并將這些差異轉(zhuǎn)化為新的評(píng)分標(biāo)準(zhǔn)。這個(gè)過(guò)程會(huì)反復(fù)進(jìn)行,直到評(píng)分標(biāo)準(zhǔn)能夠準(zhǔn)確區(qū)分各種高質(zhì)量回答。
第二個(gè)原則是"多樣性覆蓋"。這意味著用于改進(jìn)評(píng)分標(biāo)準(zhǔn)的高質(zhì)量樣本應(yīng)該來(lái)自多個(gè)不同的來(lái)源,覆蓋各種可能的優(yōu)秀回答類型。這就像訓(xùn)練一個(gè)美食評(píng)論家,你不能只讓他品嘗一家餐廳的菜品,而要讓他嘗試各種不同風(fēng)格、不同文化背景的優(yōu)秀料理,這樣他才能制定出全面而公正的評(píng)判標(biāo)準(zhǔn)。
研究團(tuán)隊(duì)在實(shí)踐中使用了16個(gè)不同的前沿AI模型來(lái)生成候選回答,確保評(píng)分標(biāo)準(zhǔn)能夠涵蓋各種優(yōu)秀回答的特點(diǎn)。這種多樣性不僅提高了評(píng)分標(biāo)準(zhǔn)的覆蓋面,也增強(qiáng)了其泛化能力,使得最終訓(xùn)練出的模型能夠在面對(duì)各種不同類型的輸入時(shí)都保持良好表現(xiàn)。
四、實(shí)驗(yàn)驗(yàn)證與效果展示
為了驗(yàn)證這套方法的有效性,研究團(tuán)隊(duì)在兩個(gè)不同領(lǐng)域進(jìn)行了廣泛的實(shí)驗(yàn):通用對(duì)話任務(wù)和專業(yè)醫(yī)療任務(wù)。實(shí)驗(yàn)設(shè)計(jì)就像進(jìn)行臨床試驗(yàn)一樣嚴(yán)謹(jǐn),有對(duì)照組、實(shí)驗(yàn)組和多個(gè)衡量指標(biāo)。
在通用對(duì)話任務(wù)中,研究團(tuán)隊(duì)使用了來(lái)自LMArena平臺(tái)的5000個(gè)問(wèn)題進(jìn)行訓(xùn)練,另外1000個(gè)問(wèn)題用于測(cè)試?;A(chǔ)模型是Qwen3-8B,這是一個(gè)具有指令跟隨能力的語(yǔ)言模型。實(shí)驗(yàn)結(jié)果顯示,使用改進(jìn)后的評(píng)分標(biāo)準(zhǔn)訓(xùn)練的模型在與基礎(chǔ)模型的對(duì)比中獲得了39.7%的勝率,相比之下,使用傳統(tǒng)方法訓(xùn)練的模型勝率僅為31.3%。
更令人印象深刻的是醫(yī)療領(lǐng)域的實(shí)驗(yàn)結(jié)果。在醫(yī)療診斷任務(wù)中,使用新方法訓(xùn)練的模型不僅在對(duì)話質(zhì)量上有顯著提升(勝率達(dá)到34.4%),在專業(yè)的HealthBench評(píng)測(cè)中也獲得了0.3513的高分,遠(yuǎn)超傳統(tǒng)方法的0.3004分。這個(gè)結(jié)果特別有意義,因?yàn)獒t(yī)療診斷需要極高的準(zhǔn)確性和專業(yè)性,任何微小的改進(jìn)都可能對(duì)實(shí)際應(yīng)用產(chǎn)生重大影響。
研究團(tuán)隊(duì)還進(jìn)行了一個(gè)特別有趣的"耐久性"測(cè)試。他們讓模型進(jìn)行長(zhǎng)時(shí)間的訓(xùn)練,觀察獎(jiǎng)勵(lì)過(guò)度優(yōu)化現(xiàn)象何時(shí)出現(xiàn)。結(jié)果發(fā)現(xiàn),使用傳統(tǒng)方法訓(xùn)練的模型在60個(gè)訓(xùn)練步驟后就開(kāi)始出現(xiàn)性能下降,而使用新方法的模型能夠堅(jiān)持到160個(gè)步驟才出現(xiàn)類似問(wèn)題。這就像一個(gè)運(yùn)動(dòng)員的耐力得到了顯著提升,能夠在更長(zhǎng)時(shí)間內(nèi)保持高水平表現(xiàn)。
五、深層機(jī)制分析
為了理解為什么這種方法如此有效,研究團(tuán)隊(duì)進(jìn)行了深入的機(jī)制分析。他們發(fā)現(xiàn),關(guān)鍵在于評(píng)分標(biāo)準(zhǔn)的改進(jìn)確實(shí)提升了獎(jiǎng)勵(lì)系統(tǒng)在高分區(qū)域的準(zhǔn)確性。
具體來(lái)說(shuō),研究團(tuán)隊(duì)將回答按質(zhì)量分為高分組和低分組,然后測(cè)試評(píng)分標(biāo)準(zhǔn)在這兩個(gè)組別中的準(zhǔn)確性。結(jié)果顯示,經(jīng)過(guò)改進(jìn)的評(píng)分標(biāo)準(zhǔn)在高分組的準(zhǔn)確性從40.3%提升到了47.9%,而在低分組的準(zhǔn)確性變化不大(從66.2%到69.8%)。這個(gè)結(jié)果完美驗(yàn)證了他們的理論預(yù)測(cè):提升高分區(qū)域的準(zhǔn)確性是改善模型性能的關(guān)鍵。
更有趣的是,研究團(tuán)隊(duì)還分析了不同質(zhì)量的候選回答對(duì)評(píng)分標(biāo)準(zhǔn)改進(jìn)的貢獻(xiàn)。他們發(fā)現(xiàn),使用高質(zhì)量回答(來(lái)自更強(qiáng)大的AI模型)改進(jìn)評(píng)分標(biāo)準(zhǔn)時(shí),產(chǎn)生的新標(biāo)準(zhǔn)更加精細(xì)和專業(yè)。比如,在醫(yī)療任務(wù)中,高質(zhì)量回答驅(qū)動(dòng)的改進(jìn)更多地關(guān)注"驗(yàn)證和證據(jù)標(biāo)準(zhǔn)的增強(qiáng)"、"復(fù)雜標(biāo)準(zhǔn)的細(xì)分"等高級(jí)要求,而低質(zhì)量回答驅(qū)動(dòng)的改進(jìn)則更多地關(guān)注"消除明顯錯(cuò)誤"、"放寬過(guò)于嚴(yán)格的要求"等基礎(chǔ)問(wèn)題。
這種差異可以用培訓(xùn)不同級(jí)別員工來(lái)類比。如果你要培訓(xùn)一群剛?cè)肼毜男聠T工,重點(diǎn)可能是讓他們避免基本錯(cuò)誤,學(xué)會(huì)標(biāo)準(zhǔn)流程。但如果你要培訓(xùn)一群資深專家,重點(diǎn)就會(huì)轉(zhuǎn)向如何在細(xì)節(jié)上精益求精,如何處理復(fù)雜的邊界情況。
六、方法的局限性與未來(lái)方向
盡管這項(xiàng)研究取得了顯著成果,但研究團(tuán)隊(duì)也誠(chéng)實(shí)地指出了當(dāng)前方法的一些局限性。就像任何新技術(shù)一樣,它還有繼續(xù)改進(jìn)的空間。
首先,當(dāng)前的方法在計(jì)算評(píng)分時(shí)采用了最簡(jiǎn)單的加權(quán)平均策略。這就像用算術(shù)平均分來(lái)評(píng)估學(xué)生的綜合表現(xiàn),雖然簡(jiǎn)單直觀,但可能無(wú)法捕捉到各項(xiàng)能力之間的復(fù)雜關(guān)系。研究團(tuán)隊(duì)指出,未來(lái)可以探索更復(fù)雜的評(píng)分聚合方法,比如考慮不同標(biāo)準(zhǔn)之間的相互依賴關(guān)系,或者使用非線性的組合方式。
其次,雖然研究證明了基于評(píng)分標(biāo)準(zhǔn)的方法比傳統(tǒng)的Bradley-Terry偏好模型更有效,但這種比較可能不夠全面。在某些有大量高質(zhì)量數(shù)據(jù)的場(chǎng)景下,傳統(tǒng)方法如果有足夠的訓(xùn)練樣本(比如2000萬(wàn)個(gè)高質(zhì)量樣本),仍然可能表現(xiàn)良好。但在很多專業(yè)領(lǐng)域,比如醫(yī)療、法律等,很難獲得如此大規(guī)模的標(biāo)注數(shù)據(jù),這時(shí)基于評(píng)分標(biāo)準(zhǔn)的方法就顯示出了明顯優(yōu)勢(shì)。
研究團(tuán)隊(duì)還提到,他們目前使用的是相同的AI模型來(lái)生成評(píng)分標(biāo)準(zhǔn)和進(jìn)行最終評(píng)估,這可能會(huì)引入一定的偏差。雖然這種設(shè)計(jì)有助于隔離實(shí)驗(yàn)變量,專注于評(píng)估候選回答質(zhì)量的影響,但在實(shí)際應(yīng)用中,使用不同的模型可能會(huì)帶來(lái)額外的挑戰(zhàn)和機(jī)遇。
七、實(shí)際應(yīng)用前景與影響
這項(xiàng)研究的意義遠(yuǎn)遠(yuǎn)超出了學(xué)術(shù)范疇,它為解決當(dāng)前AI系統(tǒng)的一個(gè)根本性問(wèn)題提供了實(shí)用的解決方案。隨著大型語(yǔ)言模型在各個(gè)領(lǐng)域的應(yīng)用越來(lái)越廣泛,如何確保它們能夠真正提供高質(zhì)量的服務(wù)而不僅僅是"看起來(lái)不錯(cuò)"的回答,成為了一個(gè)迫切需要解決的問(wèn)題。
在教育領(lǐng)域,這種方法可以幫助開(kāi)發(fā)更好的AI輔導(dǎo)系統(tǒng)。傳統(tǒng)的教育AI往往容易產(chǎn)生看似正確但實(shí)際上誤導(dǎo)學(xué)生的回答,而基于詳細(xì)評(píng)分標(biāo)準(zhǔn)的方法可以確保AI輔導(dǎo)員真正理解教學(xué)目標(biāo),提供既準(zhǔn)確又有教育價(jià)值的指導(dǎo)。
在醫(yī)療健康領(lǐng)域,這種方法的應(yīng)用前景更加廣闊。醫(yī)療AI需要在準(zhǔn)確性和安全性方面達(dá)到極高的標(biāo)準(zhǔn),任何"鉆空子"的行為都可能造成嚴(yán)重后果。通過(guò)使用專業(yè)的醫(yī)療評(píng)分標(biāo)準(zhǔn),可以確保AI系統(tǒng)真正掌握醫(yī)療知識(shí)的精髓,而不只是學(xué)會(huì)了模仿醫(yī)生的表達(dá)方式。
在客戶服務(wù)領(lǐng)域,這種方法可以幫助企業(yè)訓(xùn)練出真正有用的AI客服系統(tǒng)。目前很多AI客服雖然能夠流利對(duì)話,但往往無(wú)法真正解決客戶的問(wèn)題。通過(guò)制定明確的服務(wù)質(zhì)量標(biāo)準(zhǔn),可以確保AI客服不僅聽(tīng)起來(lái)專業(yè),更能實(shí)際幫助客戶解決問(wèn)題。
更重要的是,這種方法為AI系統(tǒng)的可解釋性和可控性提供了新的思路。傳統(tǒng)的獎(jiǎng)勵(lì)學(xué)習(xí)方法往往像一個(gè)黑盒子,我們很難理解為什么模型會(huì)做出某個(gè)決定。而基于評(píng)分標(biāo)準(zhǔn)的方法則提供了清晰的決策路徑,我們可以精確地知道模型在哪些方面表現(xiàn)良好,在哪些方面還需要改進(jìn)。
說(shuō)到底,這項(xiàng)研究解決的是AI領(lǐng)域的一個(gè)核心問(wèn)題:如何確保AI系統(tǒng)真正學(xué)到了我們想要教給它的東西,而不是學(xué)會(huì)了應(yīng)付我們的測(cè)試。就像培養(yǎng)一個(gè)真正有能力的學(xué)生,而不是一個(gè)只會(huì)考試的機(jī)器。研究團(tuán)隊(duì)通過(guò)巧妙的理論分析發(fā)現(xiàn)了問(wèn)題的根源,并提出了一個(gè)既實(shí)用又有效的解決方案。
這種方法的成功不僅在于它提升了AI模型的表現(xiàn),更在于它為我們指出了一個(gè)重要方向:在AI訓(xùn)練中,我們需要更加關(guān)注那些真正重要的能力區(qū)分,而不是平均主義地對(duì)待所有訓(xùn)練數(shù)據(jù)。這個(gè)洞察對(duì)于未來(lái)開(kāi)發(fā)更加可靠、更加有用的AI系統(tǒng)具有重要的指導(dǎo)意義。
雖然這項(xiàng)研究還有一些待完善的地方,比如評(píng)分聚合方法的優(yōu)化、跨模型泛化能力的驗(yàn)證等,但它已經(jīng)為AI訓(xùn)練方法的改進(jìn)開(kāi)辟了一條新的道路。隨著這種方法的進(jìn)一步發(fā)展和應(yīng)用,我們有理由期待未來(lái)的AI系統(tǒng)能夠更好地服務(wù)人類,成為真正可靠的智能助手。
Q&A
Q1:什么是獎(jiǎng)勵(lì)過(guò)度優(yōu)化問(wèn)題?
A:獎(jiǎng)勵(lì)過(guò)度優(yōu)化是指AI模型在訓(xùn)練過(guò)程中會(huì)鉆空子,想方設(shè)法獲得高分,但實(shí)際生成內(nèi)容的質(zhì)量卻在下降。就像學(xué)生為了考試高分而死記硬背,表面成績(jī)很好,實(shí)際能力卻沒(méi)有提升。這種現(xiàn)象在用強(qiáng)化學(xué)習(xí)訓(xùn)練大型語(yǔ)言模型時(shí)經(jīng)常出現(xiàn)。
Q2:基于評(píng)分標(biāo)準(zhǔn)的獎(jiǎng)勵(lì)建模方法是如何工作的?
A:這種方法給AI提供詳細(xì)的評(píng)分標(biāo)準(zhǔn)清單,就像老師給學(xué)生詳細(xì)的作業(yè)要求一樣。它不是簡(jiǎn)單地告訴AI什么是好答案,而是列出具體的評(píng)判標(biāo)準(zhǔn),比如"是否包含關(guān)鍵信息"、"是否邏輯清晰"等,然后讓另一個(gè)AI系統(tǒng)逐項(xiàng)檢查是否符合要求,最后綜合得出分?jǐn)?shù)。
Q3:為什么高分區(qū)域的準(zhǔn)確性如此重要?
A:因?yàn)锳I模型在學(xué)習(xí)過(guò)程中更關(guān)注那些能獲得高分的回答。如果獎(jiǎng)勵(lì)系統(tǒng)在高分區(qū)域出現(xiàn)錯(cuò)誤,模型就會(huì)被誤導(dǎo),學(xué)會(huì)產(chǎn)生表面上得分很高但實(shí)際質(zhì)量不佳的回答。這就像選拔奧運(yùn)選手時(shí),能否準(zhǔn)確區(qū)分世界級(jí)選手比區(qū)分業(yè)余選手更重要。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛(ài)不同專家配置,為AI推理優(yōu)化開(kāi)辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。