最近,來(lái)自多家研究機(jī)構(gòu)的林孫、魏紅林、金枝吳等研究人員發(fā)表了一篇題為《評(píng)估即為一切:通過(guò)評(píng)估設(shè)計(jì)戰(zhàn)略性夸大LLM推理能力》的研究論文,該論文發(fā)表于2025年6月5日的arXiv預(yù)印本平臺(tái)(arXiv:2506.04734v1)。這項(xiàng)研究深入探討了一個(gè)令人擔(dān)憂的現(xiàn)象:在評(píng)估大語(yǔ)言模型推理能力時(shí),微小的評(píng)估條件變化可能導(dǎo)致基準(zhǔn)測(cè)試結(jié)果產(chǎn)生顯著波動(dòng),從而使模型性能聲明的可靠性受到質(zhì)疑。
一、研究背景:當(dāng)評(píng)估不再可靠
想象一下,你正在挑選一款智能手機(jī)。銷售人員向你展示了各種性能測(cè)試的結(jié)果,證明這款手機(jī)性能卓越。但如果你后來(lái)發(fā)現(xiàn),這些測(cè)試結(jié)果會(huì)因?yàn)闇y(cè)試時(shí)手機(jī)放置的角度、室內(nèi)溫度或測(cè)試人員的不同而大幅波動(dòng),你還會(huì)相信這些數(shù)據(jù)嗎?在人工智能領(lǐng)域,特別是針對(duì)大語(yǔ)言模型的推理能力評(píng)估中,正在發(fā)生類似的情況。
DeepSeek-R1-Distill系列模型因其在數(shù)學(xué)、科學(xué)和編程等領(lǐng)域的出色表現(xiàn),在開源社區(qū)廣受歡迎。然而,研究團(tuán)隊(duì)發(fā)現(xiàn),對(duì)這些模型的基準(zhǔn)測(cè)試結(jié)果極易受到各種微小因素的影響,導(dǎo)致結(jié)果大幅波動(dòng)。例如,在評(píng)估過(guò)程中改變種子初始化方法、評(píng)估數(shù)據(jù)集版本等細(xì)微條件,就能使評(píng)估結(jié)果發(fā)生顯著變化。這不僅影響DeepSeek系列模型,也影響基于它們微調(diào)的其他開源推理模型,如QwQ-32B等。
這一發(fā)現(xiàn)引發(fā)了一個(gè)嚴(yán)肅的問(wèn)題:我們?nèi)绾未_保模型性能評(píng)估的公平性和可靠性?研究團(tuán)隊(duì)通過(guò)一系列精心設(shè)計(jì)的實(shí)驗(yàn),揭示了當(dāng)前評(píng)估實(shí)踐中的漏洞,并提出了更為嚴(yán)格的評(píng)估范式。
二、實(shí)驗(yàn)設(shè)計(jì):微小變化,巨大波動(dòng)
研究團(tuán)隊(duì)選擇了在Hugging Face平臺(tái)上下載量超過(guò)500次的熱門推理模型作為評(píng)估對(duì)象,包括32B規(guī)模的DeepSeek-R1-Distill-Qwen-32B和QwQ-32B,14B規(guī)模的DeepSeek-R1-Distill-Qwen-14B和DeepCoder-14B-Preview,7B規(guī)模的DeepSeek-R1-Distill-Qwen-7B和Light-R1-7B-DS,以及1.5B規(guī)模的DeepSeek-R1-Distill-Qwen-1.5B和DeepScaleR-1.5B-Preview等多個(gè)模型。
研究團(tuán)隊(duì)主要關(guān)注三個(gè)基準(zhǔn)測(cè)試:AIME24、AIME25和GPQA Diamond,并系統(tǒng)考察了六個(gè)關(guān)鍵變量如何影響評(píng)估結(jié)果:
首先,研究人員探究了N的選擇(即對(duì)同一問(wèn)題進(jìn)行N次推理并取平均值)對(duì)結(jié)果的影響。想象你在測(cè)量一個(gè)人的反應(yīng)時(shí)間,做一次測(cè)量和做十次測(cè)量然后取平均值,結(jié)果自然會(huì)有所不同。研究發(fā)現(xiàn),隨著N值的增加,評(píng)估結(jié)果的波動(dòng)逐漸減小,當(dāng)N達(dá)到32時(shí),波動(dòng)通常能控制在1個(gè)百分點(diǎn)以內(nèi)。然而,超過(guò)75%的實(shí)驗(yàn)仍然顯示出超出基準(zhǔn)波動(dòng)范圍的偏差。
其次,研究團(tuán)隊(duì)發(fā)現(xiàn)種子(seed)參數(shù)是影響模型穩(wěn)定性的關(guān)鍵因素。這就像播種農(nóng)作物時(shí),不同的種子會(huì)生長(zhǎng)出不同的植物。研究人員設(shè)計(jì)了一個(gè)固定種子N次推理的實(shí)驗(yàn)(稱為1-Seed-N),發(fā)現(xiàn)在某些情況下,小規(guī)模模型使用特定種子甚至可以在某些基準(zhǔn)測(cè)試上匹配或超越更大規(guī)模的模型,這表明在沒(méi)有標(biāo)準(zhǔn)化種子控制的情況下,評(píng)估結(jié)果可能會(huì)反映出誤導(dǎo)性的優(yōu)勢(shì)。
第三,研究團(tuán)隊(duì)考察了評(píng)估數(shù)據(jù)集版本的影響。他們發(fā)現(xiàn),同一推理模型在不同版本的AIME評(píng)估數(shù)據(jù)集上的性能差異最高可達(dá)3.9個(gè)百分點(diǎn)。這就像用不同版本的數(shù)學(xué)考試試卷測(cè)試學(xué)生,結(jié)果自然會(huì)有所不同。有趣的是,包含完整圖像信息的數(shù)據(jù)集通常能獲得更好的評(píng)估分?jǐn)?shù),表明視覺(jué)描述對(duì)推理任務(wù)有積極貢獻(xiàn)。
第四,研究者探討了指令位置的影響。他們發(fā)現(xiàn),雖然指令位置不會(huì)導(dǎo)致評(píng)估結(jié)果的劇烈變化,但仍然會(huì)引入波動(dòng),所有變化都在2個(gè)百分點(diǎn)以內(nèi)。一般來(lái)說(shuō),將指令放在問(wèn)題之后會(huì)產(chǎn)生更好的性能,可能與模型訓(xùn)練過(guò)程中使用的輸入格式有關(guān)。
第五,研究團(tuán)隊(duì)研究了在GPQA Diamond多項(xiàng)選擇題中,選項(xiàng)順序和正確答案位置的影響。結(jié)果顯示,盡管GPQA Diamond通常表現(xiàn)出相對(duì)較低的評(píng)估變異性,但改變選項(xiàng)順序和答案位置在這項(xiàng)實(shí)驗(yàn)中引起了顯著且一致的性能波動(dòng)——大部分超過(guò)5個(gè)百分點(diǎn)。特別是,將正確答案放在第一個(gè)位置通常會(huì)提高模型性能。
最后,研究者考察了張量并行(Tensor Parallelism, TP)配置的影響。雖然改變TP設(shè)置對(duì)評(píng)估性能的影響有限,但為了可重現(xiàn)性,特別是在內(nèi)存受限的環(huán)境中,明確指定此參數(shù)設(shè)置仍然很重要。
這些實(shí)驗(yàn)結(jié)果集體表明,在評(píng)估大語(yǔ)言模型推理能力時(shí),我們需要更加謹(jǐn)慎和嚴(yán)格。
三、結(jié)果分析:波動(dòng)的深層原因
研究人員通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),這些看似微小的評(píng)估條件變化可能導(dǎo)致基準(zhǔn)測(cè)試結(jié)果大幅波動(dòng),最大波動(dòng)范圍甚至超過(guò)了模型訓(xùn)練本身帶來(lái)的性能提升。這就像體育比賽中,因?yàn)樘鞖?、?chǎng)地或裁判的不同,運(yùn)動(dòng)員的表現(xiàn)可能會(huì)有很大差異,使得真正的實(shí)力評(píng)估變得困難。
研究團(tuán)隊(duì)強(qiáng)調(diào),當(dāng)前的評(píng)估實(shí)踐缺乏標(biāo)準(zhǔn)化和透明度,可能會(huì)誤導(dǎo)開源社區(qū)的決策,導(dǎo)致開發(fā)人員在選擇和部署模型時(shí)浪費(fèi)大量計(jì)算資源和時(shí)間。
因此,研究團(tuán)隊(duì)提出了一個(gè)更加嚴(yán)格的評(píng)估范式,基于兩個(gè)核心原則:透明性和穩(wěn)定性。
四、提出解決方案:走向可靠評(píng)估
在透明性方面,研究團(tuán)隊(duì)建議評(píng)估結(jié)果不應(yīng)僅僅呈現(xiàn)基準(zhǔn)測(cè)試的比較表格,更重要的是披露所有可能影響評(píng)估結(jié)果的因素,包括評(píng)估方法、推理框架、參數(shù)設(shè)置、數(shù)據(jù)版本和硬件配置等。此外,在比較不同模型時(shí),應(yīng)該在相同的評(píng)估條件下重新產(chǎn)生基線模型的結(jié)果,而不僅僅是引用其官方報(bào)告的分?jǐn)?shù)。
在穩(wěn)定性方面,研究團(tuán)隊(duì)主張?jiān)诎l(fā)布評(píng)估結(jié)果時(shí),應(yīng)該強(qiáng)調(diào)模型在基準(zhǔn)測(cè)試上的穩(wěn)定性能,而不是峰值性能。隨機(jī)種子等因素可能導(dǎo)致顯著的方差,不能真實(shí)反映模型在實(shí)際使用中的體驗(yàn)。
研究團(tuán)隊(duì)還提出了一種理論基礎(chǔ)來(lái)指導(dǎo)N值的選擇。他們建議將模型在基準(zhǔn)測(cè)試上的穩(wěn)定性能視為其推理結(jié)果真實(shí)分布的近似值。根據(jù)中心極限定理,對(duì)于獨(dú)立同分布的隨機(jī)變量,標(biāo)準(zhǔn)化樣本均值的抽樣分布趨向于正態(tài)分布。這使得我們可以計(jì)算置信區(qū)間和置信水平,從而建立一個(gè)評(píng)估模型性能穩(wěn)定性的標(biāo)準(zhǔn)范式。
研究團(tuán)隊(duì)提出了一個(gè)迭代程序來(lái)確定適當(dāng)?shù)腘值: 1. 確定初始實(shí)驗(yàn)步長(zhǎng)N?、顯著性水平α和誤差邊界ε,同時(shí)固定評(píng)估環(huán)境。 2. 進(jìn)行N?次重復(fù)試驗(yàn),計(jì)算樣本標(biāo)準(zhǔn)差s?,然后使用公式計(jì)算所需的試驗(yàn)次數(shù)N?。 3. 如果N? < N?,終止實(shí)驗(yàn)并輸出當(dāng)前結(jié)果。 4. 如果N? > N?,進(jìn)行N?-N?次額外試驗(yàn),并重復(fù)步驟2,直到滿足步驟3中的條件。
基于這一程序,研究團(tuán)隊(duì)計(jì)算了DeepSeek-R1-Distill-Qwen系列模型在AIME24、AIME25和GPQA Diamond基準(zhǔn)測(cè)試上的評(píng)估結(jié)果和最終所需的N值,結(jié)果顯示,適當(dāng)?shù)腘值依賴于特定的模型和基準(zhǔn)測(cè)試組合。任意將N設(shè)置為16、32或64并不是一種嚴(yán)格或理論上有根據(jù)的做法。
五、研究啟示:評(píng)估的真實(shí)意義
這項(xiàng)研究的核心啟示在于,模型性能評(píng)估不應(yīng)該僅僅是一個(gè)單點(diǎn)指標(biāo)或"最佳情況"結(jié)果的展示,而應(yīng)該是一個(gè)全面、透明、可靠的過(guò)程。研究團(tuán)隊(duì)強(qiáng)烈建議社區(qū)采用更加標(biāo)準(zhǔn)化和統(tǒng)計(jì)上有根據(jù)的方法來(lái)定義模型評(píng)估的最低實(shí)驗(yàn)協(xié)議,從而增強(qiáng)評(píng)估的公平性、可比性和可重現(xiàn)性。
通過(guò)這種方式,我們可以更準(zhǔn)確地評(píng)估和比較不同模型的真實(shí)能力,避免被不穩(wěn)定或經(jīng)過(guò)精心調(diào)整的評(píng)估結(jié)果所誤導(dǎo)。這不僅有助于研究者和開發(fā)者做出更明智的決策,也能促進(jìn)整個(gè)人工智能領(lǐng)域的健康發(fā)展。
正如研究團(tuán)隊(duì)所強(qiáng)調(diào)的,我們需要"誠(chéng)實(shí)地表達(dá)模型性能",這才是我們真正需要的。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。