生成式人工智能(GenAI)正在以前所未有的速度改變我們的世界,從ChatGPT到各種AI繪畫工具,這些技術(shù)已經(jīng)深入到我們?nèi)粘I畹姆椒矫婷妗H欢?,一個看似技術(shù)性但實際上關(guān)乎整個AI發(fā)展方向的重要問題正在困擾著研究者們:我們?nèi)绾螠?zhǔn)確評估這些AI系統(tǒng)的真實能力?
這項由Kaggle公司的D. Sculley領(lǐng)導(dǎo)的研究團(tuán)隊發(fā)表于2025年5月的第42屆國際機器學(xué)習(xí)會議(ICML 2025),為我們揭示了當(dāng)前GenAI評估面臨的嚴(yán)重危機,并提出了一個令人意外的解決方案。有興趣深入了解的讀者可以通過arXiv:2505.00612v2訪問完整論文。研究團(tuán)隊包括來自Kaggle的Will Cukierski、Phil Culliton、Sohier Dane等多位專家,他們從十多年的AI競賽經(jīng)驗中總結(jié)出了這些寶貴見解。
要理解這個問題的重要性,我們可以把AI評估比作給學(xué)生考試。傳統(tǒng)的機器學(xué)習(xí)評估就像是老師準(zhǔn)備了一套固定的試卷,先讓學(xué)生用一部分題目練習(xí),然后用另一部分題目考試。這種方法在過去幾十年里運作良好,推動了計算機視覺、自然語言處理等領(lǐng)域的巨大進(jìn)步。
然而,GenAI的出現(xiàn)徹底打破了這種評估模式。這就好比學(xué)生不再是普通的小學(xué)生,而是變成了記憶力超強、能夠閱讀整個圖書館的"超級學(xué)生"。當(dāng)你給這樣的學(xué)生出題時,你會發(fā)現(xiàn)一個嚴(yán)重問題:他們很可能已經(jīng)在海量的閱讀中見過類似的題目,甚至是完全相同的題目。這樣的考試還能真實反映他們的能力嗎?
研究團(tuán)隊指出,當(dāng)前GenAI評估面臨的最大問題就是"數(shù)據(jù)泄露"和"污染"。想象一下,如果一個學(xué)生在考試前偷看了答案,那么他的高分并不能證明他真正掌握了知識。同樣,如果一個AI模型在訓(xùn)練過程中"見過"了測試數(shù)據(jù),那么它在這些測試中的優(yōu)異表現(xiàn)就失去了意義。
這個問題在GenAI領(lǐng)域尤為嚴(yán)重。現(xiàn)代大語言模型通常在互聯(lián)網(wǎng)上幾乎所有可獲得的文本上進(jìn)行訓(xùn)練,這意味著許多傳統(tǒng)的測試數(shù)據(jù)集很可能已經(jīng)被包含在訓(xùn)練數(shù)據(jù)中。研究團(tuán)隊發(fā)現(xiàn),他們測試的每一個主要大語言模型都顯示出對Kaggle標(biāo)準(zhǔn)測試數(shù)據(jù)集內(nèi)容的詳細(xì)了解,這表明數(shù)據(jù)泄露問題已經(jīng)變得普遍而嚴(yán)重。
傳統(tǒng)的解決方案包括創(chuàng)建私有數(shù)據(jù)集、動態(tài)更新測試內(nèi)容、依賴社區(qū)評估等方法。私有數(shù)據(jù)集就像是把試卷鎖在保險箱里,只有考試時才拿出來。動態(tài)測試則像是每周都出新題目,確保學(xué)生無法提前準(zhǔn)備。社區(qū)評估類似于讓公眾投票決定哪個學(xué)生表現(xiàn)更好。
但這些方法都有各自的局限性。私有數(shù)據(jù)集需要絕對的信任和保密,一旦泄露就前功盡棄。動態(tài)測試需要持續(xù)的資源投入,而且很難確保新數(shù)據(jù)真的沒有被AI模型接觸過。社區(qū)評估雖然能提供新鮮的評估內(nèi)容,但組織大規(guī)模的評估活動成本高昂,而且難以控制質(zhì)量。
正是在這種背景下,研究團(tuán)隊提出了一個創(chuàng)新的觀點:AI競賽平臺,特別是像Kaggle這樣的平臺,實際上為GenAI評估提供了一個理想的解決方案。
AI競賽就像是組織一場大型考試,但與傳統(tǒng)考試不同的是,這場考試有著獨特的優(yōu)勢。首先,成千上萬的參賽團(tuán)隊同時參與,這意味著每個新任務(wù)都能得到大規(guī)模的并行評估。這就好比同時讓一千個不同的學(xué)生用不同的方法解決同一個問題,然后比較他們的表現(xiàn)。
更重要的是,AI競賽在防止作弊方面積累了豐富的經(jīng)驗。畢竟,在真正的競賽中,參賽者有強烈的動機去尋找任何可能的優(yōu)勢,包括不當(dāng)?shù)氖侄?。因此,競賽組織者必須設(shè)計出極其嚴(yán)密的防作弊機制。
研究團(tuán)隊通過多年的Kaggle競賽經(jīng)驗,總結(jié)出了數(shù)據(jù)泄露可能出現(xiàn)的各種形式。有時候,泄露來源令人意想不到。比如在一次地震預(yù)測競賽中,數(shù)據(jù)按照類別標(biāo)簽的順序進(jìn)行處理,文件時間戳沒有重置,參賽者可以輕松地根據(jù)文件元數(shù)據(jù)進(jìn)行預(yù)測。在另一次廣告追蹤競賽中,數(shù)據(jù)被錯誤地排序,使得同一時間戳內(nèi)的正標(biāo)簽總是出現(xiàn)在負(fù)標(biāo)簽之后。
甚至隨機化也可能成為泄露源。在一次AI模型運行時間預(yù)測競賽中,兩個不同的數(shù)據(jù)桶使用了相同的隨機種子,參賽者發(fā)現(xiàn)了這個模式并利用它來提高分?jǐn)?shù)。合成數(shù)據(jù)更容易產(chǎn)生泄露問題。在SETI突破聆聽競賽中,合成的"外星信號"使用FP16精度,而背景信號使用FP32精度,這種微小的精度差異就足以讓參賽者區(qū)分兩類信號。
這些例子說明,即使是經(jīng)驗豐富、小心謹(jǐn)慎的團(tuán)隊也很難完全避免數(shù)據(jù)泄露。每一個AI競賽都比成功的情況更容易出錯,這需要組織者保持高度的警惕和偏執(zhí)。
面對這種現(xiàn)實,研究團(tuán)隊提出了一個頗具爭議但實用的建議:我們應(yīng)該認(rèn)為評估數(shù)據(jù)一旦在線分享或通過網(wǎng)絡(luò)傳輸就已經(jīng)泄露了。這個原則雖然嚴(yán)格,但能顯著提高我們對評估結(jié)果的信任度,大大增強結(jié)果的穩(wěn)健性。
這種做法確實會削弱可重現(xiàn)性,但研究團(tuán)隊認(rèn)為這是一個根本性的權(quán)衡,類似于量子物理學(xué)中的海森堡不確定性原理。我們無法同時擁有一個已發(fā)布的靜態(tài)基準(zhǔn)測試和對泄露的穩(wěn)健性。無論研究者的初衷多么良好,要避免污染并廣泛信任這樣的基準(zhǔn)測試結(jié)果都太困難了。
因此,我們必須尋求替代策略和結(jié)構(gòu)來創(chuàng)建防泄露的評估。這正是AI競賽的價值所在。
AI競賽為GenAI評估提供了一種"令人尷尬的并行"結(jié)構(gòu),這讓人想起并行計算中的經(jīng)典MapReduce架構(gòu)。在這種結(jié)構(gòu)中,獨立的研究團(tuán)隊(通常數(shù)以千計)各自競爭解決給定問題,在這個過程中創(chuàng)造了對許多不同方法的大規(guī)模并行評估。
這種并行化結(jié)構(gòu)顯著提高了穩(wěn)健性。數(shù)據(jù)泄露和污染的風(fēng)險從評估公開分享或通過網(wǎng)絡(luò)傳輸評估數(shù)據(jù)的那一刻就開始了。這導(dǎo)致了一個問題:我們?nèi)绾我杂行У姆绞焦奖容^不同的模型和系統(tǒng),確保穩(wěn)健性并避免泄露和污染導(dǎo)致的結(jié)果無效?
AI競賽的并行化結(jié)構(gòu)為這個問題提供了有用的解決方案。以新穎性為中心的評估可以同時并行進(jìn)行,確保每個新任務(wù)在測試時對成千上萬個模型來說確實是新穎的。由于獨立團(tuán)隊各自追求不同的模型、想法和方法,這種結(jié)構(gòu)產(chǎn)生了直接的同類比較和結(jié)果的實時重現(xiàn)形式。
此外,像Kaggle這樣的競賽平臺可以通過運行隔離的代碼競賽來充當(dāng)隱藏測試數(shù)據(jù)的可信保管者,參賽者提交他們的模型在沒有網(wǎng)絡(luò)訪問的隔離安全后端上運行。通過安全地離線評估所有模型,競賽平臺可以保證沒有隱藏的測試數(shù)據(jù)泄露。
研究團(tuán)隊還強調(diào)了AI競賽在防止泄露方面采用的幾種有效策略。前瞻性真實標(biāo)注是一種策略,測試集標(biāo)簽在競賽的活躍訓(xùn)練階段對世界完全未知。蛋白質(zhì)功能標(biāo)注關(guān)鍵評估(CAFA)5挑戰(zhàn)賽就是使用前瞻性真實標(biāo)注來減輕泄露的競賽例子。該競賽將已知序列但尚未在濕實驗室中確定功能標(biāo)注的蛋白質(zhì)作為測試集。
新穎任務(wù)生成是設(shè)計防泄露競賽的另一種方法,即生成全新的任務(wù),其中測試數(shù)據(jù)不類似于訓(xùn)練數(shù)據(jù),因此需要有意義的泛化。AI數(shù)學(xué)奧林匹克(AIMO)挑戰(zhàn)賽使用了這種方法,參賽者被要求解決國家級數(shù)學(xué)挑戰(zhàn)題。由于許多(如果不是全部)參賽者使用的AI模型都在互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)上訓(xùn)練,測試-訓(xùn)練泄露在評估它們的數(shù)學(xué)推理能力時構(gòu)成了重大挑戰(zhàn)。因此,國際數(shù)學(xué)家團(tuán)隊專門為競賽創(chuàng)建了新的數(shù)學(xué)問題集,使數(shù)據(jù)泄露或污染極不可能發(fā)生。
截止日期后數(shù)據(jù)收集是另一種泄露緩解策略,類似于前瞻性真實標(biāo)注競賽,只是不是在新可用標(biāo)簽上評估,而是在完全新生成的數(shù)據(jù)上評估解決方案。WSDM杯多語言聊天機器人競技場競賽采用了這種設(shè)計,參賽者被要求基于來自LM Arena的多語言對話和評分?jǐn)?shù)據(jù)構(gòu)建預(yù)測人類對大語言模型頭對頭匹配偏好的解決方案。
AI競賽還具有額外的非結(jié)構(gòu)性特征,代表了行業(yè)應(yīng)該采用的最佳實踐,以進(jìn)一步提高實證嚴(yán)謹(jǐn)性。競賽鼓勵或經(jīng)常要求開放分享代碼、數(shù)據(jù)和實驗細(xì)節(jié),包括成功和失敗。參賽者通常更多地被分享有價值和富有洞察力的資源和想法所獲得的地位和認(rèn)可激勵,而不是贏得獎品。事實上,去年Kaggle特色競賽的論壇消息中位數(shù)為1400條。這種透明度促進(jìn)了結(jié)果的重現(xiàn),培養(yǎng)了對新基線的信任,并加速了研究和從業(yè)者社區(qū)內(nèi)知識的傳播。
基于這些發(fā)現(xiàn),研究團(tuán)隊為整個領(lǐng)域提出了幾項建議。首先,應(yīng)該從靜態(tài)基準(zhǔn)測試轉(zhuǎn)向常青的可重復(fù)過程。由于泄露和污染的風(fēng)險,他們認(rèn)為靜態(tài)基準(zhǔn)測試在GenAI評估中的重要性應(yīng)該被降低。相反,我們需要一個穩(wěn)定的可再生的新任務(wù)和問題管道,我們需要在每個任務(wù)上并行評估數(shù)百或數(shù)千個模型,以便結(jié)果直接可比并避免后續(xù)污染和泄露的風(fēng)險。
其次,應(yīng)該將AI競賽的穩(wěn)定流看作是該領(lǐng)域的資源。使用像Kaggle這樣平臺上托管的高質(zhì)量AI競賽管道是創(chuàng)建可再生管道的一種方式。這些結(jié)構(gòu)已經(jīng)存在并且已經(jīng)在某種程度上以這種方式使用。然而,作為一個領(lǐng)域,我們可以通過元分析來做更多的工作來提取、分析和分享這些競賽的發(fā)現(xiàn)。
第三,應(yīng)該采用并改進(jìn)AI競賽的反作弊結(jié)構(gòu)來改善GenAI評估的標(biāo)準(zhǔn)實踐。作為一個領(lǐng)域,我們可以從AI競賽開發(fā)的最佳實踐中學(xué)習(xí)。為對抗故意作弊而創(chuàng)建的技術(shù)和實踐同樣有價值,可以創(chuàng)建對抗可能使實證結(jié)果無效的無意問題(如泄露和污染)的評估結(jié)構(gòu)。
研究團(tuán)隊還討論了幾種可能的反對觀點。一種合理的替代觀點是,當(dāng)前的基準(zhǔn)測試狀態(tài)在無需額外干預(yù)的情況下進(jìn)展良好。每天在Hugging Face、OpenML和Kaggle等平臺上出現(xiàn)的許多新靜態(tài)基準(zhǔn)測試可能作為他們描述的領(lǐng)域必需的新任務(wù)穩(wěn)定流。雖然他們贊揚所有創(chuàng)建新基準(zhǔn)測試的努力,但他們確實從根本上認(rèn)為靜態(tài)基準(zhǔn)測試應(yīng)該被認(rèn)為在發(fā)布后已經(jīng)有效無效,因此AI競賽的時間組件提供了獨特的附加價值。
另一個可能的批評是,與"常青"靜態(tài)基準(zhǔn)測試相比,AI競賽的人為截止日期可能會阻止有價值的提交。他們發(fā)現(xiàn),每次我們集成提交時,我們對排名靠前的解決方案幾乎沒有改善。換句話說,至少在Kaggle上的競賽從數(shù)據(jù)中提取了(接近)最大信號。
此外,AI競賽主辦方強烈激勵設(shè)計良好的評估指標(biāo),我們觀察到與現(xiàn)實世界表現(xiàn)相關(guān)的解決方案結(jié)果更有可能出現(xiàn)。例如,在OpenVaccine挑戰(zhàn)賽中,參賽者在短短4周內(nèi)將mRNA疫苗降解率預(yù)測的最先進(jìn)水平提高了25%,主辦方進(jìn)一步驗證了解決方案能夠泛化到作為競賽數(shù)據(jù)集一部分未見過的更長RNA序列。
另一個合理的觀點是,當(dāng)前試圖防泄露的現(xiàn)有基準(zhǔn)測試是足夠的。最值得考慮的是通過LMSYS.org的LMArena由人類評分者產(chǎn)生的基于Elo的并排排名。為社區(qū)提供一個開放循環(huán)來提供無限的新輸入流和判斷確實很有吸引力,是解決許多這些問題的強有力步驟。然而,他們認(rèn)為在新穎性和嚴(yán)謹(jǐn)性方面,匿名眾包任務(wù)和問題來源能夠?qū)崿F(xiàn)的存在限制,AI競賽允許注入特定領(lǐng)域?qū)I(yè)知識和精心制作的測試案例,這些將充分壓力測試下一代GenAI模型。
第三個合理的觀點是,GenAI模型學(xué)術(shù)評估價值的比喻之船已經(jīng)啟航。在這種范式中,在生產(chǎn)部署中對字面真實世界任務(wù)的表現(xiàn)可能為GenAI能力提供最有效的測試。在這種替代觀點中,獨立評估幾乎沒有價值,每個從業(yè)者或團(tuán)體都應(yīng)該完全按照自己的條件進(jìn)行評估。雖然這種方法對于高度專業(yè)化的領(lǐng)域和應(yīng)用是不可避免的,但他們確實認(rèn)為有令人信服的理由繼續(xù)對模型進(jìn)行獨立評估,因為該領(lǐng)域的歷史表明,這些形式的評估以最廣泛和最快速的方式推動進(jìn)展。沒有受控的實證研究,我們作為一個領(lǐng)域有失去對為什么模型在某些任務(wù)上表現(xiàn)良好或糟糕的廣泛共享知識的風(fēng)險。公開分享這種理解對于在這個快速發(fā)展的領(lǐng)域中解鎖進(jìn)一步進(jìn)展的途徑至關(guān)重要。
說到底,這項研究為我們揭示了一個重要真理:隨著AI技術(shù)變得越來越強大,評估這些技術(shù)的方法也必須相應(yīng)進(jìn)化。傳統(tǒng)的"出題-練習(xí)-考試"模式在面對能夠"讀完整個圖書館"的AI系統(tǒng)時顯得力不從心。研究團(tuán)隊提出的AI競賽解決方案并非完美,但它提供了一個實際可行的路徑,讓我們能夠在快速變化的AI領(lǐng)域中保持評估的科學(xué)性和可信度。
這項研究的意義遠(yuǎn)超技術(shù)層面。在AI技術(shù)日益影響我們生活的今天,如何準(zhǔn)確評估AI能力直接關(guān)系到我們對這些技術(shù)的信任和依賴程度。一個無法被準(zhǔn)確評估的AI系統(tǒng),就像一個沒有準(zhǔn)確體檢報告的病人一樣,我們無法知道它的真實狀況,也就無法做出明智的決策。
歸根結(jié)底,這項研究為整個AI領(lǐng)域敲響了警鐘,同時也指明了前進(jìn)的方向。當(dāng)我們站在通用人工智能的門檻前時,確保我們有可靠的方法來評估這些強大技術(shù)的能力,不僅是科學(xué)進(jìn)步的需要,更是社會責(zé)任的體現(xiàn)。有興趣深入了解這項重要研究的讀者,可以通過arXiv:2505.00612v2查閱完整的論文內(nèi)容。
Q&A
Q1:什么是數(shù)據(jù)泄露和污染問題?為什么這對AI評估這么重要? A:數(shù)據(jù)泄露就像學(xué)生考試前偷看了答案?,F(xiàn)在的大語言模型在訓(xùn)練時會"讀取"互聯(lián)網(wǎng)上的海量數(shù)據(jù),如果測試題目也在這些數(shù)據(jù)中,那么AI的高分就不能證明它真正理解了問題,而只是"記住"了答案。這讓我們無法判斷AI的真實能力。
Q2:為什么AI競賽平臺能夠解決評估危機? A:AI競賽就像同時讓上千個學(xué)生用不同方法解決全新問題。競賽平臺有豐富的防作弊經(jīng)驗,能創(chuàng)造真正新穎的任務(wù),并且確保測試數(shù)據(jù)不會泄露。同時,大規(guī)模并行評估讓結(jié)果更可信,就像多個裁判同時打分一樣。
Q3:普通人需要關(guān)心這個問題嗎?這會影響我們的日常生活嗎? A:絕對需要關(guān)心。我們?nèi)粘J褂玫腁I工具,從聊天機器人到推薦系統(tǒng),其可靠性都依賴于準(zhǔn)確的評估。如果評估方法有問題,我們可能會過度信任不夠可靠的AI系統(tǒng),或者錯過真正優(yōu)秀的技術(shù)。這直接關(guān)系到我們對AI技術(shù)的信任和使用安全。
好文章,需要你的鼓勵
浙江大學(xué)團(tuán)隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實驗顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓(xùn)練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學(xué)習(xí)方法訓(xùn)練多個AI模型。實驗結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。