這項(xiàng)由密歇根大學(xué)、萊斯大學(xué)、思科研究院和加州大學(xué)伯克利分校的研究團(tuán)隊(duì)聯(lián)合開發(fā)的創(chuàng)新研究成果,發(fā)表于2025年5月30日的arXiv預(yù)印本平臺(tái)(arXiv:2505.24785v1)。研究由Patrick Tser Jern Kon和Jiachen Liu作為共同第一作者,在Ang Chen教授指導(dǎo)下完成。感興趣的讀者可以通過GitHub訪問完整項(xiàng)目:https://github.com/Just-Curieous/Curie/tree/main/benchmark/exp_bench。
想象一個(gè)能自己做研究的AI助手
你是否曾經(jīng)想過,如果AI能夠自動(dòng)完成科研工作會(huì)怎樣?不只是簡(jiǎn)單地幫你搜索資料或?qū)懘a,而是能夠獨(dú)立設(shè)計(jì)實(shí)驗(yàn)、執(zhí)行它們,然后得出有意義的結(jié)論。這樣的AI將大大加速科學(xué)進(jìn)步,特別是在AI研究本身這個(gè)領(lǐng)域。畢竟,AI研究主要在數(shù)字世界中進(jìn)行,理論上非常適合由AI自動(dòng)化完成。
但現(xiàn)實(shí)情況如何呢?雖然現(xiàn)在的大型語言模型(LLM)在文獻(xiàn)綜述、假設(shè)生成和代碼編寫等單個(gè)任務(wù)上表現(xiàn)出了一定能力,但真正的科研需要進(jìn)行嚴(yán)格的端到端實(shí)驗(yàn),這遠(yuǎn)比完成單一任務(wù)復(fù)雜得多。
這就是密歇根大學(xué)研究團(tuán)隊(duì)開發(fā)EXP-Bench的原因。就像我們會(huì)通過各種測(cè)試來評(píng)估學(xué)生的科研能力一樣,EXP-Bench提供了一個(gè)全面的基準(zhǔn)測(cè)試,專門用來評(píng)估AI是否能真正進(jìn)行AI研究的實(shí)驗(yàn)工作。
AI科研的關(guān)鍵挑戰(zhàn):從想法到實(shí)驗(yàn)
想象一下科研工作的完整流程:研究人員首先提出問題,然后設(shè)計(jì)實(shí)驗(yàn)方法,接著實(shí)施這些實(shí)驗(yàn),最后分析結(jié)果并得出結(jié)論。EXP-Bench正是圍繞這個(gè)完整流程設(shè)計(jì)的,它從真實(shí)的、經(jīng)過同行評(píng)審的AI研究論文中提取任務(wù),這些論文來自頂級(jí)會(huì)議如NeurIPS和ICLR。
EXP-Bench的設(shè)計(jì)非常直接。它會(huì)給AI代理一個(gè)研究問題、一個(gè)高層次的方法描述和一些起始代碼。然后AI需要自行完成整個(gè)實(shí)驗(yàn)過程,從提出假設(shè)、設(shè)計(jì)實(shí)驗(yàn)程序,到執(zhí)行實(shí)驗(yàn)并分析結(jié)果。這就像給一個(gè)研究生一個(gè)研究課題和一些基礎(chǔ)資料,然后讓他們自己完成整個(gè)研究項(xiàng)目。
然而,創(chuàng)建這樣的任務(wù)并不簡(jiǎn)單。學(xué)術(shù)論文通常以講述研究結(jié)果的方式呈現(xiàn),往往省略了實(shí)驗(yàn)過程中的許多中間步驟。此外,關(guān)鍵細(xì)節(jié)可能分散在論文、補(bǔ)充材料和代碼庫的各個(gè)角落。要準(zhǔn)確提取這些信息需要深厚的專業(yè)知識(shí),如果純靠人工整理,將耗時(shí)耗力且難以擴(kuò)展。
打造自動(dòng)化的科研任務(wù)提取流水線
為了解決這個(gè)問題,研究團(tuán)隊(duì)開發(fā)了一個(gè)半自動(dòng)化的數(shù)據(jù)整理流水線。這個(gè)流水線首先使用引用數(shù)和代碼庫受歡迎程度等信號(hào)來篩選高質(zhì)量的AI論文。然后,任務(wù)提取分為兩個(gè)階段:
首先是多模態(tài)提取階段,從論文、補(bǔ)充材料和代碼中識(shí)別研究問題的核心要素,如主要問題、預(yù)期結(jié)果和高層次實(shí)驗(yàn)設(shè)置(例如數(shù)據(jù)集、評(píng)估指標(biāo)、模型配置)。接著是實(shí)現(xiàn)提取階段,定位相關(guān)代碼并組裝腳本來解決指定任務(wù)。最后,通過執(zhí)行驗(yàn)證來確保功能性。
雖然整個(gè)過程需要人工監(jiān)督,但有了原始實(shí)現(xiàn)和真實(shí)答案作為參考,驗(yàn)證工作主要集中在輕量級(jí)的一致性檢查上。通過這個(gè)流水線,EXP-Bench目前包含了來自51篇NeurIPS和ICLR 2024論文的461個(gè)研究任務(wù)(共12,737個(gè)可單獨(dú)評(píng)分的子任務(wù)),涵蓋強(qiáng)化學(xué)習(xí)、AI應(yīng)用和生成模型等多個(gè)AI子領(lǐng)域。
全方位評(píng)估AI科研能力
EXP-Bench使用多指標(biāo)評(píng)估流水線來評(píng)估AI代理在實(shí)驗(yàn)的所有核心階段——設(shè)計(jì)、實(shí)現(xiàn)、執(zhí)行和結(jié)論——的表現(xiàn)。每個(gè)指標(biāo)捕捉不同的能力,它們的綜合使用確保AI正確理解并完成實(shí)驗(yàn)。
研究團(tuán)隊(duì)對(duì)包括OpenHands(OH)和IterativeAgent(IA)在內(nèi)的領(lǐng)先AI代理進(jìn)行了初步評(píng)估,使用了多種大型語言模型(LLM)作為基礎(chǔ),包括頂級(jí)的Claude-Sonnet 3.7、Haiku 3.5、Deepseek-R1模型和OpenAI o3-mini變體。
結(jié)果令人深思。雖然在單個(gè)實(shí)驗(yàn)方面(如設(shè)計(jì)或?qū)崿F(xiàn)正確性)的得分達(dá)到20-35%,但完整可執(zhí)行實(shí)驗(yàn)的成功率僅為0.5%。這說明當(dāng)前的AI代理在執(zhí)行常規(guī)程序時(shí)表現(xiàn)尚可,但在進(jìn)行復(fù)雜實(shí)驗(yàn)時(shí)卻面臨挑戰(zhàn)。
具體來說,AI代理在以下方面存在失?。?/p>
首先是從高層次研究問題和方法中構(gòu)思和操作化合理的實(shí)驗(yàn)設(shè)計(jì)(16.1%的設(shè)計(jì)變量分類錯(cuò)誤)。這就像給廚師一個(gè)創(chuàng)建新菜品的想法,但他們無法設(shè)計(jì)出合適的烹飪步驟。
其次是將抽象研究方法轉(zhuǎn)化為完整正確的代碼實(shí)現(xiàn)(39.7%缺少必要的實(shí)現(xiàn)組件)。這相當(dāng)于知道要做什么菜,但不知道如何準(zhǔn)備食材或設(shè)置烹飪溫度。
最后是確保復(fù)雜實(shí)驗(yàn)軟件棧的穩(wěn)健和可重現(xiàn)執(zhí)行(29.4%的環(huán)境或依賴項(xiàng)配置錯(cuò)誤,或23.8%的腳本級(jí)錯(cuò)誤)。這就像按照食譜準(zhǔn)備了所有材料,但最后發(fā)現(xiàn)烤箱不工作或者計(jì)時(shí)出錯(cuò)。
通過識(shí)別這些關(guān)鍵瓶頸,EXP-Bench幫助研究人員明確了需要改進(jìn)的具體研究組件,推動(dòng)下一代AI代理的發(fā)展。
從失敗中學(xué)習(xí):AI代理的常見錯(cuò)誤
研究團(tuán)隊(duì)進(jìn)行了詳細(xì)分析,發(fā)現(xiàn)AI代理在不同實(shí)驗(yàn)階段的多種失敗模式。最常見的問題出現(xiàn)在實(shí)現(xiàn)階段,有39.71%的失敗是因?yàn)槿鄙俦匾M件。例如,代理未能包含關(guān)鍵元素,如語義檢索策略(如UniXcoder-H2L和UniXcoder-L2H)、用于過濾問題的驗(yàn)證函數(shù),或增強(qiáng)穩(wěn)健性的技術(shù)(如Mixup、CutMix和標(biāo)簽平滑)。
在執(zhí)行階段,最常見的失敗是環(huán)境或依賴項(xiàng)配置錯(cuò)誤(29.38%)和腳本級(jí)問題(23.84%)。這些包括缺少關(guān)鍵環(huán)境設(shè)置或核心庫,導(dǎo)致模型加載失?。换蛘吣P兔Q無法識(shí)別、缺少檢查點(diǎn)文件等錯(cuò)誤。
設(shè)計(jì)相關(guān)的失敗也很常見,有16.05%涉及不完整或分類錯(cuò)誤的實(shí)驗(yàn)變量,7.62%反映了額外的程序添加,如包含了未在真實(shí)答案中指定的ResNet-50骨干網(wǎng)絡(luò)或隨意的超參數(shù)調(diào)整。這些設(shè)計(jì)錯(cuò)誤表明,AI代理通常無法區(qū)分必要的實(shí)驗(yàn)因素和實(shí)現(xiàn)噪聲。
在結(jié)論階段,最常見的問題是缺失或不完整的結(jié)論(26.18%)和錯(cuò)誤的解釋(19.66%)。例如,省略了PPO和Q-Learning在訓(xùn)練時(shí)間和歸一化分?jǐn)?shù)上的詳細(xì)比較,或者忽略了具體的數(shù)值增益。
這些發(fā)現(xiàn)強(qiáng)調(diào)了分階段評(píng)估的重要性,并說明表面上的合理性可能掩蓋了實(shí)驗(yàn)推理和可重現(xiàn)性方面更深層次的問題。
未來展望:邁向真正的AI科研助手
EXP-Bench的研究為我們提供了關(guān)于AI進(jìn)行AI研究的能力狀況的寶貴見解。雖然當(dāng)前的AI代理在復(fù)雜實(shí)驗(yàn)方面表現(xiàn)不佳,但它們?cè)谀承┓矫嬉扬@示出初步能力。隨著技術(shù)的發(fā)展,我們可以期待看到更強(qiáng)大的AI研究助手出現(xiàn)。
未來的工作將集中在使用EXP-Bench的數(shù)據(jù)集來增強(qiáng)AI代理的研究實(shí)驗(yàn)?zāi)芰?。一個(gè)有前途的方向是應(yīng)用具有可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí),使代理能夠自主導(dǎo)航研究生命周期并加速科學(xué)發(fā)現(xiàn)。
EXP-Bench的貢獻(xiàn)不僅在于評(píng)估當(dāng)前AI代理的能力,還在于提供了一個(gè)路線圖,指導(dǎo)下一代AI代理的發(fā)展。通過識(shí)別具體的失敗點(diǎn),研究人員可以有針對(duì)性地解決這些問題,最終創(chuàng)造出能夠真正協(xié)助甚至獨(dú)立進(jìn)行AI研究的AI系統(tǒng)。
這項(xiàng)工作對(duì)整個(gè)AI領(lǐng)域具有重大意義。如果AI能夠自主進(jìn)行研究,我們可能會(huì)看到科學(xué)進(jìn)步的加速,新發(fā)現(xiàn)的速度大大提高,科學(xué)研究的民主化程度增強(qiáng)。當(dāng)然,這也帶來了需要認(rèn)真對(duì)待的倫理問題和社會(huì)影響。
總之,EXP-Bench代表了AI研究自動(dòng)化道路上的重要里程碑。它為我們提供了一個(gè)清晰的框架,來理解當(dāng)前AI在研究實(shí)驗(yàn)方面的能力和局限性,同時(shí)也為未來的進(jìn)步鋪平了道路。正如一個(gè)好老師不僅評(píng)估學(xué)生的能力,還指導(dǎo)他們?nèi)绾胃倪M(jìn),EXP-Bench不僅評(píng)估了AI代理的科研能力,還為它們的成長提供了方向。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。