這項(xiàng)由耶魯大學(xué)自然語言處理實(shí)驗(yàn)室的王承燁、沈逸飛、曠澤璽、阿曼·科漢和趙逸倫等研究人員完成的研究,發(fā)表于2025年6月18日的arXiv預(yù)印本平臺(tái)。感興趣的讀者可以通過arXiv:2506.15569v1訪問完整論文,同時(shí)相關(guān)數(shù)據(jù)和代碼已在GitHub上開源供研究使用。
在當(dāng)今這個(gè)信息爆炸的時(shí)代,科學(xué)研究如雨后春筍般涌現(xiàn),但如何快速準(zhǔn)確地驗(yàn)證這些研究中的聲明卻成了一個(gè)巨大挑戰(zhàn)。就像在圖書館里尋找特定信息一樣,科學(xué)家們需要在海量的論文、圖表和數(shù)據(jù)中找到支持或反駁某個(gè)觀點(diǎn)的證據(jù)。
耶魯大學(xué)的研究團(tuán)隊(duì)注意到了一個(gè)有趣的現(xiàn)象:雖然現(xiàn)在的人工智能已經(jīng)很聰明了,但在處理科學(xué)論文時(shí)卻經(jīng)常"偏科"——它們可能很擅長理解文字,但在同時(shí)處理文字、圖表和表格時(shí)就顯得力不從心。這就像一個(gè)學(xué)生可能語文很好,但遇到需要同時(shí)運(yùn)用語文、數(shù)學(xué)和科學(xué)知識(shí)的綜合題時(shí)就犯難了。
為了解決這個(gè)問題,研究團(tuán)隊(duì)開發(fā)了一個(gè)名為SCIVER的評(píng)估工具。這個(gè)工具就像是給AI設(shè)計(jì)的"科學(xué)論文理解考試",專門測試AI是否能像人類專家一樣,在復(fù)雜的科學(xué)文獻(xiàn)中準(zhǔn)確驗(yàn)證各種聲明。
研究團(tuán)隊(duì)精心收集了1113篇計(jì)算機(jī)科學(xué)領(lǐng)域的論文,從中提取出3000個(gè)需要驗(yàn)證的聲明。這些聲明涵蓋了四種不同的推理類型,就像考試中的不同題型一樣。第一種是直接推理,就像在文章中直接找到答案的選擇題;第二種是并行推理,需要同時(shí)查看多個(gè)不同的信息源;第三種是順序推理,需要一步步地建立邏輯鏈條;最后一種是分析推理,需要運(yùn)用專業(yè)知識(shí)進(jìn)行深度分析。
為了確保這個(gè)"考試"的質(zhì)量,研究團(tuán)隊(duì)特意招募了18位計(jì)算機(jī)科學(xué)領(lǐng)域的研究生和博士后作為專家標(biāo)注員。這些專家就像嚴(yán)格的閱卷老師,每個(gè)人都在自己的專業(yè)領(lǐng)域有著豐富的發(fā)表經(jīng)驗(yàn)。他們不僅要判斷每個(gè)聲明是否正確,還要詳細(xì)標(biāo)注出支持這個(gè)判斷的具體證據(jù),就像在試卷上標(biāo)出正確答案的依據(jù)一樣。
當(dāng)研究團(tuán)隊(duì)用這個(gè)工具測試21個(gè)最先進(jìn)的AI模型時(shí),結(jié)果令人驚訝。這些模型包括了OpenAI的GPT-4系列、谷歌的Gemini系列,以及眾多開源模型。測試結(jié)果顯示,即使是最優(yōu)秀的AI模型,在面對(duì)復(fù)雜的科學(xué)驗(yàn)證任務(wù)時(shí),表現(xiàn)也遠(yuǎn)不如人類專家。
以最新的推理模型o4-mini為例,它在最簡單的直接推理任務(wù)上能達(dá)到85%的準(zhǔn)確率,已經(jīng)接近人類專家的水平。但在最復(fù)雜的分析推理任務(wù)上,即使是表現(xiàn)最好的GPT-4.1也只能達(dá)到70.8%的準(zhǔn)確率,而人類專家的準(zhǔn)確率高達(dá)90%。這就像一個(gè)學(xué)生在簡單的計(jì)算題上表現(xiàn)不錯(cuò),但遇到需要深度思考的應(yīng)用題時(shí)就明顯吃力了。
更有趣的是,研究團(tuán)隊(duì)發(fā)現(xiàn)了AI模型的幾個(gè)典型"毛病"。第一個(gè)問題是"找不到重點(diǎn)",占錯(cuò)誤的32%。就像學(xué)生做閱讀理解時(shí),明明答案就在文章里,但就是找不到關(guān)鍵信息。第二個(gè)問題是"看圖說話能力差",占21%的錯(cuò)誤。AI在解讀圖表時(shí)經(jīng)常出現(xiàn)誤判,比如把數(shù)據(jù)趨勢看反了。第三個(gè)問題是"邏輯鏈條斷裂",占17%的錯(cuò)誤。AI無法將多個(gè)推理步驟有效連接起來,就像做數(shù)學(xué)證明題時(shí)步驟跳躍太大。
研究團(tuán)隊(duì)還發(fā)現(xiàn),當(dāng)需要的證據(jù)越多時(shí),AI的表現(xiàn)就越差。這就像做綜合性大題時(shí),需要用到的知識(shí)點(diǎn)越多,出錯(cuò)的概率就越高。當(dāng)一個(gè)聲明需要三個(gè)以上的證據(jù)支持時(shí),所有模型的準(zhǔn)確率都明顯下降。
為了幫助AI提高表現(xiàn),研究團(tuán)隊(duì)還測試了檢索增強(qiáng)生成技術(shù),這就像給學(xué)生提供參考資料一樣。結(jié)果顯示,當(dāng)AI能夠獲得更準(zhǔn)確的相關(guān)信息時(shí),它們的表現(xiàn)確實(shí)有所改善。使用OpenAI的嵌入模型進(jìn)行信息檢索時(shí),Qwen2.5-VL-72B模型的準(zhǔn)確率從70.2%提升到了75.3%。
這項(xiàng)研究的意義遠(yuǎn)不止于測試AI的能力。在當(dāng)今科研環(huán)境下,研究論文數(shù)量激增,人工驗(yàn)證每個(gè)聲明既費(fèi)時(shí)又費(fèi)力。如果AI能夠可靠地完成這項(xiàng)工作,就能大大提高科研效率,幫助研究人員快速篩選和驗(yàn)證信息。
然而,研究也揭示了當(dāng)前AI技術(shù)的局限性。這些模型在處理需要深度專業(yè)知識(shí)和復(fù)雜推理的任務(wù)時(shí),仍然無法達(dá)到人類專家的水平。這提醒我們,雖然AI在很多領(lǐng)域都表現(xiàn)出色,但在科學(xué)研究這樣需要嚴(yán)謹(jǐn)邏輯和專業(yè)判斷的領(lǐng)域,人類專家的價(jià)值依然不可替代。
研究團(tuán)隊(duì)通過詳細(xì)的錯(cuò)誤分析發(fā)現(xiàn),開源模型在某些方面還存在明顯的不足。比如,它們往往過度依賴文本信息,而忽略了圖表中的關(guān)鍵數(shù)據(jù)。這就像學(xué)生只看文字描述而忽略了配圖,自然會(huì)遺漏重要信息。另外,一些模型還會(huì)犯領(lǐng)域知識(shí)錯(cuò)誤,錯(cuò)誤地應(yīng)用專業(yè)術(shù)語或概念。
值得注意的是,不同類型的推理任務(wù)對(duì)AI來說難度差別很大。直接推理任務(wù)相對(duì)簡單,因?yàn)榇鸢竿ǔD茉趩我恍畔⒃粗姓业?。而分析推理任?wù)最具挑戰(zhàn)性,因?yàn)樗粌H需要整合多個(gè)信息源,還需要運(yùn)用專業(yè)知識(shí)進(jìn)行判斷。這種差異性為未來AI模型的改進(jìn)指明了方向。
研究團(tuán)隊(duì)還發(fā)現(xiàn),模型的規(guī)模并不總是決定性因素。一些參數(shù)量較小但設(shè)計(jì)精良的模型,在某些任務(wù)上的表現(xiàn)可能超過參數(shù)量更大的模型。這說明模型架構(gòu)和訓(xùn)練方法的重要性,而不僅僅是簡單地增加模型大小。
從實(shí)際應(yīng)用角度來看,這項(xiàng)研究為科研工具的開發(fā)提供了重要參考。未來的科研助手工具需要在多模態(tài)理解能力上有更大突破,特別是在整合文本、圖表和表格信息方面。同時(shí),這些工具還需要具備更強(qiáng)的領(lǐng)域知識(shí)理解能力,能夠準(zhǔn)確把握不同學(xué)科的專業(yè)概念和推理模式。
對(duì)于普通讀者來說,這項(xiàng)研究揭示了一個(gè)重要事實(shí):雖然AI技術(shù)發(fā)展迅速,但在需要深度理解和專業(yè)判斷的領(lǐng)域,我們?nèi)匀恍枰祟悓<业闹腔?。這并不意味著AI沒有價(jià)值,而是說AI和人類專家應(yīng)該發(fā)揮各自的優(yōu)勢,形成互補(bǔ)的合作關(guān)系。
研究的另一個(gè)重要發(fā)現(xiàn)是,不同的AI模型在不同類型的任務(wù)上表現(xiàn)各異。這提醒我們,在選擇AI工具時(shí)不能一概而論,而應(yīng)該根據(jù)具體的應(yīng)用場景和需求來選擇最合適的模型。就像選擇工具一樣,不同的任務(wù)需要不同的專業(yè)工具。
最終,這項(xiàng)研究為AI在科學(xué)研究中的應(yīng)用提供了重要的基準(zhǔn)和參考標(biāo)準(zhǔn)。SCIVER不僅是一個(gè)評(píng)估工具,更是推動(dòng)AI技術(shù)進(jìn)步的重要驅(qū)動(dòng)力。通過明確現(xiàn)有技術(shù)的不足,它為研究人員指明了改進(jìn)方向,有助于開發(fā)出更加智能和可靠的科研助手工具。
說到底,這項(xiàng)研究告訴我們,AI在科學(xué)驗(yàn)證方面還有很長的路要走。雖然最先進(jìn)的AI模型已經(jīng)展現(xiàn)出了一定的能力,但距離人類專家的水平仍有明顯差距。這種差距不僅體現(xiàn)在準(zhǔn)確率上,更體現(xiàn)在深度理解和復(fù)雜推理能力上。不過,這也意味著巨大的發(fā)展空間和機(jī)遇。隨著技術(shù)的不斷進(jìn)步,我們有理由相信,未來的AI將能夠更好地協(xié)助人類進(jìn)行科學(xué)研究,讓知識(shí)的驗(yàn)證和傳播變得更加高效和準(zhǔn)確。對(duì)于關(guān)心科技發(fā)展的普通讀者來說,這項(xiàng)研究提醒我們既要對(duì)AI技術(shù)保持合理期待,也要認(rèn)識(shí)到人類智慧在科學(xué)探索中的不可替代性。
Q&A
Q1:SCIVER是什么?它主要用來做什么? A:SCIVER是耶魯大學(xué)開發(fā)的AI評(píng)估工具,專門測試人工智能是否能像人類專家一樣驗(yàn)證科學(xué)論文中的聲明。它包含3000個(gè)專家標(biāo)注的例子,涵蓋四種不同難度的推理任務(wù),用來全面評(píng)估AI在處理科學(xué)文獻(xiàn)時(shí)的理解和推理能力。
Q2:目前最先進(jìn)的AI在科學(xué)驗(yàn)證方面表現(xiàn)如何? A:即使是最優(yōu)秀的AI模型,在復(fù)雜的科學(xué)驗(yàn)證任務(wù)上仍然遠(yuǎn)不如人類專家。比如GPT-4.1在最難的分析推理任務(wù)上只能達(dá)到70.8%的準(zhǔn)確率,而人類專家能達(dá)到90%。AI主要在找不到關(guān)鍵信息、誤讀圖表和邏輯推理鏈條斷裂等方面存在問題。
Q3:這項(xiàng)研究對(duì)普通人有什么意義? A:這項(xiàng)研究揭示了AI在需要深度理解和專業(yè)判斷的領(lǐng)域仍有局限性,提醒我們?cè)诳茖W(xué)研究等嚴(yán)謹(jǐn)領(lǐng)域,人類專家的價(jià)值依然不可替代。同時(shí),它為未來開發(fā)更好的科研助手工具提供了方向,最終可能讓知識(shí)驗(yàn)證變得更高效。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。