這項(xiàng)由耶魯大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室的王承燁、沈逸飛、曠澤璽、阿曼·科漢和趙逸倫等研究人員完成的研究,發(fā)表于2025年6月18日的arXiv預(yù)印本平臺(tái)。感興趣的讀者可以通過(guò)arXiv:2506.15569v1訪問(wèn)完整論文,同時(shí)相關(guān)數(shù)據(jù)和代碼已在GitHub上開(kāi)源供研究使用。
在當(dāng)今這個(gè)信息爆炸的時(shí)代,科學(xué)研究如雨后春筍般涌現(xiàn),但如何快速準(zhǔn)確地驗(yàn)證這些研究中的聲明卻成了一個(gè)巨大挑戰(zhàn)。就像在圖書(shū)館里尋找特定信息一樣,科學(xué)家們需要在海量的論文、圖表和數(shù)據(jù)中找到支持或反駁某個(gè)觀點(diǎn)的證據(jù)。
耶魯大學(xué)的研究團(tuán)隊(duì)注意到了一個(gè)有趣的現(xiàn)象:雖然現(xiàn)在的人工智能已經(jīng)很聰明了,但在處理科學(xué)論文時(shí)卻經(jīng)常"偏科"——它們可能很擅長(zhǎng)理解文字,但在同時(shí)處理文字、圖表和表格時(shí)就顯得力不從心。這就像一個(gè)學(xué)生可能語(yǔ)文很好,但遇到需要同時(shí)運(yùn)用語(yǔ)文、數(shù)學(xué)和科學(xué)知識(shí)的綜合題時(shí)就犯難了。
為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)名為SCIVER的評(píng)估工具。這個(gè)工具就像是給AI設(shè)計(jì)的"科學(xué)論文理解考試",專門(mén)測(cè)試AI是否能像人類專家一樣,在復(fù)雜的科學(xué)文獻(xiàn)中準(zhǔn)確驗(yàn)證各種聲明。
研究團(tuán)隊(duì)精心收集了1113篇計(jì)算機(jī)科學(xué)領(lǐng)域的論文,從中提取出3000個(gè)需要驗(yàn)證的聲明。這些聲明涵蓋了四種不同的推理類型,就像考試中的不同題型一樣。第一種是直接推理,就像在文章中直接找到答案的選擇題;第二種是并行推理,需要同時(shí)查看多個(gè)不同的信息源;第三種是順序推理,需要一步步地建立邏輯鏈條;最后一種是分析推理,需要運(yùn)用專業(yè)知識(shí)進(jìn)行深度分析。
為了確保這個(gè)"考試"的質(zhì)量,研究團(tuán)隊(duì)特意招募了18位計(jì)算機(jī)科學(xué)領(lǐng)域的研究生和博士后作為專家標(biāo)注員。這些專家就像嚴(yán)格的閱卷老師,每個(gè)人都在自己的專業(yè)領(lǐng)域有著豐富的發(fā)表經(jīng)驗(yàn)。他們不僅要判斷每個(gè)聲明是否正確,還要詳細(xì)標(biāo)注出支持這個(gè)判斷的具體證據(jù),就像在試卷上標(biāo)出正確答案的依據(jù)一樣。
當(dāng)研究團(tuán)隊(duì)用這個(gè)工具測(cè)試21個(gè)最先進(jìn)的AI模型時(shí),結(jié)果令人驚訝。這些模型包括了OpenAI的GPT-4系列、谷歌的Gemini系列,以及眾多開(kāi)源模型。測(cè)試結(jié)果顯示,即使是最優(yōu)秀的AI模型,在面對(duì)復(fù)雜的科學(xué)驗(yàn)證任務(wù)時(shí),表現(xiàn)也遠(yuǎn)不如人類專家。
以最新的推理模型o4-mini為例,它在最簡(jiǎn)單的直接推理任務(wù)上能達(dá)到85%的準(zhǔn)確率,已經(jīng)接近人類專家的水平。但在最復(fù)雜的分析推理任務(wù)上,即使是表現(xiàn)最好的GPT-4.1也只能達(dá)到70.8%的準(zhǔn)確率,而人類專家的準(zhǔn)確率高達(dá)90%。這就像一個(gè)學(xué)生在簡(jiǎn)單的計(jì)算題上表現(xiàn)不錯(cuò),但遇到需要深度思考的應(yīng)用題時(shí)就明顯吃力了。
更有趣的是,研究團(tuán)隊(duì)發(fā)現(xiàn)了AI模型的幾個(gè)典型"毛病"。第一個(gè)問(wèn)題是"找不到重點(diǎn)",占錯(cuò)誤的32%。就像學(xué)生做閱讀理解時(shí),明明答案就在文章里,但就是找不到關(guān)鍵信息。第二個(gè)問(wèn)題是"看圖說(shuō)話能力差",占21%的錯(cuò)誤。AI在解讀圖表時(shí)經(jīng)常出現(xiàn)誤判,比如把數(shù)據(jù)趨勢(shì)看反了。第三個(gè)問(wèn)題是"邏輯鏈條斷裂",占17%的錯(cuò)誤。AI無(wú)法將多個(gè)推理步驟有效連接起來(lái),就像做數(shù)學(xué)證明題時(shí)步驟跳躍太大。
研究團(tuán)隊(duì)還發(fā)現(xiàn),當(dāng)需要的證據(jù)越多時(shí),AI的表現(xiàn)就越差。這就像做綜合性大題時(shí),需要用到的知識(shí)點(diǎn)越多,出錯(cuò)的概率就越高。當(dāng)一個(gè)聲明需要三個(gè)以上的證據(jù)支持時(shí),所有模型的準(zhǔn)確率都明顯下降。
為了幫助AI提高表現(xiàn),研究團(tuán)隊(duì)還測(cè)試了檢索增強(qiáng)生成技術(shù),這就像給學(xué)生提供參考資料一樣。結(jié)果顯示,當(dāng)AI能夠獲得更準(zhǔn)確的相關(guān)信息時(shí),它們的表現(xiàn)確實(shí)有所改善。使用OpenAI的嵌入模型進(jìn)行信息檢索時(shí),Qwen2.5-VL-72B模型的準(zhǔn)確率從70.2%提升到了75.3%。
這項(xiàng)研究的意義遠(yuǎn)不止于測(cè)試AI的能力。在當(dāng)今科研環(huán)境下,研究論文數(shù)量激增,人工驗(yàn)證每個(gè)聲明既費(fèi)時(shí)又費(fèi)力。如果AI能夠可靠地完成這項(xiàng)工作,就能大大提高科研效率,幫助研究人員快速篩選和驗(yàn)證信息。
然而,研究也揭示了當(dāng)前AI技術(shù)的局限性。這些模型在處理需要深度專業(yè)知識(shí)和復(fù)雜推理的任務(wù)時(shí),仍然無(wú)法達(dá)到人類專家的水平。這提醒我們,雖然AI在很多領(lǐng)域都表現(xiàn)出色,但在科學(xué)研究這樣需要嚴(yán)謹(jǐn)邏輯和專業(yè)判斷的領(lǐng)域,人類專家的價(jià)值依然不可替代。
研究團(tuán)隊(duì)通過(guò)詳細(xì)的錯(cuò)誤分析發(fā)現(xiàn),開(kāi)源模型在某些方面還存在明顯的不足。比如,它們往往過(guò)度依賴文本信息,而忽略了圖表中的關(guān)鍵數(shù)據(jù)。這就像學(xué)生只看文字描述而忽略了配圖,自然會(huì)遺漏重要信息。另外,一些模型還會(huì)犯領(lǐng)域知識(shí)錯(cuò)誤,錯(cuò)誤地應(yīng)用專業(yè)術(shù)語(yǔ)或概念。
值得注意的是,不同類型的推理任務(wù)對(duì)AI來(lái)說(shuō)難度差別很大。直接推理任務(wù)相對(duì)簡(jiǎn)單,因?yàn)榇鸢竿ǔD茉趩我恍畔⒃粗姓业?。而分析推理任?wù)最具挑戰(zhàn)性,因?yàn)樗粌H需要整合多個(gè)信息源,還需要運(yùn)用專業(yè)知識(shí)進(jìn)行判斷。這種差異性為未來(lái)AI模型的改進(jìn)指明了方向。
研究團(tuán)隊(duì)還發(fā)現(xiàn),模型的規(guī)模并不總是決定性因素。一些參數(shù)量較小但設(shè)計(jì)精良的模型,在某些任務(wù)上的表現(xiàn)可能超過(guò)參數(shù)量更大的模型。這說(shuō)明模型架構(gòu)和訓(xùn)練方法的重要性,而不僅僅是簡(jiǎn)單地增加模型大小。
從實(shí)際應(yīng)用角度來(lái)看,這項(xiàng)研究為科研工具的開(kāi)發(fā)提供了重要參考。未來(lái)的科研助手工具需要在多模態(tài)理解能力上有更大突破,特別是在整合文本、圖表和表格信息方面。同時(shí),這些工具還需要具備更強(qiáng)的領(lǐng)域知識(shí)理解能力,能夠準(zhǔn)確把握不同學(xué)科的專業(yè)概念和推理模式。
對(duì)于普通讀者來(lái)說(shuō),這項(xiàng)研究揭示了一個(gè)重要事實(shí):雖然AI技術(shù)發(fā)展迅速,但在需要深度理解和專業(yè)判斷的領(lǐng)域,我們?nèi)匀恍枰祟悓<业闹腔邸_@并不意味著AI沒(méi)有價(jià)值,而是說(shuō)AI和人類專家應(yīng)該發(fā)揮各自的優(yōu)勢(shì),形成互補(bǔ)的合作關(guān)系。
研究的另一個(gè)重要發(fā)現(xiàn)是,不同的AI模型在不同類型的任務(wù)上表現(xiàn)各異。這提醒我們,在選擇AI工具時(shí)不能一概而論,而應(yīng)該根據(jù)具體的應(yīng)用場(chǎng)景和需求來(lái)選擇最合適的模型。就像選擇工具一樣,不同的任務(wù)需要不同的專業(yè)工具。
最終,這項(xiàng)研究為AI在科學(xué)研究中的應(yīng)用提供了重要的基準(zhǔn)和參考標(biāo)準(zhǔn)。SCIVER不僅是一個(gè)評(píng)估工具,更是推動(dòng)AI技術(shù)進(jìn)步的重要驅(qū)動(dòng)力。通過(guò)明確現(xiàn)有技術(shù)的不足,它為研究人員指明了改進(jìn)方向,有助于開(kāi)發(fā)出更加智能和可靠的科研助手工具。
說(shuō)到底,這項(xiàng)研究告訴我們,AI在科學(xué)驗(yàn)證方面還有很長(zhǎng)的路要走。雖然最先進(jìn)的AI模型已經(jīng)展現(xiàn)出了一定的能力,但距離人類專家的水平仍有明顯差距。這種差距不僅體現(xiàn)在準(zhǔn)確率上,更體現(xiàn)在深度理解和復(fù)雜推理能力上。不過(guò),這也意味著巨大的發(fā)展空間和機(jī)遇。隨著技術(shù)的不斷進(jìn)步,我們有理由相信,未來(lái)的AI將能夠更好地協(xié)助人類進(jìn)行科學(xué)研究,讓知識(shí)的驗(yàn)證和傳播變得更加高效和準(zhǔn)確。對(duì)于關(guān)心科技發(fā)展的普通讀者來(lái)說(shuō),這項(xiàng)研究提醒我們既要對(duì)AI技術(shù)保持合理期待,也要認(rèn)識(shí)到人類智慧在科學(xué)探索中的不可替代性。
Q&A
Q1:SCIVER是什么?它主要用來(lái)做什么? A:SCIVER是耶魯大學(xué)開(kāi)發(fā)的AI評(píng)估工具,專門(mén)測(cè)試人工智能是否能像人類專家一樣驗(yàn)證科學(xué)論文中的聲明。它包含3000個(gè)專家標(biāo)注的例子,涵蓋四種不同難度的推理任務(wù),用來(lái)全面評(píng)估AI在處理科學(xué)文獻(xiàn)時(shí)的理解和推理能力。
Q2:目前最先進(jìn)的AI在科學(xué)驗(yàn)證方面表現(xiàn)如何? A:即使是最優(yōu)秀的AI模型,在復(fù)雜的科學(xué)驗(yàn)證任務(wù)上仍然遠(yuǎn)不如人類專家。比如GPT-4.1在最難的分析推理任務(wù)上只能達(dá)到70.8%的準(zhǔn)確率,而人類專家能達(dá)到90%。AI主要在找不到關(guān)鍵信息、誤讀圖表和邏輯推理鏈條斷裂等方面存在問(wèn)題。
Q3:這項(xiàng)研究對(duì)普通人有什么意義? A:這項(xiàng)研究揭示了AI在需要深度理解和專業(yè)判斷的領(lǐng)域仍有局限性,提醒我們?cè)诳茖W(xué)研究等嚴(yán)謹(jǐn)領(lǐng)域,人類專家的價(jià)值依然不可替代。同時(shí),它為未來(lái)開(kāi)發(fā)更好的科研助手工具提供了方向,最終可能讓知識(shí)驗(yàn)證變得更高效。
好文章,需要你的鼓勵(lì)
這項(xiàng)研究提出了"高效探測(cè)"方法,解決了掩碼圖像建模AI難以有效評(píng)估的問(wèn)題。通過(guò)創(chuàng)新的多查詢交叉注意力機(jī)制,該方法在減少90%參數(shù)的同時(shí)實(shí)現(xiàn)10倍速度提升,在七個(gè)基準(zhǔn)測(cè)試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強(qiáng)相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊(duì)承諾開(kāi)源全部代碼,推動(dòng)技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了CLAIMSPECT系統(tǒng),通過(guò)層次化分解復(fù)雜爭(zhēng)議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點(diǎn)的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動(dòng)構(gòu)建爭(zhēng)議話題的分析框架,識(shí)別不同觀點(diǎn)及其支撐證據(jù),為科學(xué)和政治爭(zhēng)議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國(guó)際關(guān)系領(lǐng)域驗(yàn)證有效性。
清華大學(xué)研究團(tuán)隊(duì)首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類一樣理解和表達(dá)情感。該系統(tǒng)通過(guò)多層次情感處理架構(gòu),在情感識(shí)別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實(shí)現(xiàn)了跨模態(tài)情感融合、動(dòng)態(tài)情感追蹤和個(gè)性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來(lái)革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊(duì)通過(guò)創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會(huì)復(fù)雜推理。研究發(fā)現(xiàn)AI通過(guò)游戲競(jìng)爭(zhēng)能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問(wèn)題等方面表現(xiàn)顯著提升。這項(xiàng)突破性成果為未來(lái)AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過(guò)模擬人類學(xué)習(xí)過(guò)程培養(yǎng)真正智能AI的新路徑。