在人工智能飛速發(fā)展的今天,一個(gè)有趣的問題浮出水面:我們?nèi)粘J褂玫拇笳Z言模型(LLM),是否真的理解了世界運(yùn)行的基本規(guī)則——因果關(guān)系?這項(xiàng)由伍斯特理工學(xué)院的Ryan Saklad、Oleg Pavlov、Raha Moraffah與亞馬遜通用人工智能部門的Aman Chadha共同完成的研究,發(fā)表于2025年5月25日的arXiv預(yù)印本平臺(tái)(arXiv:2505.18931v1),深入探討了這個(gè)關(guān)鍵問題。
理解因果關(guān)系是人類智能的核心特征。當(dāng)我們閱讀"提高價(jià)格可能會(huì)初期增加單件商品收入...價(jià)格變化可能會(huì)疏遠(yuǎn)顧客"這樣的文字時(shí),我們能自然地推斷出"價(jià)格"會(huì)影響"客戶數(shù)量",進(jìn)而影響"收入"。但大語言模型能做到同樣的推理嗎?這項(xiàng)研究告訴我們,答案并不樂觀。
研究團(tuán)隊(duì)發(fā)現(xiàn),以往評(píng)估語言模型因果推理能力的方法存在一個(gè)重大缺陷:它們通常使用人工合成的簡(jiǎn)單文本,這些文本中的因果關(guān)系往往被明確表述出來。想象一下兩種描述同一經(jīng)濟(jì)規(guī)律的文本:一種直白地說"提高價(jià)格導(dǎo)致每次銷售收入增加但減少買家數(shù)量。較少的買家導(dǎo)致收入下降";另一種則更加隱晦:"企業(yè)通常發(fā)現(xiàn)定價(jià)具有挑戰(zhàn)性。提高價(jià)格可能最初會(huì)提高每件商品的收入...價(jià)格變化可能會(huì)疏遠(yuǎn)客戶,從而減少收入并損害盈利能力。"后者更接近我們?cè)诂F(xiàn)實(shí)世界中遇到的復(fù)雜文本,其中因果關(guān)系往往是隱含的,分散在長(zhǎng)段落中,需要深入思考才能提取出來。
為了評(píng)估語言模型在真實(shí)世界條件下的因果推理能力,研究團(tuán)隊(duì)創(chuàng)建了一個(gè)全新的基準(zhǔn)測(cè)試集——ReCAST(Realistic Causal Structure from Text)。這是首個(gè)基于真實(shí)世界學(xué)術(shù)文獻(xiàn)的因果推理數(shù)據(jù)集,包含了各種復(fù)雜度的文本:不同長(zhǎng)度、不同顯隱程度的因果關(guān)系、不同數(shù)量的事件和變量,以及來自多個(gè)領(lǐng)域和子領(lǐng)域的內(nèi)容。
研究團(tuán)隊(duì)對(duì)包括R1、o3-mini、QwQ、Qwen-32B和Llama-8B在內(nèi)的多個(gè)最先進(jìn)大語言模型進(jìn)行了測(cè)試。結(jié)果令人擔(dān)憂:表現(xiàn)最好的模型(R1)也只達(dá)到了0.477的平均F1分?jǐn)?shù),遠(yuǎn)低于理想水平。更具體地說,模型在識(shí)別顯式表述的因果關(guān)系時(shí)表現(xiàn)尚可,但在處理隱含信息、區(qū)分相關(guān)因果因素與周圍環(huán)境細(xì)節(jié),以及連接分散在長(zhǎng)文本中的相關(guān)信息時(shí),表現(xiàn)得極為糟糕。
讓我們通過一個(gè)例子來理解模型的困境。在一個(gè)關(guān)于青巴山區(qū)生計(jì)效率的樣本中,文本明確指出:"土地和氣候是農(nóng)業(yè)生產(chǎn)的基本條件...因此,陽光、降水和耕地面積被選為代表縣域自然資本的指標(biāo)。"盡管這段文字直白地描述了氣候因素與農(nóng)業(yè)產(chǎn)出之間的因果關(guān)系,最強(qiáng)大的R1模型仍然無法準(zhǔn)確捕捉這些關(guān)系。它在推理過程中正確識(shí)別了降水是一個(gè)相關(guān)因素,但在最終的因果圖中完全忽略了所有氣候驅(qū)動(dòng)因素,甚至創(chuàng)建了一些完全錯(cuò)誤的連接。
即使當(dāng)研究人員向模型提供所有正確的節(jié)點(diǎn)名稱,只要求它確定節(jié)點(diǎn)間的因果關(guān)系時(shí),模型的表現(xiàn)也只有微小改善。這表明問題不僅僅出在節(jié)點(diǎn)識(shí)別上,而是在更深層次的因果推理能力上。
這項(xiàng)研究的意義遠(yuǎn)超學(xué)術(shù)界。因果推理是人類智能的基石,也是通往人工通用智能(AGI)的必經(jīng)之路。如果大語言模型無法從真實(shí)世界的文本中準(zhǔn)確推斷因果關(guān)系,它們就無法真正理解世界的運(yùn)作方式,從而限制了它們?cè)趶?fù)雜決策場(chǎng)景中的應(yīng)用。
研究團(tuán)隊(duì)創(chuàng)建的ReCAST基準(zhǔn)測(cè)試集為未來的研究提供了寶貴工具,可以系統(tǒng)地評(píng)估和改進(jìn)語言模型的因果推理能力。通過揭示當(dāng)前模型的局限性,這項(xiàng)研究為開發(fā)下一代更具因果推理能力的AI系統(tǒng)指明了方向。
對(duì)于我們普通用戶來說,這項(xiàng)研究提醒我們,當(dāng)前的大語言模型雖然在生成文本方面表現(xiàn)出色,但在理解文本背后的因果關(guān)系時(shí)仍有顯著不足。當(dāng)我們使用這些模型分析復(fù)雜情況或協(xié)助決策時(shí),應(yīng)該保持適當(dāng)?shù)闹?jǐn)慎。
在未來,隨著研究人員不斷改進(jìn)模型的因果推理能力,我們可能會(huì)看到更加智能的AI系統(tǒng),它們不僅能夠理解"是什么",還能理解"為什么"——這將是邁向真正智能系統(tǒng)的重要一步。
那么,大語言模型能從真實(shí)世界文本中推斷因果關(guān)系嗎?目前的答案是:它們嘗試了,但離成功還有很長(zhǎng)的路要走。
研究方法:從學(xué)術(shù)文獻(xiàn)到因果圖
研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)精心的三步流程來構(gòu)建ReCAST基準(zhǔn)測(cè)試集。首先,他們從經(jīng)濟(jì)學(xué)領(lǐng)域的開放獲取期刊(MDPI和PLOS)中收集論文,特別選擇包含"因果環(huán)路圖"這一術(shù)語的文獻(xiàn)。這個(gè)領(lǐng)域特別適合作為基準(zhǔn)測(cè)試,因?yàn)榻?jīng)濟(jì)學(xué)論文通常包含詳細(xì)的文本描述,同時(shí)避免過度依賴非文本元素(如數(shù)值數(shù)據(jù))。
經(jīng)過篩選,研究團(tuán)隊(duì)確保每篇選定的論文只包含一個(gè)主要的因果圖,作為評(píng)估模型的標(biāo)準(zhǔn)答案。隨后,領(lǐng)域?qū)<覍⑦@些圖轉(zhuǎn)換為標(biāo)準(zhǔn)化的文本格式("源變量" -> "目標(biāo)變量")。最后,團(tuán)隊(duì)進(jìn)行了嚴(yán)格的后處理,確保數(shù)據(jù)的質(zhì)量和準(zhǔn)確性。
為了評(píng)估模型的表現(xiàn),研究團(tuán)隊(duì)不僅使用了傳統(tǒng)的評(píng)估指標(biāo)(如精確率、召回率、F1分?jǐn)?shù)等),還創(chuàng)新性地采用了"LLM作為評(píng)判者"的方法。由于傳統(tǒng)的圖形比較方法難以處理語義相似但表述不同的節(jié)點(diǎn)(比如"人"和"人類"),他們使用了一個(gè)經(jīng)過專門提示的語言模型來評(píng)估生成圖的質(zhì)量,提供更細(xì)致的反饋。
ReCAST最終包含了292個(gè)樣本,平均每個(gè)圖包含約25個(gè)節(jié)點(diǎn)和37條邊,平均文本長(zhǎng)度超過4萬字符,這遠(yuǎn)超過以往的合成數(shù)據(jù)集,更真實(shí)地反映了現(xiàn)實(shí)世界的復(fù)雜性。
實(shí)驗(yàn)結(jié)果:模型的表現(xiàn)與局限
研究團(tuán)隊(duì)評(píng)估了五個(gè)最先進(jìn)的大語言模型:閉源的o3-mini和開源的R1(685B參數(shù))、Qwen-32B、QwQ-32B以及Llama-8B。測(cè)試結(jié)果顯示,即使是最強(qiáng)大的模型也難以勝任這項(xiàng)任務(wù)。
最好的模型R1僅達(dá)到0.477的平均F1分?jǐn)?shù),而最弱的Llama-8B只有0.302。有趣的是,研究發(fā)現(xiàn)模型的大小與其表現(xiàn)有明顯關(guān)聯(lián)——參數(shù)量更大的模型表現(xiàn)更好。同樣,專門針對(duì)推理能力訓(xùn)練的模型(如R1和QwQ)比一般的指令微調(diào)模型表現(xiàn)更佳。
研究還揭示了幾個(gè)關(guān)鍵的發(fā)現(xiàn):
首先,"混淆度"(一個(gè)衡量文本中隱含信息多少的指標(biāo))對(duì)模型表現(xiàn)有顯著影響。當(dāng)混淆度低于10%(即大多數(shù)因果關(guān)系在文本中有明確表述)時(shí),R1模型能達(dá)到0.57的F1分?jǐn)?shù);但當(dāng)混淆度超過50%時(shí),分?jǐn)?shù)驟降至0.31。這表明模型在處理隱含因果關(guān)系時(shí)特別困難。
其次,令人驚訝的是,輸入規(guī)模(文本長(zhǎng)度、圖中的節(jié)點(diǎn)和邊數(shù)量)與模型表現(xiàn)有微弱的正相關(guān)。研究者進(jìn)一步分析發(fā)現(xiàn),這可能是因?yàn)檩^長(zhǎng)的文本往往包含更多明確的信息,混淆度較低,因此相對(duì)更容易處理。
最后,一個(gè)關(guān)鍵的實(shí)驗(yàn)是"節(jié)點(diǎn)名稱輔助"測(cè)試——研究團(tuán)隊(duì)向模型提供了所有正確的節(jié)點(diǎn)名稱,只要求模型確定節(jié)點(diǎn)之間的因果關(guān)系。即使在這種大幅簡(jiǎn)化的條件下,模型的表現(xiàn)也只有微小改善(R1的F1分?jǐn)?shù)僅提高0.025),這進(jìn)一步證明問題的核心在于因果推理能力本身,而非實(shí)體識(shí)別。
研究啟示:從人造文本到真實(shí)世界
這項(xiàng)研究為AI領(lǐng)域帶來了幾個(gè)重要啟示。首先,它挑戰(zhàn)了我們對(duì)大語言模型能力的認(rèn)知。盡管這些模型在生成文本和回答問題方面表現(xiàn)出色,但在理解真實(shí)世界文本中的因果關(guān)系時(shí)卻顯得力不從心。
其次,研究指出了評(píng)估AI系統(tǒng)的重要性——我們需要使用真實(shí)、復(fù)雜的數(shù)據(jù)來測(cè)試模型,而非簡(jiǎn)化的人造環(huán)境。正如一位老練的登山者不會(huì)僅在健身房?jī)?nèi)訓(xùn)練就挑戰(zhàn)珠穆朗瑪峰,AI系統(tǒng)也需要在真實(shí)條件下接受測(cè)試。
最后,這項(xiàng)研究為未來指明了方向。要開發(fā)真正智能的AI系統(tǒng),我們需要特別關(guān)注因果推理能力的培養(yǎng)。這可能需要新的訓(xùn)練方法、模型架構(gòu),甚至是全新的理論框架。
研究也存在一些局限性。例如,基準(zhǔn)測(cè)試主要基于經(jīng)濟(jì)學(xué)文獻(xiàn),這可能限制了評(píng)估的多樣性。此外,盡管研究者盡力確保評(píng)估的客觀性,但使用LLM作為評(píng)判者也可能引入某些偏見。不過,研究者通過與確定性評(píng)估方法的對(duì)比驗(yàn)證了評(píng)估的可靠性。
結(jié)論:通往因果AI的漫長(zhǎng)道路
這項(xiàng)開創(chuàng)性研究告訴我們,盡管大語言模型取得了令人矚目的進(jìn)展,但在理解真實(shí)世界文本中的因果關(guān)系方面,它們?nèi)杂泻荛L(zhǎng)的路要走。正如人類孩童需要多年學(xué)習(xí)才能掌握復(fù)雜的因果推理,我們的AI系統(tǒng)也需要更多時(shí)間和更好的方法來發(fā)展這種核心智能能力。
ReCAST基準(zhǔn)測(cè)試集為研究社區(qū)提供了一個(gè)寶貴的工具,可以系統(tǒng)地評(píng)估和改進(jìn)AI系統(tǒng)的因果推理能力。通過揭示當(dāng)前模型的局限性,這項(xiàng)研究為開發(fā)下一代更具因果推理能力的AI系統(tǒng)指明了方向。
歸根結(jié)底,因果推理是智能的基石,也是通往人工通用智能的必經(jīng)之路。只有當(dāng)機(jī)器能夠真正理解"為什么",而不僅僅是"是什么"時(shí),它們才能開始接近人類的認(rèn)知能力。這項(xiàng)研究提醒我們,盡管我們?cè)贏I領(lǐng)域取得了驚人進(jìn)展,但真正的智能系統(tǒng)仍然需要更深入的研究和更多的突破。
對(duì)于關(guān)注AI發(fā)展的讀者,這項(xiàng)研究提供了一個(gè)重要的視角:在為大語言模型的能力驚嘆的同時(shí),也應(yīng)該清醒地認(rèn)識(shí)到它們的局限性。如果你對(duì)這項(xiàng)研究感興趣,可以通過arXiv:2505.18931v1訪問完整論文,深入了解ReCAST基準(zhǔn)測(cè)試集和研究的詳細(xì)結(jié)果。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。