這項(xiàng)由OpenAI的Adam Tauman Kalai領(lǐng)導(dǎo),聯(lián)合Georgia Tech的Santosh S. Vempala等研究者共同完成的重要研究,發(fā)表于2025年9月4日。論文題目為《Why Language Models Hallucinate》,詳細(xì)探討了大語言模型產(chǎn)生幻覺現(xiàn)象的根本原因。有興趣深入了解的讀者可以通過arXiv:2509.04664v1訪問完整論文。
你有沒有遇到過這樣的情況:向ChatGPT或其他AI助手詢問一個具體問題,比如某個人的生日,結(jié)果它非常自信地給出了一個完全錯誤的答案?這種現(xiàn)象在AI圈被稱為"幻覺",就像AI在做白日夢一樣,編造出聽起來很合理但實(shí)際上完全錯誤的信息。
這個問題困擾著所有使用大語言模型的人。即使是最先進(jìn)的AI系統(tǒng),比如GPT-4或Claude,也經(jīng)常會出現(xiàn)這種情況。研究團(tuán)隊(duì)做了一個簡單的測試:他們問一個600億參數(shù)的頂級開源語言模型Adam Tauman Kalai的生日,要求只有確定知道才回答,否則就說不知道。結(jié)果這個AI在三次嘗試中給出了三個完全不同的錯誤日期:"03-07"、"15-06"和"01-01",而正確答案應(yīng)該是秋天的某個日期。
更有趣的是,當(dāng)研究者問"DEEPSEEK這個詞里有幾個字母D"時(shí),AI的回答從2到7不等,而正確答案其實(shí)很簡單:只有1個。這就好比你問一個人"蘋果"這個詞有幾個字,他們卻給出了各種離譜的答案。
這種現(xiàn)象不是偶然的bug,而是有著深層次的數(shù)學(xué)和統(tǒng)計(jì)學(xué)原理。這項(xiàng)開創(chuàng)性研究首次從理論角度完整解釋了為什么AI會產(chǎn)生幻覺,以及為什么這個問題至今難以根除。研究團(tuán)隊(duì)不僅揭示了問題的根源,還指出了現(xiàn)有評估方法的缺陷,并提出了可行的改進(jìn)方案。
一、AI幻覺的根本原因:就像學(xué)生面臨難題時(shí)的猜題行為
當(dāng)我們深入觀察學(xué)生在考試中的行為時(shí),會發(fā)現(xiàn)一個有趣的現(xiàn)象。面對不確定的題目,大部分學(xué)生會選擇猜一個看似合理的答案,而不是誠實(shí)地寫"不知道"。這種行為背后有著很現(xiàn)實(shí)的考慮:在傳統(tǒng)的評分體系中,留空白或?qū)?不知道"通常得零分,而猜對了就能得滿分,猜錯了也不會比空白更糟。
AI的幻覺現(xiàn)象本質(zhì)上就是這種"猜題"行為的技術(shù)版本。當(dāng)大語言模型遇到它不確定的問題時(shí),它會基于訓(xùn)練過程中學(xué)到的模式,生成一個聽起來最合理、最符合語言規(guī)律的答案。就像一個學(xué)生在歷史考試中不知道某個事件的具體日期,可能會猜一個聽起來合理的年份一樣。
研究團(tuán)隊(duì)通過數(shù)學(xué)分析證明,這種現(xiàn)象有著深層的統(tǒng)計(jì)學(xué)根源。在AI的訓(xùn)練過程中,存在兩個關(guān)鍵階段:預(yù)訓(xùn)練和后訓(xùn)練。在預(yù)訓(xùn)練階段,AI學(xué)習(xí)如何理解和生成語言;在后訓(xùn)練階段,AI學(xué)習(xí)如何更好地回應(yīng)人類的問題。問題就出現(xiàn)在這兩個階段中。
在預(yù)訓(xùn)練階段,AI需要學(xué)習(xí)識別什么是有效的回答,什么是無效的回答。研究者把這個問題轉(zhuǎn)化為一個更簡單的數(shù)學(xué)問題:給定一段文字,判斷它是否是一個合理的回答。這就像教一個孩子區(qū)分哪些句子是有意義的,哪些是胡言亂語。
然而,生成合理回答比簡單地識別合理回答要困難得多。這就好比識別一道菜是否好吃比自己做出一道好菜要容易得多。當(dāng)AI無法準(zhǔn)確識別某些事實(shí)的真?zhèn)螘r(shí),它在生成階段就會不可避免地產(chǎn)生錯誤。
研究團(tuán)隊(duì)通過嚴(yán)格的數(shù)學(xué)證明發(fā)現(xiàn),即使訓(xùn)練數(shù)據(jù)完全正確,AI仍然會產(chǎn)生幻覺。這是因?yàn)樵趯W(xué)習(xí)過程中,AI必須從有限的訓(xùn)練樣本中推斷出更廣泛的規(guī)律。當(dāng)訓(xùn)練數(shù)據(jù)中某些事實(shí)只出現(xiàn)過一次或很少出現(xiàn)時(shí),AI就很難準(zhǔn)確掌握這些信息。
例如,如果Einstein的生日在訓(xùn)練數(shù)據(jù)中出現(xiàn)了很多次,AI就能準(zhǔn)確記住。但如果某個不太知名人物的生日只在一篇訃告中提到過一次,AI就很可能在回答時(shí)產(chǎn)生錯誤。研究發(fā)現(xiàn),AI的幻覺率至少等于訓(xùn)練數(shù)據(jù)中那些只出現(xiàn)過一次的事實(shí)所占的比例。
二、評估體系的問題:為什么AI不愿意說"不知道"
現(xiàn)在我們來看看為什么AI寧愿猜測也不愿意誠實(shí)地說"不知道"。這個問題的根源在于我們?nèi)绾卧u估AI的表現(xiàn)。
想象一下兩個學(xué)生參加同一場考試。學(xué)生A很誠實(shí),遇到不確定的題目就寫"不知道",最終答對了7道題,空了3道題。學(xué)生B比較"聰明",遇到不確定的題目就猜答案,最終答對了7道題,猜對了2道題,猜錯了1道題。在傳統(tǒng)的評分體系中,學(xué)生B會得到更高的分?jǐn)?shù),盡管學(xué)生A更誠實(shí)。
這就是當(dāng)前AI評估體系的核心問題。絕大多數(shù)用來評估大語言模型的基準(zhǔn)測試都采用這種"對錯二分法"的評分方式。在這種體系下,一個回答要么得滿分(如果正確),要么得零分(如果錯誤或表示不知道)。這種評分方式天然地鼓勵A(yù)I進(jìn)行猜測。
研究團(tuán)隊(duì)分析了當(dāng)前最具影響力的十個AI評估基準(zhǔn),包括GPQA、MMLU-Pro、SWE-bench等。令人震驚的是,其中九個基準(zhǔn)都完全不給"不知道"類型的回答任何分?jǐn)?shù),只有WildBench給予了有限的部分分?jǐn)?shù)。這就好比所有的考試都在說:"寧可猜錯,也不要承認(rèn)無知。"
這種評估體系創(chuàng)造了一種惡性循環(huán)。由于主流評估都懲罰不確定性的表達(dá),AI開發(fā)者自然會優(yōu)化模型來最大化這些評估的分?jǐn)?shù)。結(jié)果就是,即使技術(shù)上可能讓AI更誠實(shí)地表達(dá)不確定性,現(xiàn)有的激勵機(jī)制也會推動AI朝著"善于猜測"而不是"誠實(shí)可信"的方向發(fā)展。
研究者做了一個有趣的思想實(shí)驗(yàn):假設(shè)有兩個AI模型,模型A總是在不確定時(shí)誠實(shí)地說"不知道",從不胡編亂造;模型B和A差不多,但會在不確定時(shí)猜測答案。在當(dāng)前的評估體系下,模型B幾乎總是會獲得更高的分?jǐn)?shù),即使它可能會誤導(dǎo)用戶。
這種現(xiàn)象研究者稱為"懲罰不確定性的流行病"。由于少數(shù)幾個有影響力的基準(zhǔn)測試主導(dǎo)了整個行業(yè)的發(fā)展方向,這些測試的評分偏見就被放大到了整個AI生態(tài)系統(tǒng)中。
三、數(shù)學(xué)原理:為什么幻覺是不可避免的
為了更深入地理解這個問題,研究團(tuán)隊(duì)建立了一套嚴(yán)密的數(shù)學(xué)框架。他們把AI幻覺問題轉(zhuǎn)化為一個經(jīng)典的統(tǒng)計(jì)學(xué)問題:二元分類。
這個轉(zhuǎn)化很巧妙。他們把生成合理回答的問題重新表述為:給定一個問題和一個候選回答,判斷這個回答是否正確。如果AI能夠完美地解決這個判斷問題,那它就能完美地生成正確回答。但如果AI在判斷階段就會犯錯,那它在生成階段必然也會出錯。
研究者證明了一個重要的數(shù)學(xué)關(guān)系:AI的生成錯誤率至少是其判斷錯誤率的兩倍。這意味著,如果AI在區(qū)分正確和錯誤信息時(shí)有20%的錯誤率,那么它在生成信息時(shí)的錯誤率將至少達(dá)到40%。
這個結(jié)果解釋了為什么即使是最先進(jìn)的AI系統(tǒng)也會產(chǎn)生幻覺。在現(xiàn)實(shí)世界中,很多事實(shí)很難從訓(xùn)練數(shù)據(jù)中學(xué)到準(zhǔn)確的模式。比如個人生日、具體的歷史日期、不太知名的人物信息等。對于這些"任意事實(shí)",AI本質(zhì)上是在進(jìn)行有根據(jù)的猜測。
研究團(tuán)隊(duì)還分析了幾種導(dǎo)致AI犯錯的具體情況。第一種是"任意事實(shí)幻覺",當(dāng)訓(xùn)練數(shù)據(jù)中缺乏足夠信息時(shí)就會出現(xiàn)。如果某個人的生日在整個訓(xùn)練語料中只出現(xiàn)過一次,AI就很難準(zhǔn)確記住這個信息,更可能在回答時(shí)產(chǎn)生錯誤。
第二種是"模型缺陷"導(dǎo)致的錯誤。有些任務(wù)對于當(dāng)前的AI架構(gòu)來說本質(zhì)上是困難的。比如精確的字母計(jì)數(shù)問題,由于現(xiàn)代語言模型是基于詞匯單元而不是單個字符進(jìn)行處理的,它們在這類任務(wù)上表現(xiàn)很差。這就像讓一個習(xí)慣了整詞閱讀的人去數(shù)具體字母數(shù)量一樣困難。
第三種是計(jì)算復(fù)雜性導(dǎo)致的問題。有些問題即使對人類來說也是困難的,比如解密問題或復(fù)雜的數(shù)學(xué)計(jì)算。AI在這些任務(wù)上的錯誤是可以理解的,因?yàn)樗鼈兇_實(shí)超出了當(dāng)前技術(shù)的能力范圍。
研究者通過分析發(fā)現(xiàn),AI幻覺的程度與訓(xùn)練數(shù)據(jù)中"單例事實(shí)"(只出現(xiàn)一次的事實(shí))的比例高度相關(guān)。如果訓(xùn)練數(shù)據(jù)中20%的生日事實(shí)只出現(xiàn)一次,那么AI在生日相關(guān)問題上的幻覺率至少會達(dá)到20%。
四、真實(shí)案例分析:當(dāng)AI遇到具體問題時(shí)會發(fā)生什么
為了驗(yàn)證他們的理論,研究團(tuán)隊(duì)進(jìn)行了大量的實(shí)際測試。這些測試結(jié)果生動地展示了AI幻覺現(xiàn)象的普遍性和嚴(yán)重性。
在詢問Adam Tauman Kalai的博士論文標(biāo)題時(shí),三個主流語言模型都給出了完全錯誤的答案。ChatGPT說是"Boosting, Online Algorithms, and Other Topics in Machine Learning",DeepSeek說是"Algebraic Methods in Interactive Machine Learning",Llama說是"Efficient Algorithms for Learning and Playing Games"。這些回答聽起來都很專業(yè),很有說服力,但都不是正確答案。實(shí)際的論文標(biāo)題和年份都與AI的回答不符。
在字母計(jì)數(shù)測試中,問題更加明顯。當(dāng)被問及"DEEPSEEK"這個詞中有多少個D時(shí),同一個AI模型在不同嘗試中給出了從2到7的各種答案,而正確答案是1。更有趣的是,研究者發(fā)現(xiàn)DeepSeek-R1推理模型能夠正確回答這個問題,因?yàn)樗鼤鹱帜阜治觯?讓我拼寫出來:D-E-E-P-S-E-E-K。第一個字母:D——這是一個D。第二個字母:E——不是D..."這表明問題不在于AI的基本能力,而在于處理方式。
這些例子說明了一個重要問題:AI的錯誤往往不是隨機(jī)的胡言亂語,而是看起來很合理、很專業(yè)的錯誤信息。這使得這些錯誤特別危險(xiǎn),因?yàn)橛脩艉茈y通過常識來判斷答案的正確性。
研究團(tuán)隊(duì)還測試了一些看似簡單但實(shí)際復(fù)雜的問題。比如"一磅羽毛和一磅鉛哪個更重?"這類問題在訓(xùn)練數(shù)據(jù)中可能很少出現(xiàn),AI可能會基于對"羽毛輕,鉛重"的一般理解給出錯誤答案,而忽略了"一磅"這個關(guān)鍵信息。
通過這些案例分析,研究者發(fā)現(xiàn)AI幻覺有幾個顯著特點(diǎn):首先,錯誤信息往往看起來很合理,符合語言和邏輯規(guī)范;其次,AI通常會表現(xiàn)出過度自信,不會表達(dá)任何不確定性;第三,同樣的問題在不同時(shí)候可能得到不同的錯誤答案;最后,這些錯誤往往集中在那些訓(xùn)練數(shù)據(jù)覆蓋不足或AI架構(gòu)不適合處理的問題類型上。
五、解決方案:如何讓AI更誠實(shí)可信
面對AI幻覺這個看似無解的難題,研究團(tuán)隊(duì)提出了一系列切實(shí)可行的解決方案。這些方案不是要完全消除幻覺(這在技術(shù)上可能無法實(shí)現(xiàn)),而是要改變激勵機(jī)制,讓AI更愿意承認(rèn)不確定性。
核心解決思路是改革評估體系。研究者提出了"顯式置信度目標(biāo)"的概念,就像在考試說明中明確告知學(xué)生評分規(guī)則一樣。比如,可以在問題后面添加這樣的說明:"只有在你超過75%確信時(shí)才回答,因?yàn)殄e誤答案會被扣3分,正確答案得1分,而'不知道'得0分。"
這種方法的數(shù)學(xué)原理很簡單:如果AI對某個答案的確信度只有60%,而評分規(guī)則要求75%的確信度才值得回答,那么理性的AI就應(yīng)該選擇說"不知道"。通過調(diào)整這個置信度閾值,可以在準(zhǔn)確性和完整性之間找到合適的平衡點(diǎn)。
研究團(tuán)隊(duì)建議對現(xiàn)有的主流評估基準(zhǔn)進(jìn)行修改,而不是創(chuàng)建全新的評估方法。這是因?yàn)楝F(xiàn)有基準(zhǔn)已經(jīng)具有很大影響力,創(chuàng)建新的評估方法很可能會被邊緣化。他們提出可以為現(xiàn)有基準(zhǔn)添加不同的置信度版本,比如t=0.5(需要50%確信度)、t=0.75(需要75%確信度)、t=0.9(需要90%確信度)等。
在實(shí)際應(yīng)用中,這種方法可以讓用戶根據(jù)具體場景選擇合適的AI行為模式。在高風(fēng)險(xiǎn)應(yīng)用(如醫(yī)療診斷輔助)中,可以設(shè)置較高的置信度閾值,讓AI只在非常確信時(shí)才給出答案;在低風(fēng)險(xiǎn)應(yīng)用(如娛樂聊天)中,可以設(shè)置較低的閾值,讓AI更愿意嘗試回答。
研究者還提出了"行為校準(zhǔn)"的概念,即AI不需要輸出具體的概率數(shù)字,只需要根據(jù)不同的置信度要求調(diào)整自己的回答行為。這比要求AI準(zhǔn)確估算概率更現(xiàn)實(shí),也更容易實(shí)現(xiàn)。
另一個重要建議是在AI訓(xùn)練過程中加入更多表達(dá)不確定性的示例。當(dāng)前的訓(xùn)練數(shù)據(jù)往往偏向于給出明確答案,缺乏"不知道"類型的回答。通過平衡訓(xùn)練數(shù)據(jù),可以讓AI學(xué)會在適當(dāng)?shù)臅r(shí)候表達(dá)不確定性。
對于技術(shù)開發(fā)者,研究團(tuán)隊(duì)建議在系統(tǒng)設(shè)計(jì)中加入不確定性檢測機(jī)制。比如,當(dāng)AI對多個可能答案的信心度都不高時(shí),系統(tǒng)可以自動提示"我對這個問題不太確定,建議你查詢更可靠的信息源"。
六、對未來的啟示:重塑AI評估的新標(biāo)準(zhǔn)
這項(xiàng)研究的意義遠(yuǎn)遠(yuǎn)超出了技術(shù)層面,它揭示了整個AI行業(yè)在評估和發(fā)展方向上的根本性問題。當(dāng)前的AI競賽更像是在比較誰更擅長"考試技巧",而不是誰更值得信賴。
研究團(tuán)隊(duì)指出,如果不改變現(xiàn)有的評估體系,AI幻覺問題將持續(xù)存在,甚至可能隨著模型變得更加"聰明"而變得更加難以察覺。未來的AI可能會編造出更加精致、更難識破的虛假信息,這將對社會造成更大的風(fēng)險(xiǎn)。
改革的關(guān)鍵在于行業(yè)共識。由于少數(shù)幾個有影響力的基準(zhǔn)測試主導(dǎo)了整個行業(yè)的發(fā)展方向,只要這些基準(zhǔn)開始重視不確定性的表達(dá),整個行業(yè)就會跟進(jìn)。這需要學(xué)術(shù)界、工業(yè)界和政策制定者的共同努力。
研究者還強(qiáng)調(diào)了"務(wù)實(shí)主義"的重要性。完美的AI系統(tǒng)在技術(shù)上可能無法實(shí)現(xiàn),但我們可以創(chuàng)造出在特定場景下足夠可靠的系統(tǒng)。關(guān)鍵是要根據(jù)應(yīng)用場景的風(fēng)險(xiǎn)等級來調(diào)整AI的行為模式。
從長遠(yuǎn)來看,這項(xiàng)研究可能推動AI向更加透明、可解釋的方向發(fā)展。當(dāng)AI開始承認(rèn)自己的不確定性時(shí),用戶就能更好地理解AI的局限性,做出更明智的決策。這種"誠實(shí)的AI"可能比"無所不知的AI"更有價(jià)值。
研究團(tuán)隊(duì)的工作還為AI安全研究提供了新的理論基礎(chǔ)。通過數(shù)學(xué)方法量化AI的可靠性邊界,可以為高風(fēng)險(xiǎn)應(yīng)用的AI部署提供更科學(xué)的指導(dǎo)。
說到底,AI幻覺問題反映的是我們對AI系統(tǒng)期望與現(xiàn)實(shí)能力之間的錯配。這項(xiàng)研究幫助我們更清楚地認(rèn)識了這個問題的本質(zhì),并提供了切實(shí)可行的改進(jìn)路徑。雖然我們可能永遠(yuǎn)無法讓AI變得完美無缺,但我們可以讓它變得更誠實(shí)、更值得信賴。歸根結(jié)底,一個會說"不知道"的AI,可能比一個總是給出看似正確答案的AI更有價(jià)值。這項(xiàng)研究為我們指明了構(gòu)建下一代可信AI系統(tǒng)的方向,其影響將在未來很多年里持續(xù)顯現(xiàn)。
Q&A
Q1:大語言模型的幻覺是什么意思?為什么會出現(xiàn)這種現(xiàn)象?
A: 大語言模型的幻覺是指AI生成看似合理但實(shí)際錯誤的信息,就像做白日夢一樣編造內(nèi)容。這種現(xiàn)象的根本原因是AI在面對不確定問題時(shí)會選擇猜測而不是承認(rèn)無知,類似學(xué)生在考試中遇到不會的題目選擇猜答案而不是留空白。數(shù)學(xué)分析表明,即使訓(xùn)練數(shù)據(jù)完全正確,AI仍會因統(tǒng)計(jì)學(xué)原理產(chǎn)生幻覺。
Q2:為什么AI不愿意說"不知道",總是要給出答案?
A: 這主要是因?yàn)楝F(xiàn)有的AI評估體系問題。研究發(fā)現(xiàn),主流的9個評估基準(zhǔn)中,幾乎所有都采用"對錯二分法"評分,不給"不知道"類型回答任何分?jǐn)?shù)。這種評估方式天然鼓勵A(yù)I進(jìn)行猜測,因?yàn)椴聦α四艿梅?,猜錯了也不比說"不知道"更糟。這創(chuàng)造了一個惡性循環(huán),讓AI開發(fā)者優(yōu)化模型去最大化評估分?jǐn)?shù)而不是提高誠實(shí)度。
Q3:有什么方法可以減少AI的幻覺現(xiàn)象嗎?
A: 研究團(tuán)隊(duì)提出了"顯式置信度目標(biāo)"解決方案,即在問題中明確告知AI只有在達(dá)到特定確信度時(shí)才回答。比如設(shè)置"只有75%確信時(shí)才回答,錯誤答案扣3分,正確答案得1分,不知道得0分"。通過調(diào)整置信度閾值,可以在準(zhǔn)確性和完整性間找到平衡。關(guān)鍵是要改革現(xiàn)有評估基準(zhǔn),讓它們開始重視不確定性表達(dá),而不是懲罰誠實(shí)的"不知道"。
好文章,需要你的鼓勵
浙江大學(xué)團(tuán)隊(duì)提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價(jià)值。