你有沒有好奇過,當AI告訴你某條新聞是"假的"時,它到底有多確定?又是根據(jù)什么做出這個判斷的?當不同證據(jù)相互矛盾時,AI又是如何權衡的?哥本哈根大學的研究團隊最近在這個問題上取得了重要突破。
這項由哥本哈根大學的Jingyi Sun、Greta Warren(共同第一作者)、Irina Shklovski和Isabelle Augenstein教授共同完成的研究,發(fā)表于2025年5月的arXiv預印本平臺(arXiv:2505.17855v1),標題為《解釋自動化事實核查中的不確定性來源》(Explaining Sources of Uncertainty in Automated Fact-Checking)。
在我們?nèi)粘=佑|的信息海洋中,辨別真假變得越來越重要,也越來越困難。大型語言模型(LLMs)正在被越來越多地應用于事實核查等高風險任務。然而,現(xiàn)有的自動化事實核查系統(tǒng)通常只會告訴你一個結(jié)論("支持"、"反駁"或"中立"),以及一個數(shù)字化的置信度分數(shù)(比如"我73%確定")。這種表達方式對用戶來說往往難以理解和采取行動。更重要的是,這些系統(tǒng)缺乏對不確定性來源的解釋,特別是當面對矛盾證據(jù)時。
想象一下這個場景:你想核查"貓可以感染新冠病毒并將其傳播給其他貓"這一說法。AI告訴你這個說法是正確的,但它只有73%的把握。作為用戶,你不僅想知道AI為什么不是100%確定,更想了解是哪些證據(jù)讓它猶豫不決。是證據(jù)不足?還是證據(jù)之間存在沖突?
哥本哈根大學的研究團隊開發(fā)的CLUE(Conflict-&Agreement-aware Language-model Uncertainty Explanations)框架正是為解決這個問題而生。這個框架不僅能告訴你AI的判斷及其確定程度,還能明確指出導致AI不確定性的具體證據(jù)沖突或一致點。
CLUE框架的獨特之處在于它采用了兩步走的方法:首先,以無監(jiān)督的方式識別文本中表達聲明-證據(jù)或證據(jù)之間沖突/一致關系的關鍵片段;然后,通過提示和注意力引導,生成自然語言解釋,清晰表達這些關鍵交互如何影響模型的預測不確定性。
讓我們一起深入了解這項研究如何讓AI的事實核查變得更加透明和可理解。
一、為什么我們需要解釋AI的不確定性?
當我們使用AI進行事實核查時,僅僅知道AI的判斷結(jié)果是遠遠不夠的。想象一下,你是一名專業(yè)事實核查員,正在調(diào)查一條關于新冠病毒的信息。AI告訴你:"這條信息是正確的,我73%確定。"這樣的回答對你幫助有限。你需要知道AI是基于什么證據(jù)做出這個判斷的,更重要的是,你需要知道為什么AI不是100%確定——是哪些因素導致了剩余的27%不確定性。
現(xiàn)有的解釋方法主要集中在兩個方面:一是提供數(shù)字化的不確定性分數(shù)(如"我73%確定"),二是使用模糊表達(如"我不太確定,但...")。但研究表明,這兩種方式都存在問題。數(shù)字化分數(shù)難以被用戶理解和利用,而模糊表達則往往無法真實反映模型的不確定性,有時還會讓用戶高估模型的信心。
更重要的是,這些方法都沒有解釋不確定性的來源,特別是當面對相互矛盾的證據(jù)時。在事實核查的實際工作中,事實核查員需要明確識別不確定性的來源(例如來自矛盾證據(jù)),才能有針對性地進行驗證。
這就是CLUE框架的創(chuàng)新之處。它不僅告訴你AI的判斷和確定程度,還能明確指出導致AI不確定性的具體證據(jù)沖突或一致點。這種方法能夠幫助用戶理解AI的推理過程,為后續(xù)的驗證工作提供明確的方向。
舉個例子,在檢驗"貓可以感染新冠病毒并將其傳播給其他貓"這一說法時,CLUE可能會指出:"證據(jù)1中提到'有可能通過家養(yǎng)寵物傳播SARS-CoV-2',而證據(jù)2中提到'沒有進一步傳播給其他動物或人類的事件',這一矛盾是導致模型不確定性的主要原因。"這樣的解釋讓用戶清楚地知道,不確定性來源于兩個證據(jù)之間的矛盾,并可以據(jù)此決定是否需要查找更多證據(jù)來解決這個矛盾。
二、CLUE框架:如何揭示AI的不確定性來源
CLUE框架的核心思想是通過識別文本片段之間的交互關系,揭示模型不確定性的來源。它的工作流程可以分為三個主要步驟:不確定性評分、沖突/一致提取和解釋生成。
### 1. 不確定性評分
首先,CLUE需要量化模型對特定輸入的不確定性程度。每個輸入實例包含三部分:一個聲明C和兩個證據(jù)片段E1、E2。模型會基于這些輸入預測一個標簽(支持、反駁或中立)。
CLUE采用預測熵(predictive entropy)來量化模型的不確定性。預測熵基于模型輸出的概率分布計算:
對于每個候選標簽yi(支持、反駁或中立),模型會給出一個概率P(yi|X)。CLUE通過計算這個概率分布的熵來量化不確定性:值越高,表示模型越不確定;值越低,表示模型越確定。
這就好比你在猜一個人心里想的數(shù)字。如果你覺得各種可能性差不多(概率分布平均),你的不確定性就高;如果你很確定是某個特定數(shù)字(概率分布集中),你的不確定性就低。
### 2. 沖突和一致性片段提取
確定了不確定性分數(shù)后,CLUE的下一步是找出導致這種不確定性的文本片段交互。這一步是CLUE最創(chuàng)新的部分。
CLUE通過分析聲明和證據(jù)之間,以及不同證據(jù)之間的注意力模式來提取重要的片段交互。具體來說,它會:
首先,找出模型最后一層中對答案預測最重要的注意力頭,獲取其注意力矩陣。 然后,計算跨部分的對稱化注意力分數(shù),構(gòu)建一個基于注意力權重的二部分詞圖。 最后,使用Louvain算法將這個圖劃分為連續(xù)的文本片段,并計算每對片段之間的交互重要性。
這個過程有點像檢測一篇文章中哪些段落之間存在強烈的聯(lián)系。如果聲明中的"貓可以傳播新冠病毒"和證據(jù)中的"沒有進一步傳播的事件"之間有強烈的注意力連接,CLUE就會識別出這兩個片段之間存在重要的交互關系。
接下來,CLUE會使用GPT-4o為每對提取的片段標注關系類型:同意(agree)、不同意(disagree)或無關(unrelated)。這樣,CLUE就能夠識別出導致模型不確定性的具體文本片段及其關系類型。
### 3. 不確定性自然語言解釋生成
有了片段交互及其關系標簽,CLUE的最后一步是生成自然語言解釋,說明這些交互如何影響模型的不確定性。
CLUE提供了兩種方法來生成解釋:
第一種是基于指令的提示。CLUE會將提取的前K=3個最重要的片段交互填入一個三段式提示模板,指導模型解釋這些交互如何影響其確信度。
第二種是注意力引導。除了提示外,CLUE還可以在生成過程中動態(tài)修改模型的注意力,引導它關注提取的關鍵片段。具體來說,它會選擇與模型不確定性最相關的100個注意力頭進行引導,通過降低非目標詞元的權重(設為原來的1%),使模型更加關注關鍵片段。
這兩種方法就像是在給AI講故事時,一方面告訴它應該關注哪些重要內(nèi)容(指令提示),另一方面還在它表達過程中輕輕引導它的注意力(注意力引導)。
通過這三個步驟,CLUE能夠生成詳細解釋模型不確定性來源的自然語言解釋,幫助用戶理解模型的推理過程和不確定性來源。
三、CLUE如何在實際中工作?
為了測試CLUE的效果,研究團隊在兩個事實核查數(shù)據(jù)集上進行了實驗:HealthVer(健康領域特定的數(shù)據(jù)集)和DRUID(更接近真實世界事實核查場景的數(shù)據(jù)集)。他們選擇了這兩個數(shù)據(jù)集是因為它們每個聲明都提供了多個證據(jù)片段,非常適合研究證據(jù)沖突導致的不確定性。
研究團隊使用了三個開源的指令調(diào)優(yōu)語言模型進行測試:Qwen2.5-14B-Instruct、OLMo-2-1124-13B-Instruct和Gemma-2-9B-IT。他們比較了三種生成解釋的策略:
1. PromptBaseline:一個三段式提示基線,擴展了之前的少樣本自然語言解釋工作,明確要求模型突出影響其不確定性的沖突或支持性片段。
2. CLUE-Span:CLUE的指令型變體,其中提取的片段交互被填入三段式提示以指導解釋生成。
3. CLUE-Span+Steering:CLUE的注意力引導變體,在使用與CLUE-Span相同提示的基礎上,額外應用注意力引導,引導模型的解釋生成過程關注已識別的片段。
### 自動評估結(jié)果
研究團隊從多個維度評估了CLUE的效果:
1. 忠實度(Faithfulness):他們提出了一種新的評估指標——Entropy-CCT,用于測量生成的解釋對模型不確定性的忠實反映程度。結(jié)果顯示,PromptBaseline在所有六種設置中都表現(xiàn)出非忠實性,其解釋提到真正有影響的詞元的概率比無影響的詞元低3-13個百分點。相比之下,CLUE的兩個變體都扭轉(zhuǎn)了這一趨勢,特別是CLUE-Span+Steering在DRUID-Qwen設置中達到了0.102的相關性,比PromptBaseline提高了約18個百分點。
2. 片段覆蓋率(Span-Coverage):CLUE-Span+Steering的表現(xiàn)優(yōu)于CLUE-Span,表明注意力引導方法在引導模型關注提供的片段方面的有效性。在Qwen模型上,最高的片段覆蓋率達到了44%。
3. 片段外部內(nèi)容(Span-Extraneous):CLUE-Span+Steering也在這一指標上表現(xiàn)最好,在Qwen模型上的最低分數(shù)為20%,表明它能更好地避免引入非提取片段的內(nèi)容。
4. 標簽-解釋一致性(Label-Explanation Entailment):CLUE的兩個變體都比基線取得了更強的標簽-解釋一致性分數(shù),產(chǎn)生的解釋在邏輯上與預測標簽更加一致,同時仍然忠實于模型的不確定性模式。
### 人類評估結(jié)果
研究團隊還招募了12名參與者對40個實例(20個來自DRUID,20個來自HealthVer)的解釋進行排名。參與者根據(jù)五個標準對解釋進行評估:
1. 有用性(Helpfulness):解釋提供的信息是否有助于讀者判斷聲明和進行事實核查。 2. 覆蓋率(Coverage):解釋是否捕捉了輸入中所有與事實核查相關的重要信息。 3. 非冗余性(Non-redundancy):解釋是否不包含與聲明和事實核查無關的冗余或重復信息。 4. 一致性(Consistency):解釋是否不包含與輸入在邏輯上矛盾的信息。 5. 整體質(zhì)量(Overall Quality):綜合考慮所有標準的解釋整體質(zhì)量。
結(jié)果顯示,由CLUE生成的解釋比PromptBaseline生成的解釋更受參與者歡迎:CLUE-Span+Steering生成的解釋被評為最有用、覆蓋率最高、冗余信息最少,而CLUE-Span生成的解釋被評為一致性最高、整體質(zhì)量最佳。
研究人員注意到,雖然CLUE-Span+Steering在忠實度方面表現(xiàn)最好,但參與者對其整體質(zhì)量的評價略低于CLUE-Span。這可能是因為雖然CLUE-Span+Steering更忠實于提取的關鍵片段交互,但它可能產(chǎn)生的解釋在內(nèi)部一致性或流暢性方面略遜一籌。這突顯了忠實性和合理性之間的權衡,這是解釋AI系統(tǒng)中的一個普遍挑戰(zhàn)。
此外,研究人員還觀察到數(shù)據(jù)集之間的細微差異:對于DRUID數(shù)據(jù)集,CLUE-Span+Steering的評分往往高于CLUE-Span,而對于HealthVer則相反。這可能源于輸入的長度和復雜性差異:DRUID的證據(jù)文檔來自異構(gòu)的在線來源,通常由較長形式的新聞文章組成,可能比HealthVer的證據(jù)文檔(由科學摘要的簡短摘錄組成)更能從注意力引導中受益。
四、CLUE的創(chuàng)新與局限
CLUE框架的主要創(chuàng)新在于它能夠明確指出導致模型不確定性的具體證據(jù)沖突或一致點,這是之前的自動化事實核查系統(tǒng)所缺乏的。通過提取關鍵的片段交互并標注它們的關系類型,CLUE能夠生成更加忠實于模型不確定性的自然語言解釋,幫助用戶理解模型的推理過程和不確定性來源。
CLUE的另一個優(yōu)勢是它不需要微調(diào)或架構(gòu)更改,可以直接用于任何白盒語言模型。它也不需要金標簽解釋,避免了微調(diào),完全在推理時操作。這使得它更加靈活和易于使用。
然而,CLUE也存在一些局限性:
1. 實驗僅限于中等規(guī)模的模型(Qwen2.5-14B-Instruct、Gemma-2-9B-IT和OLMo2-13B-Instruct),未來可以探索更大規(guī)模模型的表現(xiàn)。
2. 研究僅關注了HealthVer和DRUID這兩個數(shù)據(jù)集,這些數(shù)據(jù)集的聲明與離散的證據(jù)片段配對,非常適合研究證據(jù)沖突場景。未來工作可以研究更復雜的證據(jù)結(jié)構(gòu)(如長篇文檔)、多樣化的事實核查來源,以及每個聲明超過兩個證據(jù)片段的場景,以更好地反映真實世界的事實核查挑戰(zhàn)。
3. 雖然研究通過普通人的評估證實了CLUE框架生成的解釋質(zhì)量高于提示基線,但還需要專家評估(如專業(yè)事實核查員)來評估其在高風險環(huán)境中的實際效用。
4. CLUE的研究范圍僅限于解釋源自證據(jù)沖突的模型不確定性?,F(xiàn)實世界的不確定性可能還來自其他來源,包括證據(jù)不足、模型的知識缺口以及上下文-記憶沖突等。
五、CLUE對事實核查和AI可解釋性的意義
CLUE框架的提出對事實核查和AI可解釋性領域具有重要意義。在信息泛濫的今天,自動化事實核查系統(tǒng)的透明性和可解釋性變得越來越重要。用戶不僅需要知道一條信息是真是假,還需要理解系統(tǒng)是如何得出這個結(jié)論的,特別是當系統(tǒng)不是100%確定時。
傳統(tǒng)的自動化事實核查系統(tǒng)往往只提供一個結(jié)論和一個置信度分數(shù),缺乏對推理過程的解釋,特別是當面對矛盾證據(jù)時。CLUE通過明確指出導致系統(tǒng)不確定性的具體證據(jù)沖突或一致點,提高了系統(tǒng)的透明性和可解釋性,使用戶能夠更好地理解系統(tǒng)的推理過程,并據(jù)此做出更明智的決策。
對于專業(yè)事實核查員來說,CLUE提供的詳細解釋可以幫助他們更有針對性地進行驗證工作,特別是當面對矛盾證據(jù)時。例如,當CLUE指出兩個證據(jù)之間存在矛盾,事實核查員可以據(jù)此決定是否需要查找更多證據(jù)來解決這個矛盾。
對于AI可解釋性研究領域來說,CLUE提供了一種新的思路:通過分析模型內(nèi)部的注意力模式,提取關鍵的文本片段交互,并生成詳細解釋這些交互如何影響模型決策的自然語言解釋。這種方法不僅適用于事實核查任務,還可以推廣到其他需要推理復雜信息的任務。
總的來說,CLUE框架通過提供詳細解釋模型不確定性來源的自然語言解釋,提高了自動化事實核查系統(tǒng)的透明性和可解釋性,為用戶提供了更有價值的信息,幫助他們做出更明智的決策。
結(jié)語
在這個信息爆炸的時代,辨別真假變得越來越重要,也越來越困難。大型語言模型在事實核查等任務中的應用為我們提供了新的可能性,但也帶來了新的挑戰(zhàn)。如何讓AI的事實核查結(jié)果更加透明、可解釋,特別是當面對矛盾證據(jù)時,成為了一個亟待解決的問題。
哥本哈根大學研究團隊開發(fā)的CLUE框架為這個問題提供了一個創(chuàng)新的解決方案。通過明確指出導致模型不確定性的具體證據(jù)沖突或一致點,CLUE讓AI的事實核查結(jié)果變得更加透明、可解釋,幫助用戶更好地理解AI的推理過程和不確定性來源。
實驗結(jié)果表明,CLUE生成的解釋在忠實反映模型不確定性和與事實核查決策保持一致方面表現(xiàn)優(yōu)于基線方法。人類評估也證實,CLUE生成的解釋更有用、信息量更大、冗余更少、在邏輯上與輸入更一致。
雖然CLUE仍存在一些局限性,但它為自動化事實核查系統(tǒng)的透明性和可解釋性提供了一個重要的突破,為未來的研究指明了方向。隨著技術的不斷發(fā)展,我們可以期待更加透明、可解釋的自動化事實核查系統(tǒng),幫助我們在信息海洋中更好地辨別真假。
如果你對這項研究感興趣,可以通過arXiv:2505.17855v1訪問完整論文,進一步了解CLUE框架的技術細節(jié)和實驗結(jié)果。
好文章,需要你的鼓勵
這項研究提出了"高效探測"方法,解決了掩碼圖像建模AI難以有效評估的問題。通過創(chuàng)新的多查詢交叉注意力機制,該方法在減少90%參數(shù)的同時實現(xiàn)10倍速度提升,在七個基準測試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強相關性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應性。團隊承諾開源全部代碼,推動技術普及應用。
伊利諾伊大學研究團隊開發(fā)了CLAIMSPECT系統(tǒng),通過層次化分解復雜爭議、智能檢索相關文獻、多角度收集觀點的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動構(gòu)建爭議話題的分析框架,識別不同觀點及其支撐證據(jù),為科學和政治爭議提供更全面客觀的分析,已在生物醫(yī)學和國際關系領域驗證有效性。
清華大學研究團隊首次提出情感認知融合網(wǎng)絡(ECFN),讓AI能像人類一樣理解和表達情感。該系統(tǒng)通過多層次情感處理架構(gòu),在情感識別準確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實現(xiàn)了跨模態(tài)情感融合、動態(tài)情感追蹤和個性化情感建模,為醫(yī)療、教育、客服等領域帶來革命性應用前景。
哈佛大學研究團隊通過創(chuàng)新的多智能體強化學習方法,讓AI在戰(zhàn)略游戲中學會復雜推理。研究發(fā)現(xiàn)AI通過游戲競爭能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項突破性成果為未來AI在醫(yī)療、教育、城市管理等領域的應用奠定基礎,展現(xiàn)了通過模擬人類學習過程培養(yǎng)真正智能AI的新路徑。