大型語言模型(LLM)的飛速發(fā)展帶來了前所未有的應(yīng)用可能,但同時也伴隨著一個關(guān)鍵問題:幻覺。所謂"幻覺",簡單來說就是模型生成的看似可信但實際上不準(zhǔn)確或完全虛構(gòu)的內(nèi)容。這就像一個口若懸河的朋友,他的故事聽起來很精彩,但事后你發(fā)現(xiàn)其中有不少情節(jié)是他憑空編造的。這個問題對于需要高度準(zhǔn)確性的場景(如信息檢索、問答系統(tǒng))尤為嚴(yán)重。
近日,來自丹麥奧爾堡大學(xué)和奧地利維也納工業(yè)大學(xué)的研究團(tuán)隊聯(lián)合發(fā)布了一項重要研究成果。由Ernests Lavrinovics、Russa Biswas、Katja Hose和Johannes Bjerva組成的團(tuán)隊在2025年5月20日發(fā)表了一篇題為《MultiHal: Multilingual Dataset for Knowledge-Graph Grounded Evaluation of LLM Hallucinations》的論文,提出了一個創(chuàng)新的多語言、多跳基準(zhǔn)數(shù)據(jù)集,專門用于評估大型語言模型的幻覺問題。這項研究已發(fā)布在arXiv預(yù)印本平臺(arXiv:2505.14101v1)。
為什么我們需要MultiHal?
想象一下,你在城市中導(dǎo)航時依賴的地圖時不時會在不存在的地方標(biāo)出虛構(gòu)的道路或建筑。這顯然會讓你的旅程變得困難重重。同樣地,大型語言模型中的幻覺問題也會嚴(yán)重影響它們在實際應(yīng)用中的可靠性和有用性。雖然目前已有一些評估LLM幻覺的基準(zhǔn)數(shù)據(jù)集,但它們大多集中在英語內(nèi)容上,并且缺乏結(jié)構(gòu)化的事實性支持。
研究團(tuán)隊指出,現(xiàn)有的評估方法往往依賴網(wǎng)頁鏈接或文本段落作為補充信息,而忽略了已有的結(jié)構(gòu)化事實資源。就像在搜索信息時,你可能會迷失在大量文本中,無法迅速找到關(guān)鍵點。而知識圖譜(Knowledge Graph,簡稱KG)恰好提供了一種結(jié)構(gòu)清晰、信息精確的方式來表示實體及其關(guān)系,這種表示方式幾乎沒有語言冗余。
MultiHal正是為解決這些問題而誕生的。它利用Wikidata知識圖譜中的結(jié)構(gòu)化信息,為評估LLM的事實準(zhǔn)確性提供了一個多語言的評估框架。這就像為檢查員提供了一套精確的度量工具,可以從多個角度和多種語言環(huán)境下評估模型輸出的準(zhǔn)確性。
MultiHal數(shù)據(jù)集的構(gòu)建過程
構(gòu)建MultiHal數(shù)據(jù)集的過程就像是一位珠寶匠精心挑選和加工寶石的過程。研究團(tuán)隊首先從7個現(xiàn)有的幻覺評估基準(zhǔn)數(shù)據(jù)集中收集了共計31K個獨特問題,包括Felm、TruthfulQA、HaluEval、HaluBench、SimpleQA、DefAn和Shroom2024。這些數(shù)據(jù)集雖然有價值,但都缺乏知識圖譜支持和多語言能力。
接下來,研究團(tuán)隊設(shè)計了一個完整的數(shù)據(jù)收集框架,該框架主要包括四個步驟:
首先,研究團(tuán)隊使用Falcon 2.0工具從問題和答案中提取核心語義實體,并將它們映射到Wikidata實體。這就像是一個翻譯過程,將自然語言文本中的關(guān)鍵概念轉(zhuǎn)換為知識圖譜中的明確實體。
其次,團(tuán)隊查詢Wikidata知識圖譜,尋找這些實體之間存在的路徑,最多允許兩跳。想象一下在一張巨大的關(guān)系網(wǎng)絡(luò)中,尋找從A點到B點的最短路徑,而且每條路徑都代表著可驗證的事實關(guān)系。通過這一步,團(tuán)隊共挖掘了約140K條知識圖譜路徑。
第三步是評估和篩選這些路徑的質(zhì)量。團(tuán)隊采用了"LLM作為評判者"的方法,使用GPT-4o Mini模型對每條路徑進(jìn)行1-5分的評分,評估它與問題-答案對的相關(guān)性。這就像請一位專家來判斷每條信息的價值和相關(guān)性。最終,團(tuán)隊篩選出了25.9K條高質(zhì)量路徑(評分為4-5分)。
最后,為了支持多語言評估,團(tuán)隊使用NLLB-200 3.3bn模型將數(shù)據(jù)集翻譯成了五種歐洲語言:西班牙語、法語、意大利語、葡萄牙語和德語。這就像是為同一套工具制作了多種語言版本的說明書,使得它們在不同語言環(huán)境下都能派上用場。
MultiHal的核心特點與價值
MultiHal數(shù)據(jù)集的獨特之處在于它將知識圖譜路徑與多語言支持相結(jié)合,為評估LLM的幻覺問題提供了一個更全面的框架。
首先,知識圖譜路徑提供了明確的事實依據(jù)。與傳統(tǒng)的文本段落相比,知識圖譜路徑更加精確和結(jié)構(gòu)化,使得事實驗證更加直接。就像在查驗信息時,相比于閱讀一整篇長文章,直接看到"A與B的關(guān)系是C"這樣清晰的陳述會更加高效。
其次,多語言支持使得模型的評估不再局限于英語。研究表明,大型語言模型在不同語言中表現(xiàn)出的事實一致性存在差異,通常英語輸出最穩(wěn)定,而在低資源語言中事實質(zhì)量會下降。MultiHal通過提供多語言數(shù)據(jù),使得研究人員可以評估模型在不同語言環(huán)境下的表現(xiàn),這對于構(gòu)建真正的多語言AI系統(tǒng)至關(guān)重要。
第三,知識圖譜路徑的使用使得模型輸出的可解釋性和可追溯性大大提高。當(dāng)模型生成的內(nèi)容可以直接追溯到明確的事實來源時,用戶對系統(tǒng)的信任度也會相應(yīng)提高。這就像在學(xué)術(shù)寫作中,有明確的引用來源會增加論文的可信度。
基線實驗設(shè)計與結(jié)果
為了驗證MultiHal數(shù)據(jù)集的有效性,研究團(tuán)隊設(shè)計了一系列基線實驗,主要比較了普通問答(QA)和基于知識圖譜的檢索增強生成(KG-RAG)兩種情況下模型的表現(xiàn)。
在實驗設(shè)置上,團(tuán)隊采用了一種簡單的提示式知識注入方法。在QA設(shè)置中,只向模型提供問題;而在KG-RAG設(shè)置中,則同時提供知識圖譜路徑和問題。這就像是在考試中,一種情況下只給出題目,另一種情況下還提供了相關(guān)的參考資料。
實驗使用了三種不同的模型:Gemini 2.0 Flash、GPT-4o Mini和Llama 3.3 70b instruct。評估指標(biāo)采用了多語言MiniLM-L12-v2模型計算的語義相似度,即比較模型生成的答案與標(biāo)準(zhǔn)答案之間的語義接近程度。
實驗結(jié)果令人鼓舞。在所有測試語言和模型中,KG-RAG設(shè)置相比普通QA設(shè)置都顯示出明顯的性能提升,語義相似度分?jǐn)?shù)絕對增長約0.12到0.36分。這表明,知識圖譜路徑確實為模型提供了有價值的事實信息,使其能夠生成更加準(zhǔn)確的答案。
具體來看,在英語測試中,Gemini 2.0 Flash模型在KG-RAG設(shè)置下的語義相似度分?jǐn)?shù)達(dá)到0.83,比普通QA設(shè)置的0.51高出0.32分。這種提升在其他語言中也同樣明顯,證明了知識圖譜集成的潛力。
更細(xì)粒度的分析顯示,在不同領(lǐng)域的表現(xiàn)有所差異。例如,在SimpleQA、HaluEval、Defan和Shroom2024等基準(zhǔn)數(shù)據(jù)集上(占據(jù)了約95%的數(shù)據(jù)點),模型表現(xiàn)出一致的改進(jìn)。這些數(shù)據(jù)集的共同特點是問題定義明確,通常需要單個實體作為答案,這與知識圖譜的結(jié)構(gòu)特性非常匹配。
然而,在某些特定領(lǐng)域,如TruthfulQA中的暗示性問題或HaluBench中的時間相關(guān)問題,模型表現(xiàn)則不那么理想。這些問題通常需要邏輯推理或考慮時間變化因素,這超出了簡單知識圖譜路徑的表達(dá)能力。
MultiHal的應(yīng)用前景與局限性
MultiHal數(shù)據(jù)集為研究人員提供了一個強大的工具,可用于多種與事實性相關(guān)的任務(wù),如幻覺檢測、事實核查和基于知識圖譜的語言建模。它的多語言性質(zhì)使得這些研究可以擴展到更廣泛的語言環(huán)境,而不僅限于英語世界。
不過,研究團(tuán)隊也坦率地指出了數(shù)據(jù)集的一些局限性。首先,MultiHal主要基于多輪問答任務(wù),沒有涵蓋多輪對話或文本摘要等使用場景。其次,其多語言支持雖然覆蓋了五種歐洲語言,但在類型學(xué)多樣性方面仍然有限,偏向于歐洲中心的語言。再者,評估方法沒有采用多提示評估,而這已被證明是LLM評估中的重要組成部分。
未來的工作方向包括擴展MultiHal的下游任務(wù)、添加多提示評估和增加更多樣化的語言覆蓋。研究團(tuán)隊還建議通過將語義相似度評估框架為分類問題,使用自然語言推理或LLM作為評判者,來改進(jìn)評估方法。
總結(jié)與展望
歸根結(jié)底,MultiHal數(shù)據(jù)集的創(chuàng)建填補了現(xiàn)有幻覺評估基準(zhǔn)在知識圖譜路徑和多語言支持方面的空白。它為研究人員提供了一個強大的工具,可以更全面地評估大型語言模型的事實準(zhǔn)確性,并探索知識圖譜集成如何幫助減輕幻覺問題。
這項研究的意義不僅限于學(xué)術(shù)界。在實際應(yīng)用中,提高AI系統(tǒng)的事實準(zhǔn)確性是構(gòu)建可信賴系統(tǒng)的關(guān)鍵步驟。隨著大型語言模型在各行各業(yè)的應(yīng)用越來越廣泛,確保它們能夠提供準(zhǔn)確、可靠的信息變得愈發(fā)重要。
MultiHal數(shù)據(jù)集的開源性質(zhì)(代碼和數(shù)據(jù)已在GitHub和Huggingface上公開)使得更多研究人員可以基于此進(jìn)行進(jìn)一步的研究和創(chuàng)新。這種開放的研究氛圍對于推動AI領(lǐng)域的進(jìn)步至關(guān)重要。
想象一下,未來的AI助手不僅能夠流暢地與我們交流,還能夠準(zhǔn)確地回答我們的問題,無論我們使用哪種語言。MultiHal數(shù)據(jù)集的出現(xiàn),讓這一愿景更近了一步。
如果你對這項研究感興趣,可以通過GitHub(https://github.com/ernlavr/multihal)和Huggingface(https://huggingface.co/datasets/ernlavr/multihal)獲取完整的代碼和數(shù)據(jù)集。
好文章,需要你的鼓勵
這項研究提出了"高效探測"方法,解決了掩碼圖像建模AI難以有效評估的問題。通過創(chuàng)新的多查詢交叉注意力機制,該方法在減少90%參數(shù)的同時實現(xiàn)10倍速度提升,在七個基準(zhǔn)測試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊承諾開源全部代碼,推動技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊開發(fā)了CLAIMSPECT系統(tǒng),通過層次化分解復(fù)雜爭議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動構(gòu)建爭議話題的分析框架,識別不同觀點及其支撐證據(jù),為科學(xué)和政治爭議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國際關(guān)系領(lǐng)域驗證有效性。
清華大學(xué)研究團(tuán)隊首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類一樣理解和表達(dá)情感。該系統(tǒng)通過多層次情感處理架構(gòu),在情感識別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實現(xiàn)了跨模態(tài)情感融合、動態(tài)情感追蹤和個性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊通過創(chuàng)新的多智能體強化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會復(fù)雜推理。研究發(fā)現(xiàn)AI通過游戲競爭能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項突破性成果為未來AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過模擬人類學(xué)習(xí)過程培養(yǎng)真正智能AI的新路徑。