大型語言模型(LLM)的飛速發(fā)展帶來了前所未有的應用可能,但同時也伴隨著一個關鍵問題:幻覺。所謂"幻覺",簡單來說就是模型生成的看似可信但實際上不準確或完全虛構的內(nèi)容。這就像一個口若懸河的朋友,他的故事聽起來很精彩,但事后你發(fā)現(xiàn)其中有不少情節(jié)是他憑空編造的。這個問題對于需要高度準確性的場景(如信息檢索、問答系統(tǒng))尤為嚴重。
近日,來自丹麥奧爾堡大學和奧地利維也納工業(yè)大學的研究團隊聯(lián)合發(fā)布了一項重要研究成果。由Ernests Lavrinovics、Russa Biswas、Katja Hose和Johannes Bjerva組成的團隊在2025年5月20日發(fā)表了一篇題為《MultiHal: Multilingual Dataset for Knowledge-Graph Grounded Evaluation of LLM Hallucinations》的論文,提出了一個創(chuàng)新的多語言、多跳基準數(shù)據(jù)集,專門用于評估大型語言模型的幻覺問題。這項研究已發(fā)布在arXiv預印本平臺(arXiv:2505.14101v1)。
為什么我們需要MultiHal?
想象一下,你在城市中導航時依賴的地圖時不時會在不存在的地方標出虛構的道路或建筑。這顯然會讓你的旅程變得困難重重。同樣地,大型語言模型中的幻覺問題也會嚴重影響它們在實際應用中的可靠性和有用性。雖然目前已有一些評估LLM幻覺的基準數(shù)據(jù)集,但它們大多集中在英語內(nèi)容上,并且缺乏結構化的事實性支持。
研究團隊指出,現(xiàn)有的評估方法往往依賴網(wǎng)頁鏈接或文本段落作為補充信息,而忽略了已有的結構化事實資源。就像在搜索信息時,你可能會迷失在大量文本中,無法迅速找到關鍵點。而知識圖譜(Knowledge Graph,簡稱KG)恰好提供了一種結構清晰、信息精確的方式來表示實體及其關系,這種表示方式幾乎沒有語言冗余。
MultiHal正是為解決這些問題而誕生的。它利用Wikidata知識圖譜中的結構化信息,為評估LLM的事實準確性提供了一個多語言的評估框架。這就像為檢查員提供了一套精確的度量工具,可以從多個角度和多種語言環(huán)境下評估模型輸出的準確性。
MultiHal數(shù)據(jù)集的構建過程
構建MultiHal數(shù)據(jù)集的過程就像是一位珠寶匠精心挑選和加工寶石的過程。研究團隊首先從7個現(xiàn)有的幻覺評估基準數(shù)據(jù)集中收集了共計31K個獨特問題,包括Felm、TruthfulQA、HaluEval、HaluBench、SimpleQA、DefAn和Shroom2024。這些數(shù)據(jù)集雖然有價值,但都缺乏知識圖譜支持和多語言能力。
接下來,研究團隊設計了一個完整的數(shù)據(jù)收集框架,該框架主要包括四個步驟:
首先,研究團隊使用Falcon 2.0工具從問題和答案中提取核心語義實體,并將它們映射到Wikidata實體。這就像是一個翻譯過程,將自然語言文本中的關鍵概念轉(zhuǎn)換為知識圖譜中的明確實體。
其次,團隊查詢Wikidata知識圖譜,尋找這些實體之間存在的路徑,最多允許兩跳。想象一下在一張巨大的關系網(wǎng)絡中,尋找從A點到B點的最短路徑,而且每條路徑都代表著可驗證的事實關系。通過這一步,團隊共挖掘了約140K條知識圖譜路徑。
第三步是評估和篩選這些路徑的質(zhì)量。團隊采用了"LLM作為評判者"的方法,使用GPT-4o Mini模型對每條路徑進行1-5分的評分,評估它與問題-答案對的相關性。這就像請一位專家來判斷每條信息的價值和相關性。最終,團隊篩選出了25.9K條高質(zhì)量路徑(評分為4-5分)。
最后,為了支持多語言評估,團隊使用NLLB-200 3.3bn模型將數(shù)據(jù)集翻譯成了五種歐洲語言:西班牙語、法語、意大利語、葡萄牙語和德語。這就像是為同一套工具制作了多種語言版本的說明書,使得它們在不同語言環(huán)境下都能派上用場。
MultiHal的核心特點與價值
MultiHal數(shù)據(jù)集的獨特之處在于它將知識圖譜路徑與多語言支持相結合,為評估LLM的幻覺問題提供了一個更全面的框架。
首先,知識圖譜路徑提供了明確的事實依據(jù)。與傳統(tǒng)的文本段落相比,知識圖譜路徑更加精確和結構化,使得事實驗證更加直接。就像在查驗信息時,相比于閱讀一整篇長文章,直接看到"A與B的關系是C"這樣清晰的陳述會更加高效。
其次,多語言支持使得模型的評估不再局限于英語。研究表明,大型語言模型在不同語言中表現(xiàn)出的事實一致性存在差異,通常英語輸出最穩(wěn)定,而在低資源語言中事實質(zhì)量會下降。MultiHal通過提供多語言數(shù)據(jù),使得研究人員可以評估模型在不同語言環(huán)境下的表現(xiàn),這對于構建真正的多語言AI系統(tǒng)至關重要。
第三,知識圖譜路徑的使用使得模型輸出的可解釋性和可追溯性大大提高。當模型生成的內(nèi)容可以直接追溯到明確的事實來源時,用戶對系統(tǒng)的信任度也會相應提高。這就像在學術寫作中,有明確的引用來源會增加論文的可信度。
基線實驗設計與結果
為了驗證MultiHal數(shù)據(jù)集的有效性,研究團隊設計了一系列基線實驗,主要比較了普通問答(QA)和基于知識圖譜的檢索增強生成(KG-RAG)兩種情況下模型的表現(xiàn)。
在實驗設置上,團隊采用了一種簡單的提示式知識注入方法。在QA設置中,只向模型提供問題;而在KG-RAG設置中,則同時提供知識圖譜路徑和問題。這就像是在考試中,一種情況下只給出題目,另一種情況下還提供了相關的參考資料。
實驗使用了三種不同的模型:Gemini 2.0 Flash、GPT-4o Mini和Llama 3.3 70b instruct。評估指標采用了多語言MiniLM-L12-v2模型計算的語義相似度,即比較模型生成的答案與標準答案之間的語義接近程度。
實驗結果令人鼓舞。在所有測試語言和模型中,KG-RAG設置相比普通QA設置都顯示出明顯的性能提升,語義相似度分數(shù)絕對增長約0.12到0.36分。這表明,知識圖譜路徑確實為模型提供了有價值的事實信息,使其能夠生成更加準確的答案。
具體來看,在英語測試中,Gemini 2.0 Flash模型在KG-RAG設置下的語義相似度分數(shù)達到0.83,比普通QA設置的0.51高出0.32分。這種提升在其他語言中也同樣明顯,證明了知識圖譜集成的潛力。
更細粒度的分析顯示,在不同領域的表現(xiàn)有所差異。例如,在SimpleQA、HaluEval、Defan和Shroom2024等基準數(shù)據(jù)集上(占據(jù)了約95%的數(shù)據(jù)點),模型表現(xiàn)出一致的改進。這些數(shù)據(jù)集的共同特點是問題定義明確,通常需要單個實體作為答案,這與知識圖譜的結構特性非常匹配。
然而,在某些特定領域,如TruthfulQA中的暗示性問題或HaluBench中的時間相關問題,模型表現(xiàn)則不那么理想。這些問題通常需要邏輯推理或考慮時間變化因素,這超出了簡單知識圖譜路徑的表達能力。
MultiHal的應用前景與局限性
MultiHal數(shù)據(jù)集為研究人員提供了一個強大的工具,可用于多種與事實性相關的任務,如幻覺檢測、事實核查和基于知識圖譜的語言建模。它的多語言性質(zhì)使得這些研究可以擴展到更廣泛的語言環(huán)境,而不僅限于英語世界。
不過,研究團隊也坦率地指出了數(shù)據(jù)集的一些局限性。首先,MultiHal主要基于多輪問答任務,沒有涵蓋多輪對話或文本摘要等使用場景。其次,其多語言支持雖然覆蓋了五種歐洲語言,但在類型學多樣性方面仍然有限,偏向于歐洲中心的語言。再者,評估方法沒有采用多提示評估,而這已被證明是LLM評估中的重要組成部分。
未來的工作方向包括擴展MultiHal的下游任務、添加多提示評估和增加更多樣化的語言覆蓋。研究團隊還建議通過將語義相似度評估框架為分類問題,使用自然語言推理或LLM作為評判者,來改進評估方法。
總結與展望
歸根結底,MultiHal數(shù)據(jù)集的創(chuàng)建填補了現(xiàn)有幻覺評估基準在知識圖譜路徑和多語言支持方面的空白。它為研究人員提供了一個強大的工具,可以更全面地評估大型語言模型的事實準確性,并探索知識圖譜集成如何幫助減輕幻覺問題。
這項研究的意義不僅限于學術界。在實際應用中,提高AI系統(tǒng)的事實準確性是構建可信賴系統(tǒng)的關鍵步驟。隨著大型語言模型在各行各業(yè)的應用越來越廣泛,確保它們能夠提供準確、可靠的信息變得愈發(fā)重要。
MultiHal數(shù)據(jù)集的開源性質(zhì)(代碼和數(shù)據(jù)已在GitHub和Huggingface上公開)使得更多研究人員可以基于此進行進一步的研究和創(chuàng)新。這種開放的研究氛圍對于推動AI領域的進步至關重要。
想象一下,未來的AI助手不僅能夠流暢地與我們交流,還能夠準確地回答我們的問題,無論我們使用哪種語言。MultiHal數(shù)據(jù)集的出現(xiàn),讓這一愿景更近了一步。
如果你對這項研究感興趣,可以通過GitHub(https://github.com/ernlavr/multihal)和Huggingface(https://huggingface.co/datasets/ernlavr/multihal)獲取完整的代碼和數(shù)據(jù)集。
好文章,需要你的鼓勵
浙江大學團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學、編程等任務上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓練提供了新思路。
南洋理工大學與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術,實現(xiàn)AI視頻實時流式生成的重大突破。該技術通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學研究團隊發(fā)現(xiàn),通過讓AI模型學習解決幾何問題,能夠顯著提升其空間理解能力。他們構建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學習方法訓練多個AI模型。實驗結果顯示,幾何訓練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎幾何知識對培養(yǎng)AI空間智能的重要價值。