av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 MultiHal:基于知識圖譜的多語言LLM幻覺評估數(shù)據(jù)集——為大模型事實性保駕護(hù)航

MultiHal:基于知識圖譜的多語言LLM幻覺評估數(shù)據(jù)集——為大模型事實性保駕護(hù)航

2025-05-27 17:04
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-27 17:04 ? 科技行者

大型語言模型(LLM)的飛速發(fā)展帶來了前所未有的應(yīng)用可能,但同時也伴隨著一個關(guān)鍵問題:幻覺。所謂"幻覺",簡單來說就是模型生成的看似可信但實際上不準(zhǔn)確或完全虛構(gòu)的內(nèi)容。這就像一個口若懸河的朋友,他的故事聽起來很精彩,但事后你發(fā)現(xiàn)其中有不少情節(jié)是他憑空編造的。這個問題對于需要高度準(zhǔn)確性的場景(如信息檢索、問答系統(tǒng))尤為嚴(yán)重。

近日,來自丹麥奧爾堡大學(xué)和奧地利維也納工業(yè)大學(xué)的研究團(tuán)隊聯(lián)合發(fā)布了一項重要研究成果。由Ernests Lavrinovics、Russa Biswas、Katja Hose和Johannes Bjerva組成的團(tuán)隊在2025年5月20日發(fā)表了一篇題為《MultiHal: Multilingual Dataset for Knowledge-Graph Grounded Evaluation of LLM Hallucinations》的論文,提出了一個創(chuàng)新的多語言、多跳基準(zhǔn)數(shù)據(jù)集,專門用于評估大型語言模型的幻覺問題。這項研究已發(fā)布在arXiv預(yù)印本平臺(arXiv:2505.14101v1)。

為什么我們需要MultiHal?

想象一下,你在城市中導(dǎo)航時依賴的地圖時不時會在不存在的地方標(biāo)出虛構(gòu)的道路或建筑。這顯然會讓你的旅程變得困難重重。同樣地,大型語言模型中的幻覺問題也會嚴(yán)重影響它們在實際應(yīng)用中的可靠性和有用性。雖然目前已有一些評估LLM幻覺的基準(zhǔn)數(shù)據(jù)集,但它們大多集中在英語內(nèi)容上,并且缺乏結(jié)構(gòu)化的事實性支持。

研究團(tuán)隊指出,現(xiàn)有的評估方法往往依賴網(wǎng)頁鏈接或文本段落作為補充信息,而忽略了已有的結(jié)構(gòu)化事實資源。就像在搜索信息時,你可能會迷失在大量文本中,無法迅速找到關(guān)鍵點。而知識圖譜(Knowledge Graph,簡稱KG)恰好提供了一種結(jié)構(gòu)清晰、信息精確的方式來表示實體及其關(guān)系,這種表示方式幾乎沒有語言冗余。

MultiHal正是為解決這些問題而誕生的。它利用Wikidata知識圖譜中的結(jié)構(gòu)化信息,為評估LLM的事實準(zhǔn)確性提供了一個多語言的評估框架。這就像為檢查員提供了一套精確的度量工具,可以從多個角度和多種語言環(huán)境下評估模型輸出的準(zhǔn)確性。

MultiHal數(shù)據(jù)集的構(gòu)建過程

構(gòu)建MultiHal數(shù)據(jù)集的過程就像是一位珠寶匠精心挑選和加工寶石的過程。研究團(tuán)隊首先從7個現(xiàn)有的幻覺評估基準(zhǔn)數(shù)據(jù)集中收集了共計31K個獨特問題,包括Felm、TruthfulQA、HaluEval、HaluBench、SimpleQA、DefAn和Shroom2024。這些數(shù)據(jù)集雖然有價值,但都缺乏知識圖譜支持和多語言能力。

接下來,研究團(tuán)隊設(shè)計了一個完整的數(shù)據(jù)收集框架,該框架主要包括四個步驟:

首先,研究團(tuán)隊使用Falcon 2.0工具從問題和答案中提取核心語義實體,并將它們映射到Wikidata實體。這就像是一個翻譯過程,將自然語言文本中的關(guān)鍵概念轉(zhuǎn)換為知識圖譜中的明確實體。

其次,團(tuán)隊查詢Wikidata知識圖譜,尋找這些實體之間存在的路徑,最多允許兩跳。想象一下在一張巨大的關(guān)系網(wǎng)絡(luò)中,尋找從A點到B點的最短路徑,而且每條路徑都代表著可驗證的事實關(guān)系。通過這一步,團(tuán)隊共挖掘了約140K條知識圖譜路徑。

第三步是評估和篩選這些路徑的質(zhì)量。團(tuán)隊采用了"LLM作為評判者"的方法,使用GPT-4o Mini模型對每條路徑進(jìn)行1-5分的評分,評估它與問題-答案對的相關(guān)性。這就像請一位專家來判斷每條信息的價值和相關(guān)性。最終,團(tuán)隊篩選出了25.9K條高質(zhì)量路徑(評分為4-5分)。

最后,為了支持多語言評估,團(tuán)隊使用NLLB-200 3.3bn模型將數(shù)據(jù)集翻譯成了五種歐洲語言:西班牙語、法語、意大利語、葡萄牙語和德語。這就像是為同一套工具制作了多種語言版本的說明書,使得它們在不同語言環(huán)境下都能派上用場。

MultiHal的核心特點與價值

MultiHal數(shù)據(jù)集的獨特之處在于它將知識圖譜路徑與多語言支持相結(jié)合,為評估LLM的幻覺問題提供了一個更全面的框架。

首先,知識圖譜路徑提供了明確的事實依據(jù)。與傳統(tǒng)的文本段落相比,知識圖譜路徑更加精確和結(jié)構(gòu)化,使得事實驗證更加直接。就像在查驗信息時,相比于閱讀一整篇長文章,直接看到"A與B的關(guān)系是C"這樣清晰的陳述會更加高效。

其次,多語言支持使得模型的評估不再局限于英語。研究表明,大型語言模型在不同語言中表現(xiàn)出的事實一致性存在差異,通常英語輸出最穩(wěn)定,而在低資源語言中事實質(zhì)量會下降。MultiHal通過提供多語言數(shù)據(jù),使得研究人員可以評估模型在不同語言環(huán)境下的表現(xiàn),這對于構(gòu)建真正的多語言AI系統(tǒng)至關(guān)重要。

第三,知識圖譜路徑的使用使得模型輸出的可解釋性和可追溯性大大提高。當(dāng)模型生成的內(nèi)容可以直接追溯到明確的事實來源時,用戶對系統(tǒng)的信任度也會相應(yīng)提高。這就像在學(xué)術(shù)寫作中,有明確的引用來源會增加論文的可信度。

基線實驗設(shè)計與結(jié)果

為了驗證MultiHal數(shù)據(jù)集的有效性,研究團(tuán)隊設(shè)計了一系列基線實驗,主要比較了普通問答(QA)和基于知識圖譜的檢索增強生成(KG-RAG)兩種情況下模型的表現(xiàn)。

在實驗設(shè)置上,團(tuán)隊采用了一種簡單的提示式知識注入方法。在QA設(shè)置中,只向模型提供問題;而在KG-RAG設(shè)置中,則同時提供知識圖譜路徑和問題。這就像是在考試中,一種情況下只給出題目,另一種情況下還提供了相關(guān)的參考資料。

實驗使用了三種不同的模型:Gemini 2.0 Flash、GPT-4o Mini和Llama 3.3 70b instruct。評估指標(biāo)采用了多語言MiniLM-L12-v2模型計算的語義相似度,即比較模型生成的答案與標(biāo)準(zhǔn)答案之間的語義接近程度。

實驗結(jié)果令人鼓舞。在所有測試語言和模型中,KG-RAG設(shè)置相比普通QA設(shè)置都顯示出明顯的性能提升,語義相似度分?jǐn)?shù)絕對增長約0.12到0.36分。這表明,知識圖譜路徑確實為模型提供了有價值的事實信息,使其能夠生成更加準(zhǔn)確的答案。

具體來看,在英語測試中,Gemini 2.0 Flash模型在KG-RAG設(shè)置下的語義相似度分?jǐn)?shù)達(dá)到0.83,比普通QA設(shè)置的0.51高出0.32分。這種提升在其他語言中也同樣明顯,證明了知識圖譜集成的潛力。

更細(xì)粒度的分析顯示,在不同領(lǐng)域的表現(xiàn)有所差異。例如,在SimpleQA、HaluEval、Defan和Shroom2024等基準(zhǔn)數(shù)據(jù)集上(占據(jù)了約95%的數(shù)據(jù)點),模型表現(xiàn)出一致的改進(jìn)。這些數(shù)據(jù)集的共同特點是問題定義明確,通常需要單個實體作為答案,這與知識圖譜的結(jié)構(gòu)特性非常匹配。

然而,在某些特定領(lǐng)域,如TruthfulQA中的暗示性問題或HaluBench中的時間相關(guān)問題,模型表現(xiàn)則不那么理想。這些問題通常需要邏輯推理或考慮時間變化因素,這超出了簡單知識圖譜路徑的表達(dá)能力。

MultiHal的應(yīng)用前景與局限性

MultiHal數(shù)據(jù)集為研究人員提供了一個強大的工具,可用于多種與事實性相關(guān)的任務(wù),如幻覺檢測、事實核查和基于知識圖譜的語言建模。它的多語言性質(zhì)使得這些研究可以擴展到更廣泛的語言環(huán)境,而不僅限于英語世界。

不過,研究團(tuán)隊也坦率地指出了數(shù)據(jù)集的一些局限性。首先,MultiHal主要基于多輪問答任務(wù),沒有涵蓋多輪對話或文本摘要等使用場景。其次,其多語言支持雖然覆蓋了五種歐洲語言,但在類型學(xué)多樣性方面仍然有限,偏向于歐洲中心的語言。再者,評估方法沒有采用多提示評估,而這已被證明是LLM評估中的重要組成部分。

未來的工作方向包括擴展MultiHal的下游任務(wù)、添加多提示評估和增加更多樣化的語言覆蓋。研究團(tuán)隊還建議通過將語義相似度評估框架為分類問題,使用自然語言推理或LLM作為評判者,來改進(jìn)評估方法。

總結(jié)與展望

歸根結(jié)底,MultiHal數(shù)據(jù)集的創(chuàng)建填補了現(xiàn)有幻覺評估基準(zhǔn)在知識圖譜路徑和多語言支持方面的空白。它為研究人員提供了一個強大的工具,可以更全面地評估大型語言模型的事實準(zhǔn)確性,并探索知識圖譜集成如何幫助減輕幻覺問題。

這項研究的意義不僅限于學(xué)術(shù)界。在實際應(yīng)用中,提高AI系統(tǒng)的事實準(zhǔn)確性是構(gòu)建可信賴系統(tǒng)的關(guān)鍵步驟。隨著大型語言模型在各行各業(yè)的應(yīng)用越來越廣泛,確保它們能夠提供準(zhǔn)確、可靠的信息變得愈發(fā)重要。

MultiHal數(shù)據(jù)集的開源性質(zhì)(代碼和數(shù)據(jù)已在GitHub和Huggingface上公開)使得更多研究人員可以基于此進(jìn)行進(jìn)一步的研究和創(chuàng)新。這種開放的研究氛圍對于推動AI領(lǐng)域的進(jìn)步至關(guān)重要。

想象一下,未來的AI助手不僅能夠流暢地與我們交流,還能夠準(zhǔn)確地回答我們的問題,無論我們使用哪種語言。MultiHal數(shù)據(jù)集的出現(xiàn),讓這一愿景更近了一步。

如果你對這項研究感興趣,可以通過GitHub(https://github.com/ernlavr/multihal)和Huggingface(https://huggingface.co/datasets/ernlavr/multihal)獲取完整的代碼和數(shù)據(jù)集。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-