生物醫(yī)學(xué)研究中的一場(chǎng)悄然革命正在發(fā)生,而這場(chǎng)革命的核心角色,是我們已經(jīng)越來(lái)越熟悉的大語(yǔ)言模型(LLMs)。來(lái)自弗吉尼亞大學(xué)的Guangzhi Xiong、Eric Xie、Corey Williams等研究團(tuán)隊(duì)最近發(fā)表了一篇重要論文,聚焦于大語(yǔ)言模型在生物醫(yī)學(xué)假設(shè)生成中的真實(shí)性評(píng)估。這項(xiàng)研究發(fā)表于2025年5月20日的預(yù)印本平臺(tái)arXiv上,題為《邁向可靠的生物醫(yī)學(xué)假設(shè)生成:評(píng)估大型語(yǔ)言模型中的真實(shí)性和幻覺(jué)》。
想象一下,你是一位生物醫(yī)學(xué)研究人員,面對(duì)浩如煙海的科學(xué)文獻(xiàn),你需要找出其中的規(guī)律并提出新的研究方向。這項(xiàng)任務(wù)不僅耗時(shí),還需要極高的專(zhuān)業(yè)知識(shí)。大語(yǔ)言模型似乎為這一挑戰(zhàn)提供了完美解決方案:它們可以分析大量文獻(xiàn),識(shí)別模式,并建議研究方向。聽(tīng)起來(lái)完美,對(duì)嗎?
但這里有一個(gè)大問(wèn)題:我們?nèi)绾未_定這些模型生成的假設(shè)是真實(shí)可靠的,而不是"幻覺(jué)"出來(lái)的看似合理但實(shí)際上錯(cuò)誤的信息?這就像是讓一個(gè)從未接受過(guò)專(zhuān)業(yè)訓(xùn)練的人給你提供醫(yī)療建議——他可能聽(tīng)起來(lái)很有道理,但你真的敢把健康托付給他嗎?
弗吉尼亞大學(xué)的研究團(tuán)隊(duì)正是聚焦于解決這一關(guān)鍵挑戰(zhàn)。他們提出了兩個(gè)創(chuàng)新工具:TruthHypo(真實(shí)假設(shè))和KnowHD(知識(shí)幻覺(jué)檢測(cè)器)。這些工具就像是為科學(xué)家們提供的一個(gè)"真相檢測(cè)器",幫助評(píng)估大語(yǔ)言模型生成的生物醫(yī)學(xué)假設(shè)的真實(shí)性,并找出其中可能存在的"幻覺(jué)"成分。
一、研究背景:為何要解決大語(yǔ)言模型的"說(shuō)謊"問(wèn)題?
想象一下,如果你有一位才華橫溢但有時(shí)會(huì)不自覺(jué)"編故事"的朋友。他知識(shí)淵博,能流暢地討論各種話題,但偶爾會(huì)自信滿滿地分享一些并不準(zhǔn)確的"事實(shí)"。這就是大語(yǔ)言模型面臨的"幻覺(jué)"問(wèn)題——它們有時(shí)會(huì)生成看似合理但實(shí)際上并不準(zhǔn)確的內(nèi)容。
在日常閑聊中,這種小小的不準(zhǔn)確或許無(wú)傷大雅。但在生物醫(yī)學(xué)研究這樣的嚴(yán)肅領(lǐng)域,準(zhǔn)確性就成了生死攸關(guān)的問(wèn)題。想象一下,如果一個(gè)研究團(tuán)隊(duì)基于大語(yǔ)言模型提出的假設(shè)投入大量時(shí)間和資源進(jìn)行研究,最后卻發(fā)現(xiàn)這一假設(shè)完全沒(méi)有科學(xué)依據(jù),那將是多么巨大的浪費(fèi)!
弗吉尼亞大學(xué)的研究團(tuán)隊(duì)意識(shí)到,雖然大語(yǔ)言模型在生物醫(yī)學(xué)假設(shè)生成方面展現(xiàn)出巨大潛力,但其真實(shí)性評(píng)估卻面臨兩大挑戰(zhàn):
首先,驗(yàn)證生成假設(shè)的準(zhǔn)確性通常需要大量時(shí)間和資源。這就像要驗(yàn)證一個(gè)謠言是否屬實(shí),可能需要進(jìn)行耗時(shí)的事實(shí)核查。
其次,大語(yǔ)言模型的"幻覺(jué)"問(wèn)題可能導(dǎo)致生成看似合理但實(shí)際上錯(cuò)誤的假設(shè),這會(huì)嚴(yán)重影響其可靠性。這就像一個(gè)善于講故事的人,能讓虛構(gòu)的事件聽(tīng)起來(lái)栩栩如生,讓人難以分辨真假。
研究團(tuán)隊(duì)注意到,當(dāng)前研究主要關(guān)注提高大語(yǔ)言模型生成假設(shè)的新穎性和多樣性,而對(duì)真實(shí)性和基于已有知識(shí)的依據(jù)研究較少。這就像人們熱衷于評(píng)價(jià)故事的創(chuàng)意和多樣性,卻忽略了故事的真實(shí)性。
為了解決這些挑戰(zhàn),研究團(tuán)隊(duì)提出了兩個(gè)關(guān)鍵工具:TruthHypo和KnowHD。TruthHypo是一個(gè)綜合基準(zhǔn),用于評(píng)估大語(yǔ)言模型生成真實(shí)生物醫(yī)學(xué)假設(shè)的能力;而KnowHD則是一個(gè)基于知識(shí)的幻覺(jué)檢測(cè)框架,設(shè)計(jì)用于評(píng)估這些假設(shè)的基礎(chǔ)依據(jù)。
二、TruthHypo:如何打造一個(gè)可靠的生物醫(yī)學(xué)假設(shè)生成評(píng)估基準(zhǔn)?
想象你正在測(cè)試一系列天氣預(yù)報(bào)員的準(zhǔn)確性。你需要知道哪些預(yù)報(bào)員能夠根據(jù)現(xiàn)有氣象數(shù)據(jù)準(zhǔn)確預(yù)測(cè)未來(lái)天氣,而哪些只是在猜測(cè)。TruthHypo基準(zhǔn)就扮演著類(lèi)似角色,它幫助我們?cè)u(píng)估不同大語(yǔ)言模型在生物醫(yī)學(xué)假設(shè)生成方面的真實(shí)性和準(zhǔn)確性。
TruthHypo基準(zhǔn)的數(shù)據(jù)來(lái)源于PubTator 3.0,這是一個(gè)綜合性的生物醫(yī)學(xué)知識(shí)圖譜,包含從科學(xué)文章中提取的注釋關(guān)系(也稱(chēng)為邊)。為了模擬科學(xué)發(fā)現(xiàn)的時(shí)間進(jìn)程,研究團(tuán)隊(duì)將圖譜分為"已知"和"未知"兩個(gè)子集:
"已知"子集包含2023年之前發(fā)表的論文中提取的關(guān)系,通過(guò)PMID(PubMed ID)≤ 36600000來(lái)識(shí)別。這就像是截至2023年科學(xué)界已經(jīng)確認(rèn)的知識(shí)。
"未知"子集則包含2024年之后發(fā)表的論文中提取的關(guān)系,通過(guò)PMID ≥ 38200000來(lái)識(shí)別。這代表了2024年之后的新發(fā)現(xiàn),模擬未來(lái)科學(xué)研究的情況。
為確保兩個(gè)子集之間沒(méi)有重疊,研究團(tuán)隊(duì)移除了未知子集中與已知子集共享頭尾實(shí)體的邊。此外,為保證質(zhì)量和有效性,只保留了在測(cè)試數(shù)據(jù)中被多篇文章發(fā)現(xiàn)的關(guān)系。這種過(guò)濾過(guò)程確保未知子集僅包含2024年之前不可獲取的知識(shí),模擬未來(lái)科學(xué)研究的條件。
在構(gòu)建數(shù)據(jù)集時(shí),研究團(tuán)隊(duì)專(zhuān)注于三種關(guān)鍵關(guān)系類(lèi)型:
"化學(xué)物質(zhì)與基因":這涉及藥物與基因的互動(dòng),就像了解某種藥物如何影響特定基因的表達(dá)。 "疾病與基因":這探討疾病與基因之間的關(guān)聯(lián),例如某種基因突變?nèi)绾螌?dǎo)致特定疾病。 "基因與基因":這研究不同基因之間的相互作用,類(lèi)似于了解一個(gè)基因的活動(dòng)如何影響另一個(gè)基因。
這三種關(guān)系類(lèi)型之所以被選中,是因?yàn)樗鼈兓パa(bǔ)性強(qiáng)、注釋詳細(xì),并且適合客觀評(píng)估。為構(gòu)建全面的分類(lèi)任務(wù),研究團(tuán)隊(duì)還增加了負(fù)面測(cè)試樣例,評(píng)估大語(yǔ)言模型是否傾向于對(duì)現(xiàn)有知識(shí)庫(kù)中缺乏直接關(guān)系的實(shí)體對(duì)做出錯(cuò)誤的積極預(yù)測(cè)。最終數(shù)據(jù)集包含:
"化學(xué)物質(zhì)與基因"任務(wù):1209個(gè)實(shí)例 "疾病與基因"任務(wù):268個(gè)實(shí)例 "基因與基因"任務(wù):547個(gè)實(shí)例
在任務(wù)設(shè)計(jì)方面,TruthHypo基準(zhǔn)包括三個(gè)任務(wù),對(duì)應(yīng)所選的關(guān)系類(lèi)型。對(duì)于每個(gè)任務(wù),輸入是一個(gè)包含兩個(gè)實(shí)體的假設(shè)生成查詢,大語(yǔ)言模型需要基于可用知識(shí)和推理,假設(shè)它們之間的潛在關(guān)系。
為全面評(píng)估大語(yǔ)言模型性能,研究團(tuán)隊(duì)評(píng)估了它們?cè)诓煌R(shí)增強(qiáng)設(shè)置下生成假設(shè)的能力:
第一種設(shè)置依賴模型的參數(shù)知識(shí)——在預(yù)訓(xùn)練大型語(yǔ)料庫(kù)期間編碼在其參數(shù)中的信息。這評(píng)估模型的內(nèi)在理解和推理能力。
第二種設(shè)置通過(guò)"已知"知識(shí)圖譜中的結(jié)構(gòu)化知識(shí)增強(qiáng)大語(yǔ)言模型。在這種方法中,從輸入中映射關(guān)鍵實(shí)體到圖中的節(jié)點(diǎn),并探索連接這些節(jié)點(diǎn)的多跳鏈接鏈。這些鏈表示相關(guān)關(guān)系,被轉(zhuǎn)換為文本描述并作為上下文提供給模型在假設(shè)生成中使用。
第三種設(shè)置利用檢索增強(qiáng)生成(RAG)管道從生物醫(yī)學(xué)文獻(xiàn)中獲取信息。使用BM25從PubMed語(yǔ)料庫(kù)中檢索相關(guān)文檔。為保持與知識(shí)圖譜時(shí)間分割的一致性,檢索僅包括PMID ≤ 36600000的文章,模擬在特定時(shí)間點(diǎn)基于可用文獻(xiàn)生成假設(shè)的過(guò)程。
最后,研究團(tuán)隊(duì)考慮了結(jié)合設(shè)置,其中來(lái)自圖譜的結(jié)構(gòu)化知識(shí)和從檢索文獻(xiàn)中的非結(jié)構(gòu)化信息都用于支持假設(shè)生成。這種綜合方法提供了更全面的上下文,使模型能夠跨兩種來(lái)源進(jìn)行推理。
為評(píng)估生成的科學(xué)假設(shè)質(zhì)量,研究團(tuán)隊(duì)采用了一系列互補(bǔ)指標(biāo),針對(duì)假設(shè)生成的不同方面:
鏈接級(jí)評(píng)估:關(guān)注精確度、召回率和F1分?jǐn)?shù)。精確度衡量在所有假設(shè)連接中正確識(shí)別的連接比例,強(qiáng)調(diào)減少假陽(yáng)性。召回率評(píng)估模型全面識(shí)別所有有效連接的能力,捕捉其對(duì)真陽(yáng)性的敏感性。F1分?jǐn)?shù)作為精確度和召回率的調(diào)和平均值,提供性能的平衡度量,結(jié)合預(yù)測(cè)準(zhǔn)確性和有效連接覆蓋率。
關(guān)系級(jí)評(píng)估:采用準(zhǔn)確率來(lái)衡量生成的假設(shè)與地面真實(shí)關(guān)系標(biāo)簽匹配的頻率。準(zhǔn)確率通過(guò)考慮連接的存在和預(yù)測(cè)的關(guān)系類(lèi)型來(lái)捕捉假設(shè)的整體正確性。
通過(guò)結(jié)合鏈接級(jí)和關(guān)系級(jí)評(píng)估,TruthHypo基準(zhǔn)全面衡量了大語(yǔ)言模型生成的假設(shè)的真實(shí)性,評(píng)估大語(yǔ)言模型產(chǎn)生科學(xué)有效輸出的能力。
三、KnowHD:檢測(cè)大語(yǔ)言模型生成假設(shè)中的"幻覺(jué)"
我們都知道,謊言往往混雜著真相,這使得識(shí)別假信息變得困難。大語(yǔ)言模型生成的"幻覺(jué)"也是如此——它們往往將準(zhǔn)確信息與不支持的聲明混合在一起,使人難以分辨。這就是KnowHD(知識(shí)幻覺(jué)檢測(cè)器)登場(chǎng)的地方。
KnowHD就像是一位細(xì)心的事實(shí)核查員,它檢查大語(yǔ)言模型生成假設(shè)背后的推理過(guò)程,評(píng)估每個(gè)聲明是否有足夠的證據(jù)支持。它的工作方式是分析生成假設(shè)的基礎(chǔ)依據(jù),識(shí)別可能被"幻覺(jué)"出來(lái)的不可靠組件。
KnowHD的運(yùn)作基于科學(xué)文獻(xiàn)、知識(shí)圖譜或兩者的組合作為知識(shí)庫(kù)。讓我們來(lái)看看它的工作流程:
首先,每個(gè)假設(shè)及其推理鏈被分解為一組原子聲明。這一步至關(guān)重要,因?yàn)榧僭O(shè)通常由復(fù)合推理步驟組成,其中一些可能得到現(xiàn)有知識(shí)支持,而其他可能不然。將這些分解為原子聲明允許更精細(xì)的評(píng)估,并能隔離不受支持的組件。這一步通過(guò)向大語(yǔ)言模型提示實(shí)現(xiàn)。
當(dāng)使用科學(xué)文獻(xiàn)作為知識(shí)庫(kù)時(shí),系統(tǒng)從PubMed語(yǔ)料庫(kù)中檢索與每個(gè)原子聲明相關(guān)的文檔,限制在2023年之前發(fā)布的文章(PMID ≤ 36600000)。BM25用于根據(jù)與聲明的相關(guān)性對(duì)文檔進(jìn)行排名。為確保計(jì)算效率并專(zhuān)注于最相關(guān)信息,只保留排名最高的K個(gè)文檔。
當(dāng)使用知識(shí)圖譜作為知識(shí)庫(kù)時(shí),聲明的上下文從圖結(jié)構(gòu)中推導(dǎo)。對(duì)于一個(gè)聲明,相關(guān)知識(shí)從圖中提取,包括聲明中提到的所有實(shí)體。
聲明的基礎(chǔ)依據(jù)基于給定上下文信息(來(lái)自文獻(xiàn)、圖譜或兩者)是否能完全支持該聲明來(lái)確定。如果連接的上下文集體蘊(yùn)含該聲明,則認(rèn)為該聲明是有依據(jù)的。
假設(shè)的整體基礎(chǔ)依據(jù)計(jì)算為其原子聲明中有依據(jù)聲明的比例。
通過(guò)同時(shí)提供基于文獻(xiàn)和基于圖譜的上下文,KnowHD為幻覺(jué)檢測(cè)提供了一個(gè)強(qiáng)大的框架,能夠適應(yīng)可用的知識(shí)來(lái)源。這種對(duì)原子聲明的系統(tǒng)評(píng)估使得對(duì)假設(shè)基礎(chǔ)依據(jù)的詳細(xì)評(píng)估成為可能,識(shí)別不受支持的組件并提高大語(yǔ)言模型生成輸出的可靠性。
四、實(shí)驗(yàn)結(jié)果:大語(yǔ)言模型在真實(shí)假設(shè)生成方面表現(xiàn)如何?
想象你正在舉辦一場(chǎng)烹飪比賽,參賽者需要根據(jù)有限的食材創(chuàng)造美味佳肴。類(lèi)似地,研究團(tuán)隊(duì)測(cè)試了不同的大語(yǔ)言模型,看它們?nèi)绾卫矛F(xiàn)有知識(shí)生成真實(shí)的科學(xué)假設(shè)。結(jié)果出人意料且發(fā)人深省。
研究團(tuán)隊(duì)選擇了一系列不同類(lèi)型和規(guī)模的模型進(jìn)行測(cè)試。Llama-3系列代表開(kāi)源大語(yǔ)言模型,而GPT-4系列則代表專(zhuān)有模型。從每個(gè)系列中,研究團(tuán)隊(duì)評(píng)估了兩種不同規(guī)模的大語(yǔ)言模型(Llama-3.1-8B和Llama-3.1-70B,GPT-4o-mini和GPT-4o),以研究規(guī)模相關(guān)的性能差異。所有大語(yǔ)言模型都是在2024年之前可用的知識(shí)上訓(xùn)練的,防止其直接回憶假設(shè)生成的確切知識(shí)。
TruthHypo基準(zhǔn)在四種不同設(shè)置下評(píng)估大語(yǔ)言模型:僅參數(shù)知識(shí)、參數(shù)知識(shí)加知識(shí)圖譜、參數(shù)知識(shí)加文獻(xiàn),以及參數(shù)知識(shí)同時(shí)加知識(shí)圖譜和文獻(xiàn)。這些設(shè)置允許研究團(tuán)隊(duì)探索外部知識(shí)源對(duì)假設(shè)生成的影響。
在所有任務(wù)中,結(jié)果表明大多數(shù)大語(yǔ)言模型難以生成真實(shí)的科學(xué)假設(shè),只有GPT-4o實(shí)現(xiàn)了超過(guò)60%的平均準(zhǔn)確率。此外,鏈接級(jí)F1分?jǐn)?shù)高于關(guān)系級(jí)準(zhǔn)確率分?jǐn)?shù),這表明大語(yǔ)言模型可以識(shí)別實(shí)體之間的潛在連接,但往往無(wú)法準(zhǔn)確預(yù)測(cè)具體關(guān)系。
對(duì)于來(lái)自同一系列但規(guī)模不同的模型,較大的大語(yǔ)言模型往往生成更有可能真實(shí)的科學(xué)假設(shè)。這可歸因于兩個(gè)主要因素:首先,較大的大語(yǔ)言模型通常表現(xiàn)更好,因?yàn)樗鼈兛梢栽趨?shù)中存儲(chǔ)和利用更多知識(shí);其次,不同規(guī)模的大語(yǔ)言模型處理外部知識(shí)的能力各不相同。
例如,當(dāng)增加知識(shí)圖譜和文獻(xiàn)時(shí),GPT-4o-mini的準(zhǔn)確率僅提高了1.14%,而GPT-4o在相同條件下實(shí)現(xiàn)了更可觀的5.14%增幅。這表明較大的大語(yǔ)言模型能更好地利用額外上下文推理真實(shí)的科學(xué)假設(shè)。比較Llama-3.1-8B和Llama-3.1-70B時(shí)也觀察到類(lèi)似趨勢(shì)。
有趣的是,Llama-3.1-8B等較小模型在引入知識(shí)圖譜和文獻(xiàn)信息時(shí)有時(shí)會(huì)出現(xiàn)性能下降。這種下降可能源于有效整合內(nèi)部和外部信息的挑戰(zhàn),可能會(huì)擾亂模型的推理過(guò)程。
研究團(tuán)隊(duì)還評(píng)估了生成假設(shè)的基礎(chǔ)依據(jù)。結(jié)果表明,知識(shí)圖譜和文獻(xiàn)對(duì)基礎(chǔ)假設(shè)的貢獻(xiàn)不同。例如,使用文獻(xiàn)作為支持知識(shí)庫(kù)的KnowHD可以驗(yàn)證文獻(xiàn)增強(qiáng)的"化學(xué)物質(zhì)與基因"假設(shè)推理中76.30%的聲明。然而,當(dāng)基于添加到參數(shù)知識(shí)的知識(shí)圖譜信息生成推理時(shí),幻覺(jué)檢測(cè)器很難驗(yàn)證,只有51.08%的聲明是有依據(jù)的。結(jié)合知識(shí)圖譜和文獻(xiàn)產(chǎn)生最高的基礎(chǔ)依據(jù)分?jǐn)?shù),有效利用兩種來(lái)源的互補(bǔ)優(yōu)勢(shì)來(lái)識(shí)別有依據(jù)的聲明并檢測(cè)幻覺(jué)。
為進(jìn)一步探索幻覺(jué)與真實(shí)性之間的關(guān)系,研究團(tuán)隊(duì)還將平均準(zhǔn)確率與基礎(chǔ)依據(jù)分?jǐn)?shù)的函數(shù)關(guān)系進(jìn)行了比較。結(jié)果表明,基礎(chǔ)依據(jù)分?jǐn)?shù)與假設(shè)真實(shí)性之間存在正相關(guān)。隨著基礎(chǔ)依據(jù)分?jǐn)?shù)的增加,假設(shè)真實(shí)的可能性也增加。例如,GPT-4o-mini在"化學(xué)物質(zhì)與基因"任務(wù)中在組合知識(shí)圖譜+文獻(xiàn)設(shè)置下實(shí)現(xiàn)了60.96%的平均準(zhǔn)確率,但對(duì)于基礎(chǔ)依據(jù)分?jǐn)?shù)超過(guò)80%的假設(shè),這一比例上升到72.77%。
為驗(yàn)證KnowHD在增強(qiáng)假設(shè)生成方面的效用,研究團(tuán)隊(duì)提示大語(yǔ)言模型為每個(gè)輸入生成五個(gè)候選假設(shè),并選擇基礎(chǔ)依據(jù)分?jǐn)?shù)最高的一個(gè)作為最終輸出。這種方法與兩個(gè)基線進(jìn)行了比較:貪婪搜索方法(使用大語(yǔ)言模型的貪婪下一個(gè)標(biāo)記選擇生成假設(shè))和自一致性方法(基于多個(gè)預(yù)測(cè)的多數(shù)投票選擇假設(shè))。
如圖4所示,基于基礎(chǔ)依據(jù)的假設(shè)選擇通常在大多數(shù)知識(shí)設(shè)置下優(yōu)于貪婪搜索和多數(shù)投票方法。在僅參數(shù)知識(shí)設(shè)置中,多數(shù)投票方法實(shí)現(xiàn)了略高于基于基礎(chǔ)依據(jù)選擇的準(zhǔn)確率(61.86%對(duì)59.83%)。然而,隨著引入外部知識(shí),基于基礎(chǔ)依據(jù)的選擇顯示出對(duì)兩個(gè)基線的一致改進(jìn)。例如,在組合參數(shù)+知識(shí)圖譜+文獻(xiàn)設(shè)置中,當(dāng)使用基于基礎(chǔ)依據(jù)的選擇時(shí),GPT-4o-mini實(shí)現(xiàn)了63.44%的平均準(zhǔn)確率,接近較大GPT-4o模型的性能。
這些結(jié)果強(qiáng)調(diào)了基礎(chǔ)依據(jù)分?jǐn)?shù)在外部知識(shí)被納入的情景中的有效性,因?yàn)樗鼈冇兄谧R(shí)別更可能真實(shí)的假設(shè)。通過(guò)檢測(cè)推理步驟中的幻覺(jué)并專(zhuān)注于有依據(jù)的假設(shè),KnowHD為增強(qiáng)大語(yǔ)言模型生成的科學(xué)假設(shè)的可靠性和真實(shí)性提供了一個(gè)強(qiáng)大機(jī)制。
五、人類(lèi)研究:KnowHD在開(kāi)放式任務(wù)中的表現(xiàn)
為進(jìn)一步評(píng)估KnowHD在選擇真實(shí)假設(shè)方面有效性的通用性,研究團(tuán)隊(duì)在開(kāi)放式假設(shè)生成任務(wù)上進(jìn)行了實(shí)驗(yàn)。這些任務(wù)旨在評(píng)估KnowHD是否能夠在更廣泛、結(jié)構(gòu)較少的生成場(chǎng)景中可靠地識(shí)別更有可能真實(shí)的假設(shè)。
對(duì)于這項(xiàng)分析,研究團(tuán)隊(duì)利用了Qi等人(2024年)引入的公開(kāi)可用假設(shè)生成數(shù)據(jù)集,其中涉及基于給定背景信息生成自由形式假設(shè)。研究團(tuán)隊(duì)選擇了GPT-4o-mini作為測(cè)試的大語(yǔ)言模型,并通過(guò)合并來(lái)自科學(xué)文獻(xiàn)和知識(shí)圖譜的外部知識(shí)增強(qiáng)其假設(shè)生成過(guò)程。模型被提示為每個(gè)輸入生成五個(gè)不同的科學(xué)假設(shè)。然后這些假設(shè)由KnowHD評(píng)估,KnowHD基于它們與結(jié)構(gòu)化(知識(shí)圖譜)和非結(jié)構(gòu)化(文獻(xiàn))知識(shí)源的一致性評(píng)估它們的基礎(chǔ)依據(jù)。
為分析基礎(chǔ)依據(jù)分?jǐn)?shù)與假設(shè)真實(shí)性之間的關(guān)系,研究團(tuán)隊(duì)過(guò)濾生成的假設(shè)以創(chuàng)建具有對(duì)比基礎(chǔ)依據(jù)水平的對(duì)。對(duì)于每個(gè)輸入,研究團(tuán)隊(duì)識(shí)別了一個(gè)具有最高基礎(chǔ)依據(jù)分?jǐn)?shù)的假設(shè)和另一個(gè)具有最低分?jǐn)?shù)的假設(shè)。研究團(tuán)隊(duì)保留了高基礎(chǔ)依據(jù)分?jǐn)?shù)比低分?jǐn)?shù)大30%以上的對(duì)。這種過(guò)濾導(dǎo)致了54對(duì)假設(shè),在基礎(chǔ)依據(jù)水平上有顯著差異。
為驗(yàn)證KnowHD的有效性,研究團(tuán)隊(duì)讓兩位領(lǐng)域?qū)<易⑨屆繉?duì)假設(shè)(80%一致率),選擇他們認(rèn)為基于給定信息更可能真實(shí)的假設(shè)。此外,GPT-4o被提示分析相同的對(duì)并提供其判斷。表4總結(jié)了這項(xiàng)注釋研究的結(jié)果,報(bào)告了每組的選擇比率,定義為在每組中被識(shí)別為更真實(shí)的假設(shè)比例。
結(jié)果表明,基礎(chǔ)依據(jù)分?jǐn)?shù)與假設(shè)感知真實(shí)性之間存在顯著關(guān)系。具有較高基礎(chǔ)依據(jù)分?jǐn)?shù)的假設(shè)被人類(lèi)專(zhuān)家和GPT-4o一致地更可能選為真實(shí),如選擇比率的實(shí)質(zhì)性差異所示。這些發(fā)現(xiàn)突顯了KnowHD在區(qū)分真實(shí)假設(shè)方面的效用,甚至在非結(jié)構(gòu)化的開(kāi)放式生成任務(wù)中也是如此。
通過(guò)有效利用基礎(chǔ)依據(jù)作為標(biāo)準(zhǔn),KnowHD提供了一個(gè)強(qiáng)大機(jī)制來(lái)提高大語(yǔ)言模型生成假設(shè)的可靠性,加強(qiáng)其促進(jìn)現(xiàn)實(shí)世界科學(xué)發(fā)現(xiàn)過(guò)程的潛力。
六、研究意義與展望:大語(yǔ)言模型如何助力科學(xué)發(fā)現(xiàn)
弗吉尼亞大學(xué)研究團(tuán)隊(duì)的這項(xiàng)工作為我們勾勒了一幅令人興奮的未來(lái)圖景。想象一下,科學(xué)家們能夠利用大語(yǔ)言模型作為值得信賴的合作伙伴,幫助他們?yōu)g覽復(fù)雜的科學(xué)領(lǐng)域,發(fā)現(xiàn)新的研究方向,并生成高質(zhì)量、有依據(jù)的假設(shè),加速科學(xué)發(fā)現(xiàn)的步伐。
通過(guò)TruthHypo基準(zhǔn)和KnowHD框架,研究團(tuán)隊(duì)為評(píng)估和提高大語(yǔ)言模型生成的科學(xué)假設(shè)的真實(shí)性提供了強(qiáng)大工具。這些工具不僅揭示了當(dāng)前大語(yǔ)言模型在生成真實(shí)假設(shè)方面的局限性,還提供了通過(guò)基礎(chǔ)依據(jù)評(píng)估來(lái)識(shí)別更可靠假設(shè)的方法。
研究結(jié)果表明,雖然大語(yǔ)言模型在生成看似合理的假設(shè)方面顯示出巨大潛力,但它們?nèi)匀幻媾R生成真實(shí)、科學(xué)有效假設(shè)的挑戰(zhàn)。這突顯了繼續(xù)改進(jìn)大語(yǔ)言模型推理能力的重要性,特別是在科學(xué)領(lǐng)域,準(zhǔn)確性和可靠性至關(guān)重要。
KnowHD作為一種實(shí)用工具的價(jià)值在于其能夠分析大語(yǔ)言模型的推理過(guò)程并評(píng)估假設(shè)的基礎(chǔ)依據(jù)。這種能力可以幫助研究人員篩選大語(yǔ)言模型生成的大量假設(shè),集中精力于那些更有可能經(jīng)得起科學(xué)審查的假設(shè)。這不僅可以節(jié)省時(shí)間和資源,還可以提高大語(yǔ)言模型作為科學(xué)發(fā)現(xiàn)工具的整體效用。
通過(guò)開(kāi)放數(shù)據(jù)和源代碼(https://github.com/Teddy-XiongGZ/TruthHypo),研究團(tuán)隊(duì)為研究社區(qū)提供了資源,以進(jìn)一步探索和改進(jìn)大語(yǔ)言模型在科學(xué)假設(shè)生成中的使用。這種開(kāi)放和協(xié)作的方法將加速這一領(lǐng)域的進(jìn)步,最終導(dǎo)致更可靠、更有用的AI輔助科學(xué)工具。
展望未來(lái),這項(xiàng)研究為改進(jìn)大語(yǔ)言模型在科學(xué)環(huán)境中的應(yīng)用奠定了基礎(chǔ)。隨著模型和評(píng)估方法的不斷進(jìn)步,我們可以期待大語(yǔ)言模型在科學(xué)發(fā)現(xiàn)過(guò)程中發(fā)揮越來(lái)越重要的作用,服務(wù)于研究人員,而不是取代他們。
歸根結(jié)底,TruthHypo和KnowHD等工具代表了向更負(fù)責(zé)任、更可靠的AI輔助科學(xué)邁出的關(guān)鍵一步。通過(guò)解決大語(yǔ)言模型在生物醫(yī)學(xué)假設(shè)生成中的真實(shí)性挑戰(zhàn),這項(xiàng)研究為利用AI的力量加速科學(xué)進(jìn)步,同時(shí)維護(hù)科學(xué)方法的完整性和嚴(yán)謹(jǐn)性鋪平了道路。
這項(xiàng)研究最終不僅關(guān)乎技術(shù)創(chuàng)新,還關(guān)乎確保這些創(chuàng)新以支持而非削弱科學(xué)探索的基本原則的方式部署。隨著我們繼續(xù)探索AI在科學(xué)中的應(yīng)用,維持真實(shí)性、準(zhǔn)確性和科學(xué)嚴(yán)謹(jǐn)性的平衡將至關(guān)重要,而本研究提供的工具和見(jiàn)解是朝著這一目標(biāo)邁出的重要一步。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專(zhuān)家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專(zhuān)家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類(lèi)型問(wèn)題偏愛(ài)不同專(zhuān)家配置,為AI推理優(yōu)化開(kāi)辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。