av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) 史丹福大學(xué)團(tuán)隊(duì)推出MedCaseReasoning:首個(gè)用真實(shí)病例評(píng)估和提升AI醫(yī)療推理能力的開(kāi)源數(shù)據(jù)集

史丹福大學(xué)團(tuán)隊(duì)推出MedCaseReasoning:首個(gè)用真實(shí)病例評(píng)估和提升AI醫(yī)療推理能力的開(kāi)源數(shù)據(jù)集

2025-05-23 15:28
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-23 15:28 ? 科技行者

隨著人工智能在醫(yī)療領(lǐng)域的快速滲透,越來(lái)越多的醫(yī)生和患者開(kāi)始使用大型語(yǔ)言模型(LLMs)來(lái)進(jìn)行臨床診斷。然而,這項(xiàng)由斯坦福大學(xué)Kevin Wu、Eric Wu、Rahul Thapa等人主導(dǎo),聯(lián)合南加州大學(xué)和加州大學(xué)舊金山分校研究人員共同完成的研究指出了一個(gè)關(guān)鍵問(wèn)題:現(xiàn)有的醫(yī)療AI評(píng)估標(biāo)準(zhǔn)存在重大缺陷。這項(xiàng)研究于2025年5月16日發(fā)表在arXiv預(yù)印本平臺(tái)(arXiv:2505.11733v1),為醫(yī)療AI的評(píng)估樹(shù)立了全新標(biāo)準(zhǔn)。

在數(shù)學(xué)或編程等領(lǐng)域,我們通常只關(guān)心最終答案的正確性。但在醫(yī)療診斷中,不僅結(jié)果重要,推理過(guò)程同樣至關(guān)重要。想象一下,如果醫(yī)生給你一個(gè)診斷但無(wú)法解釋其思考過(guò)程,你會(huì)信任這個(gè)診斷嗎?當(dāng)前流行的醫(yī)療AI評(píng)估基準(zhǔn)如MedQA和MMLU只評(píng)估最終診斷的準(zhǔn)確性,完全忽略了推理過(guò)程的質(zhì)量和可靠性。

斯坦福團(tuán)隊(duì)提出的MedCaseReasoning正是為解決這一問(wèn)題而生。這是首個(gè)公開(kāi)可訪問(wèn)的數(shù)據(jù)集,專(zhuān)門(mén)用于評(píng)估大型語(yǔ)言模型與臨床醫(yī)生診斷推理的一致性。簡(jiǎn)單來(lái)說(shuō),它不僅檢查AI是否給出了正確的診斷結(jié)果,還評(píng)估AI是否"像醫(yī)生一樣思考"。

這個(gè)數(shù)據(jù)集包含14,489個(gè)診斷問(wèn)答案例,每個(gè)案例都配有從公開(kāi)醫(yī)學(xué)病例報(bào)告中提取的詳細(xì)推理陳述。這些病例來(lái)自800多種醫(yī)學(xué)期刊和30多個(gè)專(zhuān)科領(lǐng)域,為AI模型提供了廣泛多樣的學(xué)習(xí)材料。研究團(tuán)隊(duì)對(duì)目前最先進(jìn)的推理型大語(yǔ)言模型進(jìn)行了評(píng)估,結(jié)果發(fā)現(xiàn)這些模型在診斷和推理方面仍存在顯著不足。例如,表現(xiàn)最好的開(kāi)源模型DeepSeek-R1在10次嘗試下的診斷準(zhǔn)確率僅為48%,而且只能提及醫(yī)生推理陳述的64%(召回率)。

有趣的是,當(dāng)研究團(tuán)隊(duì)使用MedCaseReasoning中的推理軌跡對(duì)大語(yǔ)言模型進(jìn)行微調(diào)后,模型的診斷準(zhǔn)確率和臨床推理召回率分別平均提高了29%和41%。這表明,讓AI學(xué)習(xí)醫(yī)生的推理過(guò)程,不僅能讓它給出更準(zhǔn)確的診斷,還能讓它的思考方式更接近醫(yī)生。

相比于現(xiàn)有的醫(yī)療AI評(píng)估數(shù)據(jù)集,MedCaseReasoning有幾個(gè)獨(dú)特優(yōu)勢(shì)。與僅包含302個(gè)測(cè)試案例的NEJM CPC(新英格蘭醫(yī)學(xué)雜志臨床病理討論)相比,MedCaseReasoning擁有超過(guò)14,000個(gè)案例,樣本量更大、更具代表性。此外,NEJM CPC僅來(lái)自波士頓麻省總醫(yī)院一家醫(yī)院系統(tǒng)的醫(yī)生和患者群體,而MedCaseReasoning代表了全球多樣化的醫(yī)生和患者背景。最重要的是,MedCaseReasoning基于PubMedCentral的開(kāi)放獲取文章,完全開(kāi)源,而NEJM CPC只能在許可下使用。

一、數(shù)據(jù)集的創(chuàng)建過(guò)程:從海量病例中提煉高質(zhì)量診斷案例

創(chuàng)建一個(gè)高質(zhì)量的醫(yī)療診斷數(shù)據(jù)集就像從浩瀚的沙灘中找出最完美的貝殼。研究團(tuán)隊(duì)開(kāi)始于PubMed Central開(kāi)放子集中的98,994份病例報(bào)告,這些報(bào)告發(fā)布于2005年1月1日至2025年4月27日之間。

首先,研究團(tuán)隊(duì)面臨的挑戰(zhàn)是在新穎性和實(shí)用性之間取得平衡。病例報(bào)告通常記錄罕見(jiàn)或復(fù)雜的疾病,這些對(duì)于教育目的非常有價(jià)值,但必須確保AI模型能夠從提供的信息中實(shí)際推導(dǎo)出診斷結(jié)果。團(tuán)隊(duì)采用了一種基于LLM的流程,旨在最大化案例的新穎性和實(shí)用性。

第一步是篩選候選病例。團(tuán)隊(duì)排除了不含"鑒別"(即討論鑒別診斷)一詞的病例,將范圍縮小到28,313份病例報(bào)告。然后,他們使用OpenAI的o4-mini模型將這些候選病例轉(zhuǎn)換成診斷問(wèn)答形式。同時(shí),每個(gè)候選病例還根據(jù)以下標(biāo)準(zhǔn)進(jìn)行評(píng)分:1)病例描述的全面性,2)是否存在明確的鑒別診斷,3)對(duì)綜合臨床推理的依賴(lài)程度,4)診斷推理過(guò)程的透明度,以及5)是否明確最終診斷。

在這個(gè)過(guò)程中,團(tuán)隊(duì)過(guò)濾掉了病例描述嚴(yán)重不足或存在重大缺口的案例,以及那些沒(méi)有討論至少兩種合理替代診斷或未明確最終診斷的案例。經(jīng)過(guò)篩選,還剩下19,428份病例報(bào)告。

為了避免模型盲點(diǎn),研究團(tuán)隊(duì)使用另一個(gè)LLM(gemini-2.5-pro)評(píng)估了每個(gè)生成的病例報(bào)告對(duì)原始文章的忠實(shí)度和合理性。他們移除了任何存在標(biāo)記問(wèn)題的案例,最終得到了14,489個(gè)案例。從中,他們創(chuàng)建了一個(gè)包含897個(gè)案例的初始測(cè)試子集,這些案例的透明度和綜合診斷推理評(píng)分至少為4分或5分。

MedCaseReasoning中的病例報(bào)告跨越了800多種不同的醫(yī)學(xué)期刊,診斷案例提示比MedQA中的提示明顯更長(zhǎng)、更詳細(xì)。此外,大部分病例報(bào)告的發(fā)布日期集中在2020年之后,超過(guò)16%的案例發(fā)布于2024年1月1日之后。更重要的是,這個(gè)流程可以定期更新,以較低的邊際成本納入新的病例報(bào)告。

為了驗(yàn)證從每個(gè)病例報(bào)告中提取的病例提示、診斷推理和最終診斷,四位獲得委員會(huì)認(rèn)證的醫(yī)生審查了100個(gè)隨機(jī)選擇的案例。每個(gè)案例,他們回答了三個(gè)關(guān)于幻覺(jué)存在、忠實(shí)度和合理性的問(wèn)題。結(jié)果顯示98%的案例在病例提示或診斷推理中沒(méi)有幻覺(jué),92%的最終診斷忠實(shí)于文章并可以從病例提示的細(xì)節(jié)中合理推斷,93%的診斷推理步驟忠實(shí)于病例報(bào)告并具有臨床相關(guān)性。

二、如何評(píng)估AI模型的診斷推理能力:不只是答案對(duì)錯(cuò),還要看思考過(guò)程

評(píng)估醫(yī)療AI不能像評(píng)價(jià)數(shù)學(xué)題那樣簡(jiǎn)單地看結(jié)果對(duì)錯(cuò)。想象一下,如果一位醫(yī)生給你的診斷是正確的,但他解釋的理由完全不著邊際,你會(huì)信任這個(gè)診斷結(jié)果嗎?同樣,AI模型可能恰好給出了正確的診斷,但推理過(guò)程卻充滿(mǎn)錯(cuò)誤或缺陷,這樣的診斷在臨床實(shí)踐中可能導(dǎo)致病例管理錯(cuò)誤。

研究團(tuán)隊(duì)開(kāi)發(fā)了兩種評(píng)估方法:診斷準(zhǔn)確性和推理召回率。

對(duì)于診斷準(zhǔn)確性,團(tuán)隊(duì)采用了"LLM作為評(píng)委"的方法,這與之前的研究(如McDuff等人,2025年)保持一致。他們使用gpt-4o-mini作為評(píng)判模型,這種方法已被驗(yàn)證與人類(lèi)評(píng)價(jià)有高度一致性。每個(gè)模型在溫度為0.8和top-p為0.95的條件下進(jìn)行10次評(píng)估,并記錄N次嘗試的性能。

鑒別診斷通常包含5到10個(gè)候選診斷,這些會(huì)在臨床環(huán)境中進(jìn)一步追蹤。研究團(tuán)隊(duì)還使用了來(lái)自NEJM臨床病理會(huì)議的302個(gè)案例子集作為外部驗(yàn)證,這些案例來(lái)自之前的研究(McDuff等人,2025年;Kanjee等人,2023年;Gemini,2023年),被視為復(fù)雜診斷案例的黃金標(biāo)準(zhǔn)。

對(duì)于推理召回率,團(tuán)隊(duì)關(guān)注的是模型能否提及臨床醫(yī)生給出的推理點(diǎn)。簡(jiǎn)單來(lái)說(shuō),如果臨床醫(yī)生在診斷時(shí)考慮了5個(gè)關(guān)鍵點(diǎn),研究人員會(huì)檢查AI模型是否也提到了這些點(diǎn)。如果AI只提到了其中3點(diǎn),那么其推理召回率就是60%。

具體來(lái)說(shuō),研究團(tuán)隊(duì)定義了"推理召回率"(Reasoning Recall)如下:對(duì)于N個(gè)病例中的每個(gè)病例i,讓Ri為病例報(bào)告中的實(shí)際推理點(diǎn)集合,Ti為模型推理軌跡中的推理點(diǎn)集合。對(duì)于案例i,召回率為ci = |Ri ∩ Ti| / |Ri|。總體推理召回率為所有案例召回率的平均值:RR = (1/N) × ∑(i=1 to N) ci。

研究團(tuán)隊(duì)使用o4-mini指導(dǎo)返回一個(gè)JSON,其中包含關(guān)于groundtruth推理點(diǎn)是否在推理軌跡中找到的決定。這一評(píng)估步驟得到了一位獲得委員會(huì)認(rèn)證的醫(yī)生的驗(yàn)證。

三、突破性發(fā)現(xiàn):AI模型在醫(yī)療推理上的表現(xiàn)與提升空間

研究團(tuán)隊(duì)對(duì)七種模型進(jìn)行了全面評(píng)估:OpenAI的o3、DeepSeek R1、QwQ-32B、MedReason-8B、LLaMA-3.1-8B-Instruct、m1-7b-23k和Qwen-2.5-7B-Instruct。評(píng)估結(jié)果令人深思。

在MedCaseReasoning測(cè)試集上,即使是表現(xiàn)最好的商業(yè)模型OpenAI o3,其10次嘗試的診斷準(zhǔn)確率也只有64.5%。開(kāi)源模型中表現(xiàn)最好的DeepSeek R1僅達(dá)到48.0%。相比之下,在NEJM CPC測(cè)試集上,這兩個(gè)模型分別達(dá)到了62.3%和43.7%的10次嘗試準(zhǔn)確率,顯示了MedCaseReasoning作為開(kāi)放獲取替代評(píng)估集的有效性。

更令人擔(dān)憂(yōu)的是推理能力的局限性。研究表明,即使是提供推理軌跡的頂級(jí)模型,在與臨床醫(yī)生推理保持一致方面也存在顯著缺陷。頂級(jí)開(kāi)源模型DeepSeek R1僅捕獲了病例報(bào)告中推理步驟的64.2%,而其他模型的表現(xiàn)甚至更差。

這些發(fā)現(xiàn)凸顯了一個(gè)關(guān)鍵問(wèn)題:目前的AI模型可能給出正確的診斷,但其推理過(guò)程與醫(yī)生的思考方式存在顯著差距。就像一個(gè)學(xué)生可能通過(guò)猜測(cè)或錯(cuò)誤的方法得到正確答案,但這并不意味著他真正理解了問(wèn)題。

有趣的是,研究發(fā)現(xiàn)模型性能與推理召回率之間存在顯著相關(guān)性(皮爾遜r=0.710,p=0.0485),表明衡量推理步驟是評(píng)估模型性能的有效代理指標(biāo)。此外,研究還觀察到模型推理軌跡的長(zhǎng)度與推理召回率之間存在顯著相關(guān)性(r=0.790,p=0.0196)。

四、讓AI學(xué)會(huì)像醫(yī)生一樣思考:基于臨床推理軌跡的微調(diào)

研究團(tuán)隊(duì)探索了一個(gè)關(guān)鍵問(wèn)題:是否可以通過(guò)微調(diào)讓AI模型學(xué)會(huì)更像醫(yī)生那樣思考?結(jié)果令人振奮。

研究團(tuán)隊(duì)從MedCaseReasoning中提取的推理直接對(duì)模型進(jìn)行監(jiān)督微調(diào)(SFT),顯著提高了模型在診斷準(zhǔn)確性和推理召回率方面的表現(xiàn)。一個(gè)技術(shù)挑戰(zhàn)是,提取的診斷推理被格式化為摘要點(diǎn)和引述的枚舉列表,而非連貫的推理軌跡。研究團(tuán)隊(duì)讓各模型自己將這些點(diǎn)"縫合"成推理軌跡,而不添加新信息,以控制偏差。

研究團(tuán)隊(duì)對(duì)三個(gè)流行的開(kāi)源模型進(jìn)行了監(jiān)督微調(diào):Qwen-2.5-7B-Instruct、LLaMA-3.1-8B-Instruct以及MedReason-8B(一個(gè)基于LLaMA-3.1-8B-Instruct并在合成醫(yī)學(xué)推理數(shù)據(jù)集上預(yù)先微調(diào)的模型)。他們?cè)?個(gè)NVIDIA H100 GPU上進(jìn)行了全權(quán)重微調(diào),學(xué)習(xí)率為2e-5,批次大小為256。

結(jié)果令人印象深刻。在MedCaseReasoning測(cè)試集上,所有基礎(chǔ)模型在微調(diào)后都顯著提升了性能。例如,MedReason-8B的10次嘗試準(zhǔn)確率提高了31%,超過(guò)了DeepSeek R1。值得注意的是,這個(gè)模型在NEJM CPC上也提高了18%,超過(guò)了QwQ-32B。這證明了MedCaseReasoning訓(xùn)練數(shù)據(jù)的泛化能力。

在推理召回率方面,微調(diào)也帶來(lái)了顯著改進(jìn)。MedReason-8B提高了28%,Qwen-2.5-7B-Instruct提高了50%。這表明,通過(guò)從真實(shí)臨床案例中學(xué)習(xí),AI模型不僅可以提高診斷準(zhǔn)確性,還能更好地復(fù)現(xiàn)醫(yī)生的思考過(guò)程。

這些發(fā)現(xiàn)具有重要意義:它們表明,較小的模型(如Llama 3.1 8B和Qwen 2.5 7B)經(jīng)過(guò)MedCaseReasoning訓(xùn)練后,可以達(dá)到或超過(guò)更大模型(如Qwen1.5-32B和DeepSeek-R1)的診斷準(zhǔn)確性。雖然之前的研究探索了從更強(qiáng)大模型生成的合成軌跡中學(xué)習(xí)推理,但這項(xiàng)研究首次證明了直接從臨床醫(yī)生撰寫(xiě)的診斷推理中訓(xùn)練的有效性。

五、MedCaseReasoning數(shù)據(jù)集的獨(dú)特價(jià)值與醫(yī)療AI的未來(lái)發(fā)展

與既定的基準(zhǔn)如MedQA相比,在MedCaseReasoning上的表現(xiàn)目前頂峰為64.5%,而領(lǐng)先模型如GPT-4o在MedQA上已經(jīng)達(dá)到了超過(guò)90%的準(zhǔn)確率。這表明MedCaseReasoning提出了更具挑戰(zhàn)性的任務(wù),專(zhuān)注于與專(zhuān)家推理的細(xì)微對(duì)齊。這一特性與復(fù)雜的診斷病例報(bào)告數(shù)據(jù)集(如NEJM CPC)相似;實(shí)際上,研究觀察到MedCaseReasoning和NEJM CPC之間的診斷表現(xiàn)存在強(qiáng)相關(guān)性。

然而,MedCaseReasoning提供了明顯的優(yōu)勢(shì):它是開(kāi)放獲取的,不像受許可限制的NEJM CPC,并提供了大量的樣本,擁有近14,489個(gè)例子(包括13,092個(gè)訓(xùn)練樣本),相比之下NEJM CPC只有302個(gè)測(cè)試案例。此外,MedCaseReasoning的病例提取流程也可擴(kuò)展到其他病例報(bào)告,允許隨著更多報(bào)告可用而更新數(shù)據(jù)集,反映當(dāng)前的醫(yī)學(xué)指南。

該研究也存在一些局限性。首先,某些病例報(bào)告可能缺乏足夠細(xì)節(jié)進(jìn)行確切診斷或呈現(xiàn)瑣碎案例。問(wèn)答轉(zhuǎn)換過(guò)程可能引入變異性,病例細(xì)節(jié)可能被無(wú)意中遺漏或產(chǎn)生幻覺(jué)。盡管研究團(tuán)隊(duì)為測(cè)試集實(shí)施了經(jīng)臨床醫(yī)生驗(yàn)證的過(guò)濾流程,確保推理陳述植根于病例描述,但一些難以處理的案例(例如,沒(méi)有某些信息就無(wú)法進(jìn)行診斷的案例)或瑣碎案例(例如,診斷在提示中被泄露的案例)仍然存在。

其次,MedCaseReasoning捕捉了提出最終診斷前的單一時(shí)間點(diǎn)的病例描述。它不反映真實(shí)世界臨床診斷的迭代、多階段性質(zhì),后者涉及基于檢測(cè)、成像和治療反應(yīng)等不斷變化的信息完善鑒別診斷。

第三,研究的推理召回指標(biāo)僅捕捉病例報(bào)告中提供的臨床推理。診斷推理本質(zhì)上是主觀的,雖然研究的廣泛訓(xùn)練語(yǔ)料庫(kù)旨在涵蓋多樣化的診斷標(biāo)準(zhǔn),但對(duì)齊指標(biāo)應(yīng)被解釋為對(duì)一系列不同臨床醫(yī)生的推理模式的遵循,而非單一的黃金標(biāo)準(zhǔn)。

診斷罕見(jiàn)和復(fù)雜疾病對(duì)患者健康、醫(yī)患互動(dòng)和對(duì)LLMs的信任度有廣泛社會(huì)影響。這項(xiàng)研究旨在闡明一個(gè)關(guān)鍵因素,即診斷推理,它調(diào)和了這三個(gè)因素。

簡(jiǎn)而言之,MedCaseReasoning的創(chuàng)建填補(bǔ)了醫(yī)療AI評(píng)估中的關(guān)鍵空白:它不僅關(guān)注結(jié)果,還關(guān)注過(guò)程。就像我們希望醫(yī)生不僅給出正確診斷,還能解釋其推理過(guò)程一樣,我們也應(yīng)該對(duì)AI模型提出同樣的要求。這個(gè)數(shù)據(jù)集不僅為評(píng)估現(xiàn)有模型提供了工具,還為改進(jìn)這些模型指明了方向。

對(duì)于醫(yī)療領(lǐng)域的AI開(kāi)發(fā)者、醫(yī)療專(zhuān)業(yè)人士和研究人員來(lái)說(shuō),MedCaseReasoning代表了一個(gè)重要里程碑,將為未來(lái)的醫(yī)療AI模型設(shè)定更高標(biāo)準(zhǔn),最終為患者提供更安全、更可靠的診斷支持。研究團(tuán)隊(duì)已經(jīng)將開(kāi)源數(shù)據(jù)集、代碼和模型在GitHub上公開(kāi):https://github.com/kevinwu23/Stanford-MedCaseReasoning,為廣大研究人員提供了寶貴資源。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-