這項(xiàng)由阿里巴巴達(dá)摩院聯(lián)合蘭州大學(xué)基礎(chǔ)醫(yī)學(xué)院、中國(guó)人民大學(xué)高瓴人工智能學(xué)院等多家知名機(jī)構(gòu)共同完成的研究發(fā)表于2025年6月11日的arXiv平臺(tái),論文編號(hào)為arXiv:2506.09513v1。有興趣深入了解的讀者可以通過(guò)該編號(hào)在arXiv網(wǎng)站上訪問(wèn)完整論文。這項(xiàng)研究的核心成果是構(gòu)建了一個(gè)名為ReasonMed的超大規(guī)模醫(yī)學(xué)推理數(shù)據(jù)集,并基于此訓(xùn)練出了表現(xiàn)驚人的ReasonMed-7B模型。
想象一下,你去醫(yī)院看病時(shí),醫(yī)生需要根據(jù)你的癥狀、檢查結(jié)果和醫(yī)學(xué)知識(shí)進(jìn)行復(fù)雜的推理,最終得出診斷結(jié)論。這個(gè)過(guò)程就像一個(gè)超級(jí)復(fù)雜的偵探推理游戲,需要把各種線索串聯(lián)起來(lái)找到真相。而現(xiàn)在,研究團(tuán)隊(duì)想要教會(huì)人工智能也能進(jìn)行這樣的醫(yī)學(xué)推理。
傳統(tǒng)的人工智能模型雖然在數(shù)學(xué)題和編程方面表現(xiàn)出色,但在醫(yī)學(xué)領(lǐng)域卻經(jīng)常"掉鏈子"。這就像一個(gè)數(shù)學(xué)天才突然要去當(dāng)醫(yī)生,雖然邏輯思維很強(qiáng),但缺乏醫(yī)學(xué)專業(yè)知識(shí)和臨床推理經(jīng)驗(yàn)。醫(yī)學(xué)領(lǐng)域的特殊性在于,它不僅需要大量準(zhǔn)確的專業(yè)知識(shí),還需要能夠像醫(yī)生一樣進(jìn)行步驟清晰的推理分析。
研究團(tuán)隊(duì)面臨的第一個(gè)挑戰(zhàn)是現(xiàn)有的醫(yī)學(xué)推理數(shù)據(jù)集規(guī)模太小,就像想要培養(yǎng)一個(gè)優(yōu)秀醫(yī)生,但只給他看了很少幾個(gè)病例。更糟糕的是,這些數(shù)據(jù)集通常只來(lái)自單一的"老師"模型,知識(shí)面相對(duì)狹窄。第二個(gè)挑戰(zhàn)是不知道到底應(yīng)該讓模型學(xué)習(xí)詳細(xì)的推理過(guò)程,還是只學(xué)習(xí)簡(jiǎn)潔的答案總結(jié)。詳細(xì)推理就像醫(yī)生詳細(xì)解釋每一步診斷思路,而簡(jiǎn)潔總結(jié)則像醫(yī)生直接告訴你結(jié)論。
為了解決這些問(wèn)題,研究團(tuán)隊(duì)構(gòu)建了ReasonMed數(shù)據(jù)集,這是目前開(kāi)源領(lǐng)域最大的醫(yī)學(xué)推理數(shù)據(jù)集,包含37萬(wàn)個(gè)高質(zhì)量樣本。這些樣本的來(lái)源非常有趣,團(tuán)隊(duì)采用了"三個(gè)臭皮匠,勝過(guò)諸葛亮"的策略,讓三個(gè)不同的人工智能模型協(xié)同工作。
具體來(lái)說(shuō),他們選擇了三個(gè)各有特長(zhǎng)的模型作為"智囊團(tuán)":通用能力強(qiáng)大的Qwen-2.5-72B、另一個(gè)通用模型DeepSeek-R1-Distill-Llama-70B,以及專門針對(duì)醫(yī)學(xué)優(yōu)化的HuatuoGPT-o1-70B。這就像組建一個(gè)醫(yī)療專家小組,有全科醫(yī)生也有專科醫(yī)生,每個(gè)人都能貢獻(xiàn)自己的專業(yè)見(jiàn)解。
為了讓這三個(gè)模型產(chǎn)生多樣化的推理路徑,研究團(tuán)隊(duì)巧妙地調(diào)整了它們的"創(chuàng)造性參數(shù)"(溫度設(shè)置為0.7、0.9和1.0),這就像給每個(gè)專家設(shè)定不同的思考風(fēng)格,有的保守穩(wěn)重,有的活躍創(chuàng)新。通過(guò)這種方式,他們總共生成了175萬(wàn)條推理路徑,這個(gè)數(shù)量相當(dāng)驚人。
然而,數(shù)量多不代表質(zhì)量高。研究團(tuán)隊(duì)深知"寧要仙桃一個(gè),不要爛杏一筐"的道理,因此設(shè)計(jì)了一套嚴(yán)格的質(zhì)量控制體系。他們首先讓一個(gè)"驗(yàn)證員"模型檢查每條推理路徑是否正確,就像讓一位資深醫(yī)生審查年輕醫(yī)生的診斷報(bào)告。
基于驗(yàn)證結(jié)果,團(tuán)隊(duì)將所有問(wèn)題分為三個(gè)難度等級(jí),這個(gè)分類方法很有創(chuàng)意。簡(jiǎn)單問(wèn)題(有5條以上正確推理路徑)就像常見(jiàn)感冒,大部分醫(yī)生都能正確診斷。中等難度問(wèn)題(有2-4條正確路徑)像是需要仔細(xì)分析的疑難病例。困難問(wèn)題(少于2條正確路徑)則像是罕見(jiàn)疾病,需要頂尖專家出馬。
針對(duì)這三種難度,團(tuán)隊(duì)設(shè)計(jì)了不同的處理策略。對(duì)于簡(jiǎn)單問(wèn)題,他們使用"質(zhì)量排序員"選擇最好的兩條推理路徑,就像從多個(gè)正確答案中挑選最優(yōu)秀的。對(duì)于中等難度問(wèn)題,他們不僅選擇最佳路徑,還使用"錯(cuò)誤修正員"來(lái)完善這些推理過(guò)程。這個(gè)修正員能夠識(shí)別推理中的薄弱環(huán)節(jié)并進(jìn)行改進(jìn),就像一位經(jīng)驗(yàn)豐富的醫(yī)生指導(dǎo)年輕醫(yī)生完善診斷思路。
最有趣的是對(duì)困難問(wèn)題的處理。當(dāng)發(fā)現(xiàn)一個(gè)問(wèn)題連多個(gè)專業(yè)模型都答不好時(shí),團(tuán)隊(duì)直接動(dòng)用了當(dāng)前最強(qiáng)大的GPT-o1模型,讓它按照標(biāo)準(zhǔn)的六步推理流程重新生成高質(zhì)量答案。這就像遇到疑難雜癥時(shí),直接請(qǐng)教醫(yī)學(xué)界的頂級(jí)權(quán)威。
通過(guò)這套精密的篩選和優(yōu)化流程,175萬(wàn)條原始推理路徑最終被精煉為37萬(wàn)個(gè)高質(zhì)量樣本。這個(gè)過(guò)程就像從沙子里淘金,雖然費(fèi)時(shí)費(fèi)力,但最終得到的都是真金白銀。
更重要的是,每個(gè)最終樣本都包含兩種形式的內(nèi)容:詳細(xì)的多步驟推理過(guò)程和簡(jiǎn)潔的答案總結(jié)。詳細(xì)推理就像醫(yī)生完整的診斷思路,包括"重新理解問(wèn)題、分析關(guān)鍵臨床信息、評(píng)估各個(gè)選項(xiàng)、系統(tǒng)性排除錯(cuò)誤答案、重新評(píng)估剩余選項(xiàng)、給出最終答案和解釋"這六個(gè)步驟。簡(jiǎn)潔總結(jié)則像醫(yī)生最后告訴患者的簡(jiǎn)明結(jié)論。
為了驗(yàn)證數(shù)據(jù)集質(zhì)量,研究團(tuán)隊(duì)進(jìn)行了嚴(yán)格的對(duì)比測(cè)試。他們讓GPT-4o對(duì)隨機(jī)抽取的樣本進(jìn)行評(píng)分,結(jié)果顯示ReasonMed的平均得分達(dá)到8.45分(滿分10分),顯著超過(guò)了其他同類數(shù)據(jù)集的8.03分和8.18分。這就像一個(gè)學(xué)生的考試成績(jī)明顯超過(guò)同班同學(xué),證明了學(xué)習(xí)質(zhì)量的優(yōu)秀。
接下來(lái),研究團(tuán)隊(duì)想要回答一個(gè)關(guān)鍵問(wèn)題:到底應(yīng)該讓人工智能學(xué)習(xí)詳細(xì)的推理過(guò)程,還是簡(jiǎn)潔的答案總結(jié),或者兩者結(jié)合?為了找到答案,他們?cè)O(shè)計(jì)了一個(gè)巧妙的實(shí)驗(yàn)。
他們使用開(kāi)源的Qwen2.5-7B模型作為基礎(chǔ),分別訓(xùn)練了三個(gè)版本。第一個(gè)版本CoTMed-7B專門學(xué)習(xí)詳細(xì)的推理過(guò)程,第二個(gè)版本ResponseMed-7B只學(xué)習(xí)簡(jiǎn)潔的答案總結(jié),第三個(gè)版本ReasonMed-7B則同時(shí)學(xué)習(xí)兩種內(nèi)容。這就像培養(yǎng)三種不同風(fēng)格的醫(yī)生:詳細(xì)派、簡(jiǎn)潔派和綜合派。
訓(xùn)練過(guò)程采用了全模型微調(diào)策略,在16塊H20 GPU上進(jìn)行了3個(gè)訓(xùn)練周期。有趣的是,ResponseMed只需要9小時(shí)就能完成訓(xùn)練,而CoTMed和ReasonMed分別需要25小時(shí)和28小時(shí)。這個(gè)時(shí)間差異很好理解,就像背誦詩(shī)詞的簡(jiǎn)短版本比背誦詳細(xì)注釋版本要快得多。
實(shí)驗(yàn)結(jié)果令人印象深刻。在多個(gè)權(quán)威醫(yī)學(xué)問(wèn)答基準(zhǔn)測(cè)試中,ReasonMed-7B取得了最高的總體準(zhǔn)確率69.6%,超過(guò)了CoTMed-7B的69.1%和ResponseMed-7B的67.0%。更令人驚訝的是,這個(gè)只有70億參數(shù)的小模型竟然在某些測(cè)試中超越了700億參數(shù)的大型模型。
具體來(lái)看,在MedQA測(cè)試中,ReasonMed-7B達(dá)到66.9%的準(zhǔn)確率,在MedMCQA中達(dá)到65.1%,在PubMedQA中更是達(dá)到了82.0%的優(yōu)異成績(jī)。這就像一個(gè)醫(yī)學(xué)院的本科生在某些專業(yè)考試中超過(guò)了博士生,確實(shí)令人刮目相看。
更有趣的發(fā)現(xiàn)是關(guān)于訓(xùn)練時(shí)間的影響。研究團(tuán)隊(duì)發(fā)現(xiàn),在訓(xùn)練初期(1個(gè)訓(xùn)練周期),CoTMed-7B的表現(xiàn)最好,達(dá)到67.8%的準(zhǔn)確率。但隨著訓(xùn)練時(shí)間增加到3個(gè)周期,ReasonMed-7B逐漸超越了CoTMed-7B。這個(gè)現(xiàn)象很有啟發(fā)性,說(shuō)明學(xué)習(xí)詳細(xì)推理和簡(jiǎn)潔總結(jié)的結(jié)合需要更多時(shí)間才能發(fā)揮優(yōu)勢(shì),就像學(xué)醫(yī)需要時(shí)間來(lái)融會(huì)貫通理論知識(shí)和實(shí)踐技能。
研究團(tuán)隊(duì)還分析了不同模型的輸出長(zhǎng)度。CoTMed-7B平均產(chǎn)生555個(gè)詞匯,ReasonMed-7B產(chǎn)生626個(gè)詞匯,而ResponseMed-7B只產(chǎn)生225個(gè)詞匯。這就像不同風(fēng)格的醫(yī)生,有的喜歡詳細(xì)解釋,有的言簡(jiǎn)意賅。雖然ResponseMed-7B輸出最簡(jiǎn)潔,但仍然在準(zhǔn)確性上超過(guò)了一些更大的模型,這說(shuō)明數(shù)據(jù)質(zhì)量的重要性超過(guò)了模型規(guī)模。
為了驗(yàn)證模型的真正實(shí)力,研究團(tuán)隊(duì)將ReasonMed-7B與其他知名的生物醫(yī)學(xué)模型進(jìn)行了全面比較。結(jié)果顯示,ReasonMed-7B在總體準(zhǔn)確率上超過(guò)了BioMistral-7B(48.9%)、Llama3-OpenBioLLM-8B(62.9%)、HuatuoGPT-o1-7B(64.4%)等同等規(guī)模的競(jìng)爭(zhēng)對(duì)手,甚至在某些測(cè)試中超越了更大規(guī)模的模型。
特別值得一提的是,在PubMedQA測(cè)試中,ReasonMed-7B以82.0%的成績(jī)超過(guò)了LLaMA3.1-70B的77.4%,這個(gè)70億參數(shù)的小模型竟然打敗了700億參數(shù)的巨型模型,充分證明了高質(zhì)量數(shù)據(jù)和精心設(shè)計(jì)的訓(xùn)練策略的威力。
這項(xiàng)研究的創(chuàng)新之處不僅在于數(shù)據(jù)集的規(guī)模,更在于構(gòu)建方法的巧思。傳統(tǒng)的數(shù)據(jù)集構(gòu)建通常依賴單一模型或簡(jiǎn)單的數(shù)據(jù)收集,而ReasonMed采用了多智能體協(xié)作的方式,就像組建一個(gè)多學(xué)科醫(yī)療團(tuán)隊(duì)來(lái)診斷復(fù)雜疾病。這種方法不僅提高了數(shù)據(jù)的多樣性,還確保了推理路徑的質(zhì)量。
多智能體驗(yàn)證和優(yōu)化機(jī)制也是一大亮點(diǎn)。研究團(tuán)隊(duì)設(shè)計(jì)的驗(yàn)證員能夠檢查推理路徑的正確性,質(zhì)量排序員能夠選擇最優(yōu)路徑,錯(cuò)誤修正員能夠改進(jìn)不完善的推理過(guò)程。這個(gè)完整的質(zhì)量控制流水線就像醫(yī)院的多級(jí)檢查制度,確保每個(gè)環(huán)節(jié)都有專門的"專家"把關(guān)。
從技術(shù)角度來(lái)看,這項(xiàng)研究還解答了一個(gè)重要的實(shí)際問(wèn)題:在資源有限的情況下,應(yīng)該選擇詳細(xì)推理還是簡(jiǎn)潔總結(jié)?實(shí)驗(yàn)結(jié)果表明,雖然簡(jiǎn)潔總結(jié)在計(jì)算效率上有優(yōu)勢(shì),但結(jié)合詳細(xì)推理和簡(jiǎn)潔總結(jié)的混合方法能夠獲得最佳性能。這為實(shí)際應(yīng)用提供了明確的指導(dǎo)原則。
研究團(tuán)隊(duì)在論文中也誠(chéng)實(shí)地指出了研究的局限性。由于計(jì)算資源限制,他們沒(méi)有在更大規(guī)模的模型(如100億參數(shù)以上)上測(cè)試這些方法。此外,他們的數(shù)據(jù)過(guò)濾和質(zhì)量評(píng)估過(guò)程主要依賴其他大型語(yǔ)言模型,這些模型本身可能存在偏見(jiàn)或系統(tǒng)性錯(cuò)誤。
盡管存在這些局限性,這項(xiàng)研究的意義依然重大。它不僅為醫(yī)學(xué)人工智能領(lǐng)域提供了迄今為止最大的開(kāi)源推理數(shù)據(jù)集,還證明了通過(guò)精心設(shè)計(jì)的數(shù)據(jù)構(gòu)建和訓(xùn)練策略,較小的模型也能達(dá)到令人印象深刻的性能。這對(duì)于資源有限的研究機(jī)構(gòu)和醫(yī)療機(jī)構(gòu)來(lái)說(shuō)是個(gè)好消息,他們不需要巨額投資就能獲得實(shí)用的醫(yī)學(xué)AI助手。
從更宏觀的角度來(lái)看,這項(xiàng)研究代表了醫(yī)學(xué)人工智能發(fā)展的一個(gè)重要里程碑。它證明了在知識(shí)密集型領(lǐng)域,數(shù)據(jù)質(zhì)量和推理能力的重要性可能超過(guò)模型規(guī)模。這為未來(lái)的研究指明了方向:與其盲目追求更大的模型,不如專注于構(gòu)建更高質(zhì)量的數(shù)據(jù)和更有效的訓(xùn)練方法。
當(dāng)然,研究團(tuán)隊(duì)也特別強(qiáng)調(diào)了使用這些模型時(shí)的安全考慮。他們明確指出,盡管ReasonMed-7B在測(cè)試中表現(xiàn)優(yōu)異,但仍然存在產(chǎn)生不準(zhǔn)確信息或"幻覺(jué)"的風(fēng)險(xiǎn)。因此,這些模型目前僅限于學(xué)術(shù)研究使用,不應(yīng)直接用于臨床診斷或治療決策。這種負(fù)責(zé)任的態(tài)度值得其他研究團(tuán)隊(duì)學(xué)習(xí)。
展望未來(lái),這項(xiàng)研究開(kāi)啟了許多有趣的可能性。隨著數(shù)據(jù)集的公開(kāi)發(fā)布,全世界的研究者都可以在此基礎(chǔ)上進(jìn)行進(jìn)一步的研究和改進(jìn)。我們可以期待看到更多基于ReasonMed訓(xùn)練的模型,以及針對(duì)特定醫(yī)學(xué)??苾?yōu)化的版本。
說(shuō)到底,這項(xiàng)研究最令人興奮的地方在于它展示了人工智能在醫(yī)學(xué)領(lǐng)域的巨大潛力。雖然我們距離AI醫(yī)生還有很長(zhǎng)的路要走,但ReasonMed為我們提供了一個(gè)堅(jiān)實(shí)的基礎(chǔ)。想象一下,未來(lái)的醫(yī)學(xué)生可能會(huì)有一個(gè)AI學(xué)習(xí)伙伴,幫助他們練習(xí)診斷推理;偏遠(yuǎn)地區(qū)的醫(yī)生可能會(huì)有一個(gè)AI助手,協(xié)助他們分析復(fù)雜病例;醫(yī)學(xué)研究者可能會(huì)使用AI來(lái)發(fā)現(xiàn)新的疾病模式。
這些可能性讓人充滿期待,但同時(shí)我們也要保持理性。醫(yī)學(xué)是一個(gè)關(guān)乎生命的嚴(yán)肅領(lǐng)域,任何技術(shù)進(jìn)步都必須經(jīng)過(guò)嚴(yán)格的驗(yàn)證和測(cè)試。ReasonMed的成功只是萬(wàn)里長(zhǎng)征的第一步,但這一步邁得扎實(shí)而有力。對(duì)于每一個(gè)關(guān)心醫(yī)療技術(shù)進(jìn)步的人來(lái)說(shuō),這都是一個(gè)值得慶祝的里程碑。有興趣深入了解技術(shù)細(xì)節(jié)的讀者,強(qiáng)烈建議訪問(wèn)arXiv:2506.09513v1查閱完整論文,那里有更詳細(xì)的技術(shù)實(shí)現(xiàn)和實(shí)驗(yàn)數(shù)據(jù)。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛(ài)不同專家配置,為AI推理優(yōu)化開(kāi)辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。