說到看病,我們都有這樣的經(jīng)歷:病情復(fù)雜的時(shí)候,醫(yī)生往往需要翻閱大量資料,咨詢多位專家,才能給出準(zhǔn)確的診斷。而在醫(yī)學(xué)研究領(lǐng)域,這種挑戰(zhàn)更加嚴(yán)峻——研究人員需要在海量的醫(yī)學(xué)文獻(xiàn)中尋找線索,把看似毫不相關(guān)的信息串聯(lián)起來,最終解開醫(yī)學(xué)謎題。
這項(xiàng)由螞蟻集團(tuán)AI團(tuán)隊(duì)主導(dǎo),聯(lián)合哈爾濱工業(yè)大學(xué)共同完成的突破性研究,于2025年1月發(fā)表在arXiv預(yù)印本平臺(tái)上。研究團(tuán)隊(duì)的16位成員,包括第一作者俞愛靈和通訊作者姚嵐等專家,開發(fā)出了一個(gè)名為MedResearcher-R1的醫(yī)學(xué)深度研究AI系統(tǒng)。有興趣深入了解的讀者可以通過論文編號arXiv:2508.14880v3獲取完整論文,代碼和數(shù)據(jù)集也在AQ-MedAI/MedResearcher-R1項(xiàng)目中開源。
要理解這項(xiàng)研究的價(jià)值,我們可以把醫(yī)學(xué)研究比作破案。當(dāng)醫(yī)生遇到一個(gè)罕見病例時(shí),就像偵探面對一樁撲朔迷離的案件。傳統(tǒng)的搜索工具就像是普通的信息收集員,只能提供一些表面的線索。而MedResearcher-R1則像是一個(gè)經(jīng)驗(yàn)豐富的老偵探,不僅能找到所有相關(guān)線索,還能將看似毫不相關(guān)的信息巧妙連接,最終揭開醫(yī)學(xué)謎題的真相。
最讓人驚嘆的是,這個(gè)AI系統(tǒng)在專門測試醫(yī)學(xué)深度研究能力的MedBrowseComp基準(zhǔn)測試中,取得了27.5分(滿分50分)的成績,超過了OpenAI最先進(jìn)的o3深度研究系統(tǒng)的25.5分,甚至比谷歌Gemini-2.5-Pro的25分還要高。更重要的是,雖然這個(gè)系統(tǒng)專門針對醫(yī)學(xué)領(lǐng)域進(jìn)行了優(yōu)化,但它在通用任務(wù)上的表現(xiàn)依然出色,在GAIA通用助手測試中得到53.4分,與專業(yè)的通用AI系統(tǒng)不相上下。
這項(xiàng)研究的核心突破在于解決了兩個(gè)關(guān)鍵問題。第一個(gè)問題可以比作"知識密度不夠"。以前的AI系統(tǒng)就像是剛?cè)胄械膶?shí)習(xí)醫(yī)生,雖然掌握了基本醫(yī)學(xué)知識,但在面對罕見疾病或復(fù)雜病例時(shí),往往缺乏足夠深入的專業(yè)知識儲(chǔ)備。第二個(gè)問題則是"工具不夠?qū)I(yè)"。傳統(tǒng)的AI系統(tǒng)依賴普通的搜索引擎,就像讓偵探只能用普通人的調(diào)查方法破案,無法獲取專業(yè)的法醫(yī)證據(jù)或警方數(shù)據(jù)庫信息。
為了解決這些問題,研究團(tuán)隊(duì)設(shè)計(jì)了一套全新的訓(xùn)練方法。他們從3000多萬篇醫(yī)學(xué)論文中提取出那些極其罕見的醫(yī)學(xué)實(shí)體,這些實(shí)體的出現(xiàn)頻率低于百萬分之一。然后,他們圍繞這些罕見實(shí)體構(gòu)建知識圖譜,專門尋找最長的推理鏈條來生成復(fù)雜的多步驟問題。這就像是專門設(shè)計(jì)一些需要多個(gè)線索才能破解的疑難案件,讓AI在訓(xùn)練過程中學(xué)會(huì)處理最復(fù)雜的醫(yī)學(xué)推理任務(wù)。
舉個(gè)具體例子來說明這種復(fù)雜性:想象有這樣一個(gè)醫(yī)學(xué)問題——"找出這樣一種化合物:它來自一家在1990年代因企業(yè)合并而消失的瑞士公司,這種化合物被制成處方藥片,其活性成分的分子量是質(zhì)數(shù),能夠拮抗一種八肽激素受體,有三個(gè)字母的縮寫,還與澳大利亞某個(gè)越野設(shè)備公司同名,且會(huì)導(dǎo)致某個(gè)原子序數(shù)為19的元素濃度升高。"這個(gè)問題的答案是"纈沙坦",但要得出這個(gè)答案,AI需要進(jìn)行8個(gè)步驟的推理:從瑞士制藥公司歷史,到企業(yè)合并信息,再到藥物機(jī)制,最后匯總所有線索。
在工具方面,研究團(tuán)隊(duì)為AI配備了專門的"醫(yī)學(xué)偵探工具包"。除了普通的網(wǎng)絡(luò)搜索和文檔閱讀工具外,他們還開發(fā)了兩個(gè)核心的醫(yī)學(xué)專用工具。第一個(gè)是"私人醫(yī)學(xué)檢索器",它能直接訪問FDA數(shù)據(jù)庫、臨床試驗(yàn)注冊中心和同行評議的醫(yī)學(xué)出版物等權(quán)威醫(yī)學(xué)資源。這個(gè)工具在評估文檔時(shí)不僅考慮與查詢的相關(guān)性,還會(huì)評估文檔的臨床權(quán)威性,確保AI獲得的是最可靠的醫(yī)學(xué)證據(jù)。
第二個(gè)專用工具是"臨床推理引擎",它采用貝葉斯推理方法來系統(tǒng)評估多種診斷假設(shè)。當(dāng)面對一系列癥狀時(shí),這個(gè)工具會(huì)像經(jīng)驗(yàn)豐富的臨床醫(yī)生一樣,根據(jù)已有文獻(xiàn)和新獲得的證據(jù),動(dòng)態(tài)更新每種診斷的可能性。
在訓(xùn)練方法上,研究團(tuán)隊(duì)采用了他們稱為"知識錨定學(xué)習(xí)"的策略。與一些研究提倡的純強(qiáng)化學(xué)習(xí)方法不同,他們發(fā)現(xiàn)醫(yī)學(xué)任務(wù)需要先進(jìn)行監(jiān)督微調(diào),讓AI學(xué)會(huì)如何正確使用各種工具,然后再通過強(qiáng)化學(xué)習(xí)進(jìn)一步優(yōu)化決策質(zhì)量。他們還開發(fā)了"掩碼軌跡引導(dǎo)"技術(shù),通過遮蓋實(shí)體信息來創(chuàng)建結(jié)構(gòu)化腳手架,強(qiáng)迫模型學(xué)習(xí)真正的醫(yī)學(xué)推理能力,而不是簡單地記憶答案。
在強(qiáng)化學(xué)習(xí)階段,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)復(fù)合獎(jiǎng)勵(lì)系統(tǒng)。這個(gè)系統(tǒng)不僅關(guān)注答案的準(zhǔn)確性,還考慮專家偏好(通過GPT-4評估)和工具使用效率。具體來說,如果AI給出了正確答案,會(huì)得到基礎(chǔ)獎(jiǎng)勵(lì);如果其推理過程符合醫(yī)學(xué)專家的思維模式,會(huì)得到額外獎(jiǎng)勵(lì);但如果使用了過多不必要的工具,則會(huì)被扣分。這種設(shè)計(jì)確保AI不僅能給出正確答案,還能以高效、專業(yè)的方式達(dá)到目標(biāo)。
實(shí)驗(yàn)結(jié)果充分證明了這種方法的有效性。在專門測試醫(yī)學(xué)深度研究能力的基準(zhǔn)測試中,MedResearcher-R1不僅超越了現(xiàn)有的最先進(jìn)系統(tǒng),還展現(xiàn)出了卓越的推理深度。研究團(tuán)隊(duì)發(fā)現(xiàn),成功的醫(yī)學(xué)推理軌跡通常遵循"搜索→多次驗(yàn)證→綜合"的模式,其中驗(yàn)證步驟尤為關(guān)鍵。那些包含多輪驗(yàn)證的訓(xùn)練實(shí)例在復(fù)雜多步推理任務(wù)中的成功率比單次驗(yàn)證方法高出34.2%。
更令人印象深刻的是,這種專門針對醫(yī)學(xué)領(lǐng)域的訓(xùn)練不僅沒有損害AI在通用任務(wù)上的表現(xiàn),反而略有提升。這說明醫(yī)學(xué)領(lǐng)域嚴(yán)格的推理要求——精確的術(shù)語使用、仔細(xì)的證據(jù)評估和系統(tǒng)的假設(shè)檢驗(yàn)——實(shí)際上為AI提供了更優(yōu)質(zhì)的訓(xùn)練信號,幫助它發(fā)展出更強(qiáng)大的通用推理能力。
研究團(tuán)隊(duì)還進(jìn)行了深入的定性分析,發(fā)現(xiàn)AI系統(tǒng)能夠執(zhí)行與人類醫(yī)學(xué)專家相似的系統(tǒng)性證據(jù)收集策略。例如,在處理復(fù)雜查詢時(shí),AI會(huì)先進(jìn)行廣泛搜索以識別相關(guān)資源,然后驗(yàn)證信息在多個(gè)權(quán)威醫(yī)學(xué)數(shù)據(jù)庫中的一致性,接著進(jìn)行針對性后續(xù)查詢以解決歧義,最后綜合驗(yàn)證后的發(fā)現(xiàn)給出答案。這種多輪驗(yàn)證確保了答案的唯一性和事實(shí)基礎(chǔ),這在需要高準(zhǔn)確度的醫(yī)學(xué)診斷等領(lǐng)域尤為重要。
研究團(tuán)隊(duì)構(gòu)建的訓(xùn)練數(shù)據(jù)集覆蓋了12個(gè)醫(yī)學(xué)專業(yè),生成了2100多個(gè)多樣化的推理軌跡,平均每個(gè)軌跡需要4.2次工具交互。這些數(shù)據(jù)的復(fù)雜性遠(yuǎn)超以往的醫(yī)學(xué)AI訓(xùn)練數(shù)據(jù),為AI提供了真正具有挑戰(zhàn)性的學(xué)習(xí)材料。
值得一提的是,這項(xiàng)研究挑戰(zhàn)了領(lǐng)域特定AI必須犧牲通用能力的傳統(tǒng)觀念。相反,研究結(jié)果表明,醫(yī)學(xué)任務(wù)嚴(yán)格的推理要求實(shí)際上能夠提供優(yōu)質(zhì)的訓(xùn)練信號,幫助AI發(fā)展出更強(qiáng)的通用推理能力。這種發(fā)現(xiàn)為未來的AI系統(tǒng)設(shè)計(jì)提供了重要啟示:專業(yè)化訓(xùn)練可能是提高而非限制AI通用能力的有效途徑。
從技術(shù)角度來看,這項(xiàng)研究的創(chuàng)新不僅在于單一技術(shù)突破,而是在整個(gè)系統(tǒng)架構(gòu)、訓(xùn)練數(shù)據(jù)構(gòu)建和學(xué)習(xí)算法方面的全方位創(chuàng)新。研究團(tuán)隊(duì)將代碼、數(shù)據(jù)集和訓(xùn)練模型全部開源,為醫(yī)學(xué)AI領(lǐng)域的后續(xù)研究奠定了堅(jiān)實(shí)基礎(chǔ)。
這項(xiàng)研究對醫(yī)學(xué)研究領(lǐng)域的意義不言而喻。傳統(tǒng)上,醫(yī)學(xué)研究中的文獻(xiàn)綜述和證據(jù)綜合工作需要研究人員花費(fèi)大量時(shí)間手動(dòng)搜索和分析文獻(xiàn)?,F(xiàn)在,有了MedResearcher-R1這樣的AI助手,研究人員可以更高效地進(jìn)行假設(shè)生成、證據(jù)收集和知識綜合,從而加速醫(yī)學(xué)發(fā)現(xiàn)的進(jìn)程。
當(dāng)然,這項(xiàng)研究也面臨一些局限性和未來挑戰(zhàn)。研究團(tuán)隊(duì)指出,雖然系統(tǒng)在處理文本信息方面表現(xiàn)出色,但醫(yī)學(xué)研究往往還涉及圖像、基因組數(shù)據(jù)和電子健康記錄等多模態(tài)信息。因此,未來的發(fā)展方向包括集成更多類型的醫(yī)學(xué)工具,如放射學(xué)圖像查看器、病理切片分析器和基因組數(shù)據(jù)源等。
安全性和可靠性也是關(guān)鍵考慮因素。在醫(yī)學(xué)這樣的高風(fēng)險(xiǎn)領(lǐng)域,AI系統(tǒng)必須具備強(qiáng)大的幻覺檢測能力、不確定性評估機(jī)制,以及適用于高風(fēng)險(xiǎn)場景的故障安全機(jī)制。研究團(tuán)隊(duì)建議在系統(tǒng)開放部署之前,需要進(jìn)行系統(tǒng)性的安全和可靠性研究。
此外,人機(jī)協(xié)作也是未來發(fā)展的重要方向。通過整合來自醫(yī)學(xué)專業(yè)人士的人在環(huán)反饋來指導(dǎo)AI行為,開發(fā)專家評估和標(biāo)注界面,可以進(jìn)一步提高推理質(zhì)量、工具使用效果和AI輸出的臨床相關(guān)性。
說到底,這項(xiàng)研究代表了AI在專業(yè)領(lǐng)域應(yīng)用的重要里程碑。它證明了通過精心設(shè)計(jì)的訓(xùn)練數(shù)據(jù)、專業(yè)工具和學(xué)習(xí)算法,較小的開源模型能夠在特定領(lǐng)域超越更大的專有系統(tǒng)。這不僅為醫(yī)學(xué)AI的發(fā)展指明了方向,也為其他專業(yè)領(lǐng)域的AI應(yīng)用提供了寶貴的經(jīng)驗(yàn)和啟示。
歸根結(jié)底,MedResearcher-R1的成功在于它真正理解了醫(yī)學(xué)研究的本質(zhì):不是簡單的信息檢索,而是需要深度推理、系統(tǒng)驗(yàn)證和精確綜合的復(fù)雜過程。通過將這些人類專家的思維模式融入AI系統(tǒng),研究團(tuán)隊(duì)創(chuàng)造了一個(gè)真正能夠協(xié)助醫(yī)學(xué)發(fā)現(xiàn)的智能助手。雖然目前它還不能完全替代人類醫(yī)學(xué)專家,但它已經(jīng)展現(xiàn)出成為強(qiáng)大研究伙伴的潛力,有望在未來的醫(yī)學(xué)研究中發(fā)揮越來越重要的作用。
Q&A
Q1:MedResearcher-R1是什么?它和普通醫(yī)學(xué)AI有什么不同?
A:MedResearcher-R1是螞蟻集團(tuán)開發(fā)的醫(yī)學(xué)深度研究AI系統(tǒng),就像一個(gè)專業(yè)的醫(yī)學(xué)偵探。與普通醫(yī)學(xué)AI不同,它專門針對復(fù)雜的醫(yī)學(xué)推理任務(wù)進(jìn)行了優(yōu)化,能夠處理罕見疾病和復(fù)雜病例,還配備了專門訪問FDA數(shù)據(jù)庫等權(quán)威醫(yī)學(xué)資源的工具。在專業(yè)測試中,它的表現(xiàn)甚至超過了OpenAI和谷歌的最先進(jìn)系統(tǒng)。
Q2:為什么MedResearcher-R1能夠處理那些連人類專家都覺得困難的醫(yī)學(xué)問題?
A:關(guān)鍵在于它的訓(xùn)練方式和工具配置。研究團(tuán)隊(duì)專門用那些極其罕見的醫(yī)學(xué)實(shí)體(出現(xiàn)頻率低于百萬分之一)構(gòu)建訓(xùn)練數(shù)據(jù),讓AI學(xué)會(huì)處理最復(fù)雜的多步推理。同時(shí),它還配備了能直接訪問權(quán)威醫(yī)學(xué)數(shù)據(jù)庫的專用工具,就像給偵探配備了專業(yè)的調(diào)查設(shè)備,能獲取普通搜索工具找不到的專業(yè)信息。
Q3:這種專門針對醫(yī)學(xué)的AI訓(xùn)練會(huì)不會(huì)影響它處理其他問題的能力?
A:令人驚訝的是,不僅沒有影響,反而略有提升。研究發(fā)現(xiàn),醫(yī)學(xué)領(lǐng)域嚴(yán)格的推理要求——比如精確用詞、仔細(xì)驗(yàn)證證據(jù)、系統(tǒng)檢驗(yàn)假設(shè)——實(shí)際上為AI提供了更優(yōu)質(zhì)的訓(xùn)練信號。這種高標(biāo)準(zhǔn)的訓(xùn)練幫助AI發(fā)展出更強(qiáng)的通用推理能力,在其他領(lǐng)域的測試中表現(xiàn)也很出色。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價(jià)值。