這項(xiàng)由阿里巴巴達(dá)摩院與帝國(guó)理工學(xué)院、清華大學(xué)、湖畔實(shí)驗(yàn)室聯(lián)合開(kāi)展的研究發(fā)表于2025年9月,論文題為《M3Ret: Unleashing Zero-shot Multimodal Medical Image Retrieval via Self-Supervision》。有興趣深入了解的讀者可以通過(guò)arXiv:2509.01360v1訪問(wèn)完整論文。
醫(yī)學(xué)影像檢索就像醫(yī)生的"超級(jí)搜索引擎"。當(dāng)醫(yī)生看到一張X光片顯示肺部有陰影時(shí),他們希望能快速找到類(lèi)似的病例來(lái)輔助診斷。然而,現(xiàn)有的醫(yī)學(xué)影像搜索系統(tǒng)就像只會(huì)說(shuō)一種語(yǔ)言的翻譯官——專(zhuān)門(mén)處理X光的系統(tǒng)看不懂CT掃描,處理超聲的系統(tǒng)無(wú)法理解內(nèi)鏡視頻。這種各自為政的狀況讓醫(yī)生們?cè)诿鎸?duì)不同類(lèi)型影像時(shí)必須使用多套系統(tǒng),既麻煩又低效。
現(xiàn)在,阿里巴巴達(dá)摩院的研究團(tuán)隊(duì)開(kāi)發(fā)出了一個(gè)真正的"萬(wàn)能翻譯機(jī)"——M3Ret系統(tǒng)。這個(gè)系統(tǒng)就像一位博學(xué)的醫(yī)學(xué)專(zhuān)家,不僅能看懂2D的X光片和超聲圖像,還能理解3D的CT掃描和彩色的內(nèi)鏡視頻。更神奇的是,它甚至能在從未見(jiàn)過(guò)核磁共振(MRI)影像的情況下,準(zhǔn)確地檢索MRI圖像。這就好比一個(gè)從未學(xué)過(guò)法語(yǔ)的人,卻能通過(guò)對(duì)其他歐洲語(yǔ)言的深度理解來(lái)翻譯法語(yǔ)文檔。
研究團(tuán)隊(duì)收集了超過(guò)86萬(wàn)張來(lái)自真實(shí)醫(yī)院的影像數(shù)據(jù),包括X光片、超聲圖像、內(nèi)鏡視頻和CT掃描。這個(gè)數(shù)據(jù)規(guī)模相當(dāng)于一個(gè)大型三甲醫(yī)院十年積累的影像資料。與以往需要醫(yī)生標(biāo)注每張圖片內(nèi)容的方法不同,M3Ret采用了自監(jiān)督學(xué)習(xí)技術(shù)——就像讓系統(tǒng)自己通過(guò)大量觀察來(lái)理解不同影像之間的共同規(guī)律,而不需要人工逐一教授。
在實(shí)際測(cè)試中,M3Ret的表現(xiàn)令人驚艷。在胸部X光影像檢索任務(wù)中,它的準(zhǔn)確率達(dá)到了34.5%,超越了目前最強(qiáng)的基于文本監(jiān)督的BMC-CLIP系統(tǒng)。在超聲影像檢索中,準(zhǔn)確率更是達(dá)到95.5%。要知道,BMC-CLIP系統(tǒng)使用了2400萬(wàn)張標(biāo)注好的醫(yī)學(xué)影像文本對(duì)進(jìn)行訓(xùn)練,而M3Ret僅僅通過(guò)視覺(jué)信息就達(dá)到了更好的效果。
一、統(tǒng)一多模態(tài)醫(yī)學(xué)影像的技術(shù)突破
傳統(tǒng)的醫(yī)學(xué)影像處理系統(tǒng)就像專(zhuān)門(mén)的工具箱——X光有X光的工具,CT有CT的設(shè)備,每種影像都需要獨(dú)立的處理系統(tǒng)。這種設(shè)計(jì)雖然專(zhuān)業(yè),但就像一個(gè)木匠需要攜帶十幾個(gè)不同的工具箱一樣麻煩。M3Ret的創(chuàng)新在于設(shè)計(jì)了一個(gè)"萬(wàn)能工具",能夠處理所有類(lèi)型的醫(yī)學(xué)影像。
這個(gè)統(tǒng)一處理的核心技術(shù)叫做"統(tǒng)一切片化"。簡(jiǎn)單來(lái)說(shuō),就是把不同類(lèi)型的影像都切成標(biāo)準(zhǔn)大小的"小方塊",然后用同一套算法來(lái)理解這些小方塊。對(duì)于2D的X光片,系統(tǒng)會(huì)把256×256像素的圖像切成16×16像素的小塊,同時(shí)在時(shí)間維度上復(fù)制4層,形成一個(gè)標(biāo)準(zhǔn)的4D數(shù)據(jù)塊。對(duì)于3D的CT掃描,系統(tǒng)會(huì)把完整的掃描切成64個(gè)切片,每個(gè)切片再切成小塊。對(duì)于內(nèi)鏡視頻,系統(tǒng)會(huì)隨機(jī)選取16幀畫(huà)面,每幀同樣切成小塊。
這種做法就像把不同語(yǔ)言的文字都轉(zhuǎn)換成相同格式的密碼——雖然原始內(nèi)容不同,但經(jīng)過(guò)轉(zhuǎn)換后都能用同一套解碼方法來(lái)理解。通過(guò)這種統(tǒng)一的數(shù)據(jù)表示方法,一個(gè)神經(jīng)網(wǎng)絡(luò)就能同時(shí)處理所有類(lèi)型的醫(yī)學(xué)影像,而不需要為每種影像類(lèi)型設(shè)計(jì)專(zhuān)門(mén)的網(wǎng)絡(luò)結(jié)構(gòu)。
系統(tǒng)采用了兩種自監(jiān)督學(xué)習(xí)方法:遮蔽自編碼器(MAE)和對(duì)比學(xué)習(xí)(SimDINO)。遮蔽自編碼器的工作原理就像拼圖游戲——系統(tǒng)會(huì)故意遮住影像的一部分,然后嘗試根據(jù)看到的部分來(lái)推測(cè)被遮住的內(nèi)容。通過(guò)這種"填空"練習(xí),系統(tǒng)逐漸學(xué)會(huì)理解醫(yī)學(xué)影像的內(nèi)在規(guī)律和結(jié)構(gòu)特征。
對(duì)比學(xué)習(xí)則像是"找不同"游戲的升級(jí)版。系統(tǒng)會(huì)對(duì)同一張影像進(jìn)行不同的變換,比如旋轉(zhuǎn)、縮放或調(diào)整亮度,然后學(xué)習(xí)識(shí)別這些變換后的圖像其實(shí)來(lái)自同一個(gè)原始影像。同時(shí),系統(tǒng)還要學(xué)會(huì)區(qū)分不同的影像。通過(guò)這種方式,系統(tǒng)能夠提取出影像中最本質(zhì)、最穩(wěn)定的特征信息。
二、跨模態(tài)檢索能力的驚人表現(xiàn)
M3Ret最令人印象深刻的能力是跨模態(tài)檢索——用一種類(lèi)型的影像去搜索另一種類(lèi)型的相關(guān)影像。這就像用中文書(shū)的內(nèi)容去搜索相關(guān)的英文書(shū)籍,需要系統(tǒng)理解不同語(yǔ)言背后的共同含義。
在CT到X光的檢索任務(wù)中,當(dāng)輸入一張顯示腹部的CT掃描時(shí),M3Ret能夠準(zhǔn)確找到相應(yīng)的腹部X光片,準(zhǔn)確率達(dá)到32.7%。更令人驚訝的是,在從未見(jiàn)過(guò)MRI影像的情況下,系統(tǒng)在CT到MRI的檢索中仍然達(dá)到了42.4%的準(zhǔn)確率。這相當(dāng)于一個(gè)從未學(xué)過(guò)意大利語(yǔ)的人,僅憑對(duì)西班牙語(yǔ)和法語(yǔ)的了解就能理解意大利語(yǔ)文章的主要內(nèi)容。
這種跨模態(tài)能力的實(shí)現(xiàn)依賴(lài)于系統(tǒng)對(duì)人體解剖結(jié)構(gòu)的深度理解。雖然X光、CT和MRI的成像原理完全不同,但它們都在展示同一個(gè)人體的不同方面。X光顯示骨骼結(jié)構(gòu),CT展現(xiàn)內(nèi)部器官,MRI突出軟組織細(xì)節(jié),但它們描述的都是同一個(gè)解剖對(duì)象。M3Ret通過(guò)大量學(xué)習(xí),掌握了這些不同成像方式之間的內(nèi)在聯(lián)系。
在實(shí)際應(yīng)用中,這種跨模態(tài)能力意味著醫(yī)生可以用一張胸部X光片來(lái)搜索相關(guān)的胸部CT或MRI影像,為診斷提供更全面的參考信息。比如,當(dāng)急診科醫(yī)生看到一張顯示肺部異常的X光片時(shí),系統(tǒng)可以自動(dòng)找出類(lèi)似病例的CT掃描,幫助醫(yī)生更準(zhǔn)確地判斷病情嚴(yán)重程度。
三、區(qū)域異常檢索的精細(xì)化診斷
除了基礎(chǔ)的影像類(lèi)別檢索,M3Ret還能進(jìn)行更精細(xì)的區(qū)域異常檢索。這種能力就像一個(gè)經(jīng)驗(yàn)豐富的放射科醫(yī)生,不僅能識(shí)別"這是肺部影像",還能指出"左下肺葉有2厘米的結(jié)節(jié)"。
系統(tǒng)的區(qū)域異常檢索分為兩個(gè)層次。第一個(gè)層次是區(qū)域異常狀態(tài)檢索,比如識(shí)別"主動(dòng)脈正常"或"主動(dòng)脈異常"。第二個(gè)層次是更精確的病灶大小檢索,能夠識(shí)別"腹部低密度病灶,直徑20毫米"這樣的具體描述。
在區(qū)域異常狀態(tài)檢索測(cè)試中,M3Ret的準(zhǔn)確率達(dá)到5.8%,雖然聽(tīng)起來(lái)不高,但要知道這是在沒(méi)有任何區(qū)域標(biāo)注的情況下實(shí)現(xiàn)的。相比之下,使用了16萬(wàn)張帶有像素級(jí)器官和腫瘤標(biāo)注的VoCo系統(tǒng)準(zhǔn)確率僅為3.7%。這就像一個(gè)自學(xué)成才的醫(yī)生在某些診斷任務(wù)上超越了接受過(guò)專(zhuān)業(yè)培訓(xùn)的醫(yī)生。
在更困難的病灶大小檢索任務(wù)中,M3Ret的準(zhǔn)確率為1.4%,同樣超越了其他需要大量人工標(biāo)注的系統(tǒng)。這種能力對(duì)臨床診斷極其重要,因?yàn)椴≡畹拇笮≈苯佑绊懼委煼桨傅倪x擇。比如,小于1厘米的肺結(jié)節(jié)通常采用觀察隨訪,而大于3厘米的結(jié)節(jié)則可能需要立即手術(shù)。
四、系統(tǒng)性能的全面驗(yàn)證
研究團(tuán)隊(duì)在多個(gè)權(quán)威數(shù)據(jù)集上對(duì)M3Ret進(jìn)行了全面測(cè)試,就像讓一個(gè)學(xué)生參加不同科目的考試來(lái)驗(yàn)證學(xué)習(xí)效果。在胸部X光數(shù)據(jù)集ChestXray14上,M3Ret使用SimDINO方法的Top-5檢索準(zhǔn)確率達(dá)到67.4%,明顯超越了使用文本監(jiān)督的BMC-CLIP系統(tǒng)的63.1%。
在超聲影像的胎兒平面數(shù)據(jù)集上,M3Ret的表現(xiàn)更加出色,Top-5檢索準(zhǔn)確率達(dá)到99.0%,幾乎達(dá)到了完美水平。這意味著當(dāng)輸入一張?zhí)捍竽X的超聲圖像時(shí),系統(tǒng)在前5個(gè)檢索結(jié)果中幾乎總能找到正確的同類(lèi)圖像。
在內(nèi)鏡影像檢索方面,雖然M3Ret的絕對(duì)性能略低于專(zhuān)門(mén)針對(duì)內(nèi)鏡數(shù)據(jù)訓(xùn)練的系統(tǒng),但考慮到它是在多模態(tài)數(shù)據(jù)上統(tǒng)一訓(xùn)練的,這個(gè)結(jié)果已經(jīng)相當(dāng)不錯(cuò)。在Hyper Kvasir數(shù)據(jù)集上,M3Ret的Top-5檢索準(zhǔn)確率為69.0%,接近專(zhuān)業(yè)系統(tǒng)的水平。
研究還發(fā)現(xiàn),SimDINO方法在大多數(shù)任務(wù)上表現(xiàn)優(yōu)于MAE方法。這說(shuō)明對(duì)比學(xué)習(xí)更適合醫(yī)學(xué)影像的表示學(xué)習(xí),因?yàn)獒t(yī)學(xué)影像更注重不同樣本之間的細(xì)微差別,而對(duì)比學(xué)習(xí)正是專(zhuān)門(mén)用來(lái)學(xué)習(xí)這種差別的。
五、技術(shù)細(xì)節(jié)的深度解析
M3Ret的技術(shù)實(shí)現(xiàn)涉及許多精巧的設(shè)計(jì)細(xì)節(jié)。在數(shù)據(jù)預(yù)處理階段,所有影像都被調(diào)整為統(tǒng)一的256×256像素格式,然后根據(jù)不同模態(tài)進(jìn)行特殊處理。對(duì)于灰度的X光和CT影像,系統(tǒng)會(huì)將其復(fù)制成三通道格式以匹配彩色內(nèi)鏡視頻的格式。對(duì)于CT掃描,系統(tǒng)會(huì)將HU值限制在-1000到1000的范圍內(nèi),這個(gè)范圍涵蓋了從空氣到骨骼的所有人體組織密度。
在網(wǎng)絡(luò)架構(gòu)方面,M3Ret使用了Vision Transformer(ViT)作為基礎(chǔ)編碼器,這種架構(gòu)特別適合處理被切分成小塊的圖像數(shù)據(jù)。系統(tǒng)采用了3×16×16×4的切片大小,這意味著每個(gè)數(shù)據(jù)塊包含3個(gè)顏色通道、16×16個(gè)像素和4個(gè)時(shí)間或深度切片。這種切片大小是經(jīng)過(guò)大量實(shí)驗(yàn)優(yōu)化的結(jié)果,既能保留重要的細(xì)節(jié)信息,又不會(huì)讓計(jì)算負(fù)擔(dān)過(guò)重。
訓(xùn)練過(guò)程采用了精心設(shè)計(jì)的策略來(lái)處理不同模態(tài)數(shù)據(jù)的內(nèi)存需求差異。CT掃描由于包含64個(gè)切片,需要的內(nèi)存比2D影像大得多。因此,系統(tǒng)在訓(xùn)練時(shí)對(duì)CT使用較小的批次大小(16),而對(duì)其他模態(tài)使用較大的批次大小(32)。為了保證訓(xùn)練穩(wěn)定,系統(tǒng)在每個(gè)訓(xùn)練步驟中只使用一種模態(tài)的數(shù)據(jù),但會(huì)在不同步驟間輪換模態(tài)。
六、與現(xiàn)有方法的全面對(duì)比
M3Ret與現(xiàn)有醫(yī)學(xué)影像處理方法相比具有顯著優(yōu)勢(shì)。傳統(tǒng)的BMC-CLIP雖然使用了2400萬(wàn)個(gè)影像-文本對(duì)進(jìn)行訓(xùn)練,但其性能在多個(gè)任務(wù)上都被M3Ret超越。這說(shuō)明純視覺(jué)的自監(jiān)督學(xué)習(xí)在某些情況下比依賴(lài)文本標(biāo)注的方法更有效。
與專(zhuān)門(mén)的3D醫(yī)學(xué)影像方法相比,M3Ret也表現(xiàn)出色。VoCo系統(tǒng)雖然在16萬(wàn)張CT掃描上進(jìn)行了預(yù)訓(xùn)練,并使用了大量的分割標(biāo)注,但在區(qū)域異常檢索任務(wù)上仍然被M3Ret超越。CT-FM系統(tǒng)雖然使用了14.8萬(wàn)張CT掃描進(jìn)行預(yù)訓(xùn)練,但其性能也不如M3Ret。
更值得注意的是,M3Ret甚至能夠與一些使用疾病類(lèi)別標(biāo)注進(jìn)行監(jiān)督學(xué)習(xí)的方法競(jìng)爭(zhēng)。Merlin系統(tǒng)使用了600萬(wàn)個(gè)CT-電子病歷對(duì)進(jìn)行訓(xùn)練,包含豐富的疾病標(biāo)簽信息,但在某些任務(wù)上仍然被純視覺(jué)訓(xùn)練的M3Ret超越。這進(jìn)一步證明了視覺(jué)自監(jiān)督學(xué)習(xí)的強(qiáng)大潛力。
在計(jì)算效率方面,M3Ret也展現(xiàn)了良好的可擴(kuò)展性。研究團(tuán)隊(duì)測(cè)試了不同模型規(guī)模(ViT-T、ViT-S、ViT-B)和不同數(shù)據(jù)量(20%、60%、100%)對(duì)性能的影響,發(fā)現(xiàn)性能隨模型規(guī)模和數(shù)據(jù)量的增加呈現(xiàn)冪律增長(zhǎng)趨勢(shì)。這種規(guī)律性的增長(zhǎng)模式表明,通過(guò)進(jìn)一步擴(kuò)大模型和數(shù)據(jù)規(guī)模,M3Ret的性能還有很大提升空間。
七、實(shí)際應(yīng)用價(jià)值與臨床意義
M3Ret的技術(shù)突破對(duì)臨床醫(yī)療實(shí)踐具有重要意義。在實(shí)際醫(yī)療場(chǎng)景中,醫(yī)生經(jīng)常需要參考類(lèi)似病例來(lái)輔助診斷決策。傳統(tǒng)方法需要醫(yī)生手動(dòng)搜索病例數(shù)據(jù)庫(kù),不僅耗時(shí)費(fèi)力,而且容易遺漏重要信息。M3Ret能夠自動(dòng)、快速、準(zhǔn)確地找到相關(guān)病例,大大提高診斷效率。
對(duì)于教學(xué)和科研,M3Ret同樣價(jià)值巨大。醫(yī)學(xué)院學(xué)生可以通過(guò)輸入一個(gè)感興趣的病例,快速找到大量類(lèi)似案例進(jìn)行學(xué)習(xí)。科研人員可以利用M3Ret快速篩選符合特定條件的影像數(shù)據(jù),大大加快研究進(jìn)度。
系統(tǒng)的跨模態(tài)檢索能力在多學(xué)科會(huì)診中特別有用。當(dāng)胸外科醫(yī)生需要參考心臟病學(xué)專(zhuān)家的意見(jiàn)時(shí),他們可以用CT影像搜索相關(guān)的心電圖或超聲心動(dòng)圖,為綜合診斷提供更多維度的信息。這種跨模態(tài)協(xié)作能力有望推動(dòng)精準(zhǔn)醫(yī)療的發(fā)展。
在資源有限的醫(yī)療機(jī)構(gòu)中,M3Ret能夠發(fā)揮類(lèi)似"遠(yuǎn)程專(zhuān)家"的作用。基層醫(yī)院的醫(yī)生可以通過(guò)系統(tǒng)快速找到類(lèi)似病例的診斷結(jié)果和治療方案,相當(dāng)于獲得了大型醫(yī)院專(zhuān)家的經(jīng)驗(yàn)指導(dǎo)。這對(duì)提高基層醫(yī)療水平具有重要意義。
八、技術(shù)創(chuàng)新與方法論貢獻(xiàn)
M3Ret的技術(shù)創(chuàng)新不僅體現(xiàn)在實(shí)際應(yīng)用效果上,更在于其方法論的突破。傳統(tǒng)觀點(diǎn)認(rèn)為,不同模態(tài)的醫(yī)學(xué)影像差異太大,必須使用專(zhuān)門(mén)的網(wǎng)絡(luò)架構(gòu)和訓(xùn)練策略。M3Ret證明了通過(guò)合適的數(shù)據(jù)表示和訓(xùn)練方法,單一的統(tǒng)一模型確實(shí)可以處理多種模態(tài)的數(shù)據(jù)。
統(tǒng)一切片化方法的提出解決了多模態(tài)數(shù)據(jù)表示的根本問(wèn)題。這種方法不僅適用于醫(yī)學(xué)影像,對(duì)其他需要處理多模態(tài)數(shù)據(jù)的領(lǐng)域也有重要啟發(fā)意義。比如,在自動(dòng)駕駛領(lǐng)域,可能需要同時(shí)處理攝像頭圖像、激光雷達(dá)點(diǎn)云和毫米波雷達(dá)數(shù)據(jù)。
自監(jiān)督學(xué)習(xí)在醫(yī)學(xué)影像領(lǐng)域的成功應(yīng)用也具有重要意義。醫(yī)學(xué)影像標(biāo)注成本極高,需要專(zhuān)業(yè)醫(yī)生花費(fèi)大量時(shí)間。M3Ret證明了即使不依賴(lài)這些昂貴的標(biāo)注,純視覺(jué)的自監(jiān)督學(xué)習(xí)也能達(dá)到優(yōu)秀的效果。這為醫(yī)學(xué)AI的規(guī)?;瘧?yīng)用掃清了重要障礙。
系統(tǒng)展現(xiàn)出的跨模態(tài)泛化能力特別令人興趣。在從未見(jiàn)過(guò)MRI數(shù)據(jù)的情況下能夠處理MRI檢索任務(wù),說(shuō)明系統(tǒng)學(xué)到了醫(yī)學(xué)影像的通用表示,而不是簡(jiǎn)單的模態(tài)特定特征。這種泛化能力為處理新型成像技術(shù)提供了可能性。
九、局限性與未來(lái)發(fā)展方向
盡管M3Ret取得了顯著成果,但研究團(tuán)隊(duì)也坦誠(chéng)地指出了當(dāng)前系統(tǒng)的局限性。目前的訓(xùn)練數(shù)據(jù)主要覆蓋了主流的醫(yī)學(xué)影像模態(tài),對(duì)于PET、SPECT、功能性MRI等特殊成像技術(shù)還沒(méi)有涉及。這些成像技術(shù)有其獨(dú)特的特點(diǎn)和臨床價(jià)值,未來(lái)需要進(jìn)一步擴(kuò)展數(shù)據(jù)覆蓋范圍。
在技術(shù)層面,不同采集協(xié)議和設(shè)備參數(shù)可能導(dǎo)致影像質(zhì)量差異,這可能影響系統(tǒng)的泛化性能。比如,不同劑量的CT掃描或不同磁場(chǎng)強(qiáng)度的MRI可能產(chǎn)生分布偏移。解決這些問(wèn)題需要更加魯棒的訓(xùn)練策略和數(shù)據(jù)增強(qiáng)方法。
系統(tǒng)目前主要關(guān)注影像的整體特征和區(qū)域異常,對(duì)于更細(xì)粒度的病理特征識(shí)別還有提升空間。比如,識(shí)別肺結(jié)節(jié)的具體形態(tài)特征(毛刺狀、分葉狀等)或判斷骨折的類(lèi)型(壓縮性、粉碎性等)還需要進(jìn)一步改進(jìn)。
在實(shí)際部署方面,不同醫(yī)院的影像設(shè)備和協(xié)議可能存在差異,系統(tǒng)需要具備更強(qiáng)的適應(yīng)性。此外,醫(yī)療數(shù)據(jù)的隱私保護(hù)和法規(guī)遵循也是實(shí)際應(yīng)用中必須考慮的重要因素。
十、對(duì)醫(yī)學(xué)AI發(fā)展的啟示意義
M3Ret的成功對(duì)整個(gè)醫(yī)學(xué)AI領(lǐng)域具有重要啟示意義。首先,它證明了數(shù)據(jù)規(guī)模的重要性。86萬(wàn)張影像的訓(xùn)練數(shù)據(jù)量雖然在自然圖像領(lǐng)域不算龐大,但在醫(yī)學(xué)影像領(lǐng)域已經(jīng)是相當(dāng)可觀的規(guī)模。這提醒我們,醫(yī)學(xué)AI的發(fā)展需要更多的數(shù)據(jù)收集和共享合作。
其次,統(tǒng)一模型相對(duì)于專(zhuān)門(mén)化模型的優(yōu)勢(shì)值得深思。雖然直覺(jué)上專(zhuān)門(mén)化的模型應(yīng)該在特定任務(wù)上表現(xiàn)更好,但M3Ret顯示統(tǒng)一模型也能取得優(yōu)秀效果,并且具有更好的可擴(kuò)展性和維護(hù)性。這對(duì)醫(yī)學(xué)AI系統(tǒng)的設(shè)計(jì)理念產(chǎn)生了重要影響。
自監(jiān)督學(xué)習(xí)的成功應(yīng)用為解決醫(yī)學(xué)數(shù)據(jù)標(biāo)注瓶頸提供了新思路。傳統(tǒng)的監(jiān)督學(xué)習(xí)需要大量專(zhuān)家標(biāo)注的數(shù)據(jù),成本高昂且難以規(guī)?;?。M3Ret證明了通過(guò)巧妙的自監(jiān)督任務(wù)設(shè)計(jì),可以充分利用大量無(wú)標(biāo)注的醫(yī)學(xué)影像數(shù)據(jù)。
跨模態(tài)學(xué)習(xí)的實(shí)現(xiàn)也為醫(yī)學(xué)影像分析開(kāi)辟了新方向。傳統(tǒng)研究往往局限于單一模態(tài),但實(shí)際臨床診斷通常需要綜合多種成像信息。M3Ret展示的跨模態(tài)能力為開(kāi)發(fā)更符合臨床實(shí)際需求的AI系統(tǒng)提供了技術(shù)基礎(chǔ)。
說(shuō)到底,M3Ret不僅僅是一個(gè)技術(shù)創(chuàng)新,更像是醫(yī)學(xué)影像AI領(lǐng)域的一次范式轉(zhuǎn)變。它告訴我們,與其為每種影像類(lèi)型開(kāi)發(fā)專(zhuān)門(mén)的系統(tǒng),不如建立一個(gè)能夠理解所有影像"語(yǔ)言"的通用系統(tǒng)。這種統(tǒng)一化的思路不僅提高了技術(shù)效率,也為醫(yī)療AI的普及應(yīng)用奠定了基礎(chǔ)。當(dāng)醫(yī)生面對(duì)各種類(lèi)型的影像時(shí),他們不再需要學(xué)習(xí)使用多套復(fù)雜的系統(tǒng),而是可以依靠一個(gè)"懂行"的助手來(lái)快速找到需要的信息。
這項(xiàng)研究的意義遠(yuǎn)超技術(shù)層面。它預(yù)示著醫(yī)療AI正在從專(zhuān)業(yè)化工具向通用化平臺(tái)發(fā)展,從依賴(lài)大量人工標(biāo)注向自主學(xué)習(xí)轉(zhuǎn)變,從單一模態(tài)處理向多模態(tài)融合進(jìn)化。這些變化不僅將降低醫(yī)療AI的使用門(mén)檻,也將大大擴(kuò)展其應(yīng)用范圍,最終讓更多患者受益于AI技術(shù)的進(jìn)步。
Q&A
Q1:M3Ret系統(tǒng)是什么?它能處理哪些類(lèi)型的醫(yī)學(xué)影像?
A:M3Ret是阿里巴巴達(dá)摩院開(kāi)發(fā)的統(tǒng)一醫(yī)學(xué)影像檢索系統(tǒng),就像一個(gè)"萬(wàn)能翻譯機(jī)"。它能同時(shí)處理2D的X光片和超聲圖像、彩色的內(nèi)鏡視頻,以及3D的CT掃描。更神奇的是,它甚至能在從未見(jiàn)過(guò)MRI影像的情況下準(zhǔn)確檢索MRI圖像,展現(xiàn)了強(qiáng)大的跨模態(tài)理解能力。
Q2:M3Ret系統(tǒng)的檢索準(zhǔn)確率如何?比現(xiàn)有系統(tǒng)好在哪里?
A:M3Ret在多個(gè)測(cè)試中表現(xiàn)優(yōu)異。在胸部X光檢索中準(zhǔn)確率達(dá)到34.5%,在超聲影像檢索中更是達(dá)到95.5%,都超越了使用2400萬(wàn)張標(biāo)注數(shù)據(jù)訓(xùn)練的BMC-CLIP系統(tǒng)。關(guān)鍵是M3Ret僅通過(guò)視覺(jué)學(xué)習(xí)就達(dá)到了這些效果,不需要昂貴的人工標(biāo)注。
Q3:M3Ret系統(tǒng)如何實(shí)現(xiàn)跨模態(tài)檢索?比如用CT圖像搜索X光片?
A:M3Ret通過(guò)理解人體解剖結(jié)構(gòu)的共同規(guī)律實(shí)現(xiàn)跨模態(tài)檢索。雖然CT、X光和MRI的成像原理不同,但都在展示同一個(gè)人體的不同方面。系統(tǒng)通過(guò)大量學(xué)習(xí)掌握了這些不同成像方式的內(nèi)在聯(lián)系,就像通過(guò)理解多種歐洲語(yǔ)言的共同規(guī)律來(lái)翻譯新語(yǔ)言一樣。在CT到MRI的檢索中,準(zhǔn)確率達(dá)到42.4%。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專(zhuān)家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專(zhuān)家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類(lèi)型問(wèn)題偏愛(ài)不同專(zhuān)家配置,為AI推理優(yōu)化開(kāi)辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話(huà)多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。