在3D醫(yī)學(xué)影像領(lǐng)域,一項(xiàng)突破性研究正在改變我們處理復(fù)雜醫(yī)學(xué)圖像的方式。來自密歇根大學(xué)的研究團(tuán)隊(duì),包括Chenhui Zhao、Yiwei Lyu、Asadur Chowdury、Edward Harake、Akhil Kondepudi、Akshay Rao、Xinhai Hou、Honglak Lee和Todd Hollon,于2025年5月28日在arXiv預(yù)印本平臺(tái)發(fā)表了題為《Towards Scalable Language-Image Pre-training for 3D Medical Imaging》的研究論文。該論文介紹了一種名為HLIP(Hierarchical attention for Language-Image Pre-training,層次化注意力語言-圖像預(yù)訓(xùn)練)的創(chuàng)新框架,旨在解決3D醫(yī)學(xué)影像處理中的關(guān)鍵瓶頸問題。論文代碼已開源于GitHub(https://github.com/Zch0414/hlip)。
醫(yī)學(xué)影像技術(shù)如CT(計(jì)算機(jī)斷層掃描)和MRI(磁共振成像)在現(xiàn)代醫(yī)療診斷中扮演著至關(guān)重要的角色。然而,與2D醫(yī)學(xué)影像(如胸部X光片)相比,3D醫(yī)學(xué)影像的人工智能輔助分析進(jìn)展相對(duì)緩慢。想象一下,目前的2D胸部X光AI模型已經(jīng)能達(dá)到人類專家水平,而3D醫(yī)學(xué)影像的AI模型還遠(yuǎn)遠(yuǎn)落后。這是為什么呢?
問題在于3D醫(yī)學(xué)數(shù)據(jù)的復(fù)雜性和體積。如果你曾經(jīng)做過MRI檢查,你可能知道一次檢查會(huì)產(chǎn)生多個(gè)不同的掃描序列(比如T1加權(quán)、T2加權(quán)、FLAIR等)。這些3D體素?cái)?shù)據(jù)就像是一摞摞的數(shù)字化照片,每一摞代表人體某個(gè)部位的不同切面。處理這些海量數(shù)據(jù)對(duì)計(jì)算機(jī)來說是個(gè)巨大挑戰(zhàn),就像同時(shí)閱讀數(shù)千本厚重的圖冊(cè)一樣耗時(shí)費(fèi)力。
以往的研究往往選擇兩條路徑來應(yīng)對(duì)這一挑戰(zhàn):要么讓放射科醫(yī)生手動(dòng)篩選出最具代表性的掃描或切片(這就像從圖冊(cè)中挑選出幾頁關(guān)鍵內(nèi)容),要么設(shè)計(jì)特殊的模型架構(gòu)(這相當(dāng)于發(fā)明新的閱讀方法)。但這兩種方法都存在明顯的局限性——前者需要大量的人工標(biāo)注工作,后者則難以擴(kuò)展到真實(shí)臨床場(chǎng)景。
密歇根大學(xué)研究團(tuán)隊(duì)提出的HLIP框架采用了全新的思路。他們沒有改變?cè)紨?shù)據(jù)或設(shè)計(jì)復(fù)雜的模型,而是利用放射學(xué)數(shù)據(jù)天然存在的層次結(jié)構(gòu)來優(yōu)化處理流程。這就像是在不改變圖冊(cè)內(nèi)容的情況下,發(fā)明了一種能夠同時(shí)瀏覽所有頁面并快速定位關(guān)鍵信息的方法。
HLIP框架的核心創(chuàng)新在于其"層次化注意力機(jī)制",它模擬了放射學(xué)數(shù)據(jù)的自然層次:切片(slice)、掃描(scan)和研究(study)。想象一下,一位放射科醫(yī)生在閱片時(shí)也是先看整體研究,再聚焦到某個(gè)掃描序列,最后細(xì)看具體切片。HLIP正是模仿了這種從宏觀到微觀的審視過程。
與傳統(tǒng)方法不同,HLIP能夠直接處理未經(jīng)篩選的臨床研究數(shù)據(jù)。研究團(tuán)隊(duì)在兩個(gè)大規(guī)模數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn):一個(gè)包含220K患者、313萬次掃描的腦部MRI數(shù)據(jù)集,和一個(gè)包含240K患者、144萬次掃描的頭部CT數(shù)據(jù)集。這相當(dāng)于分析了數(shù)十萬患者的完整醫(yī)學(xué)影像檔案,規(guī)模前所未有。
實(shí)驗(yàn)結(jié)果令人振奮。在胸部CT評(píng)估中,HLIP模型比現(xiàn)有最先進(jìn)的模型在Rad-ChestCT基準(zhǔn)測(cè)試上表現(xiàn)提升了4.3%的宏觀AUC指標(biāo)。在腦部MRI評(píng)估中,HLIP在公開的Pub-Brain-5基準(zhǔn)測(cè)試上比現(xiàn)有2D基礎(chǔ)模型表現(xiàn)提升了驚人的32.4%平衡準(zhǔn)確率。在頭部CT評(píng)估上,HLIP也在RSNA和CQ500兩個(gè)基準(zhǔn)測(cè)試上分別提升了1.4%和6.9%的宏觀AUC指標(biāo)。
這些結(jié)果意味著什么?簡單來說,HLIP成功地打破了3D醫(yī)學(xué)影像AI處理的瓶頸,使我們能夠直接從未經(jīng)篩選的臨床數(shù)據(jù)中學(xué)習(xí),就像一位能夠迅速從海量醫(yī)學(xué)影像中提取關(guān)鍵信息的超級(jí)放射科醫(yī)生。這不僅提高了模型性能,還大大簡化了數(shù)據(jù)準(zhǔn)備流程,為3D醫(yī)學(xué)影像的AI輔助診斷鋪平了道路。
接下來,讓我們深入了解HLIP是如何工作的,以及它為何能取得如此顯著的突破。
一、3D醫(yī)學(xué)影像的挑戰(zhàn):為什么需要HLIP?
想象你走進(jìn)一間堆滿成千上萬厚重圖冊(cè)的圖書館,每本圖冊(cè)都有數(shù)百頁,記錄著人體內(nèi)部的各種角度和層面的圖像。這就是放射科醫(yī)生日常面對(duì)的情況。在AI領(lǐng)域,處理這些數(shù)據(jù)更是一項(xiàng)艱巨任務(wù)。
研究團(tuán)隊(duì)發(fā)現(xiàn),當(dāng)前3D醫(yī)學(xué)影像的語言-圖像預(yù)訓(xùn)練(一種讓AI同時(shí)理解圖像和相關(guān)醫(yī)學(xué)報(bào)告的技術(shù))存在三大瓶頸:數(shù)據(jù)篩選標(biāo)注的需求、模型架構(gòu)的局限性,以及3D醫(yī)學(xué)影像研究的復(fù)雜性。
CT和MRI掃描會(huì)生成3D體積圖像,而且一次臨床檢查通常包含多個(gè)3D體積,每個(gè)體積捕捉不同的成像協(xié)議或方向。例如,一次標(biāo)準(zhǔn)MRI檢查通常包括幾個(gè)序列(如T1加權(quán)、T2加權(quán)和FLAIR),每個(gè)序列提供不同的診斷信息。CT檢查也類似,常包含不同方向或掃描設(shè)置的多次掃描。
如果直接用標(biāo)準(zhǔn)視覺編碼器(如Vision Transformer,簡稱ViT)處理這些未經(jīng)篩選的研究數(shù)據(jù),每項(xiàng)研究可能產(chǎn)生高達(dá)10,000個(gè)標(biāo)記(token),導(dǎo)致巨大的計(jì)算負(fù)擔(dān)。這就像要同時(shí)閱讀并記住圖書館中所有圖冊(cè)的所有頁面一樣困難。
為了解決這個(gè)問題,傳統(tǒng)方法通常是讓放射科醫(yī)生手動(dòng)選擇每項(xiàng)研究中最具代表性的掃描或2D切片(相當(dāng)于從每本圖冊(cè)中選出最重要的幾頁),或者設(shè)計(jì)特殊的模型架構(gòu)(相當(dāng)于發(fā)明新的閱讀方法)。但這些方法要么依賴于昂貴的人工標(biāo)注,要么難以在真實(shí)世界中擴(kuò)展應(yīng)用。
二、HLIP的核心原理:像放射科醫(yī)生一樣"看"影像
HLIP的核心理念可以類比為"教會(huì)AI像放射科醫(yī)生一樣閱讀醫(yī)學(xué)影像"。放射科醫(yī)生不會(huì)機(jī)械地逐頁查看所有圖像,而是采用由粗到細(xì)的層次化閱讀策略:先整體瀏覽研究,識(shí)別關(guān)鍵掃描序列,再聚焦到特定區(qū)域的細(xì)節(jié)切片。
HLIP模擬了這種層次化注意力過程,引入了三個(gè)層次的注意力機(jī)制:
首先是研究注意力(Study Attention)。這相當(dāng)于對(duì)整個(gè)研究數(shù)據(jù)的所有標(biāo)記進(jìn)行全局注意力計(jì)算,就像放射科醫(yī)生先獲取患者整體情況的全局視角。
其次是掃描注意力(Scan Attention)。這將注意力范圍縮小到單個(gè)掃描序列內(nèi)的標(biāo)記,相當(dāng)于放射科醫(yī)生聚焦到某一特定掃描序列(如T1加權(quán)或FLAIR序列)。
最后是切片注意力(Slice Attention)。這進(jìn)一步將注意力范圍縮小到掃描中相鄰切片的標(biāo)記,類似于放射科醫(yī)生仔細(xì)查看某個(gè)關(guān)鍵部位的連續(xù)切片。
這種設(shè)計(jì)的巧妙之處在于,它不需要改變?cè)糣iT的基本架構(gòu),只需調(diào)整注意力的計(jì)算范圍。想象一下,這就像是在不改變閱讀內(nèi)容的前提下,教會(huì)AI一種更高效的閱讀策略。
更重要的是,HLIP的層次化注意力機(jī)制大大降低了計(jì)算復(fù)雜度。以一個(gè)包含N個(gè)標(biāo)記的研究為例,標(biāo)準(zhǔn)的全局注意力需要Ω(N?)的計(jì)算復(fù)雜度,而HLIP的掃描注意力只需要Ω(N?/M)的復(fù)雜度(M為掃描數(shù)量),切片注意力更是只需要Ω(N?/(M×d))的復(fù)雜度(d為切片數(shù)量)。
這種計(jì)算效率的提升使得HLIP能夠直接處理未經(jīng)篩選的研究數(shù)據(jù),無需人工選擇代表性掃描或切片。正如研究報(bào)告中所展示的,與原始ViT相比,HLIP在處理相同數(shù)據(jù)時(shí)內(nèi)存占用減少了45%以上,同時(shí)性能還有顯著提升。
三、實(shí)驗(yàn)設(shè)計(jì)與實(shí)施:HLIP如何在真實(shí)數(shù)據(jù)上表現(xiàn)?
研究團(tuán)隊(duì)在三種不同的醫(yī)學(xué)影像類型上評(píng)估了HLIP的性能:胸部CT、腦部MRI和頭部CT。這就像是在三種不同的"考試"中測(cè)試AI的"閱讀理解"能力。
首先,為了證明HLIP層次化注意力機(jī)制的有效性,研究團(tuán)隊(duì)在已篩選的胸部CT數(shù)據(jù)集CT-RATE上進(jìn)行了實(shí)驗(yàn)。CT-RATE數(shù)據(jù)集相當(dāng)于一個(gè)"標(biāo)準(zhǔn)化測(cè)試",它包含已經(jīng)由專家篩選過的CT掃描。在這個(gè)數(shù)據(jù)集上,HLIP的表現(xiàn)已經(jīng)超過了現(xiàn)有最先進(jìn)的模型,比如CT-CLIP、BIUD和Merlin等。更重要的是,當(dāng)在外部驗(yàn)證數(shù)據(jù)集Rad-ChestCT上進(jìn)行測(cè)試時(shí),HLIP展示出了出色的泛化能力,宏觀AUC比第二好的模型高出7.9%。
接下來,研究團(tuán)隊(duì)展示了HLIP在大規(guī)模未經(jīng)篩選的臨床數(shù)據(jù)集上的表現(xiàn)。他們構(gòu)建了兩個(gè)大型數(shù)據(jù)集:BrainMRI220K(包含220K患者的313萬次腦部MRI掃描)和HeadCT240K(包含240K患者的144萬次頭部CT掃描)。這些數(shù)據(jù)集的規(guī)模前所未有,相當(dāng)于分析了數(shù)十萬患者的完整醫(yī)學(xué)影像檔案。
為了評(píng)估腦部MRI的性能,研究團(tuán)隊(duì)還構(gòu)建了一個(gè)名為Pub-Brain-5的公開基準(zhǔn)測(cè)試,它基于現(xiàn)有的公開可用腦部MRI數(shù)據(jù)集,涵蓋五類疾?。航】怠⒓毙宰渲?、膠質(zhì)瘤、腦膜瘤和轉(zhuǎn)移瘤。在這個(gè)基準(zhǔn)測(cè)試上,HLIP遠(yuǎn)遠(yuǎn)超過了現(xiàn)有的2D基礎(chǔ)模型BiomedCLIP和ConceptCLIP,在疾病分類任務(wù)上的平衡準(zhǔn)確率提高了32.4%。
對(duì)于頭部CT,研究團(tuán)隊(duì)在RSNA和CQ500兩個(gè)公開基準(zhǔn)測(cè)試上評(píng)估了HLIP的性能。HLIP再次展示出優(yōu)異表現(xiàn),分別在這兩個(gè)基準(zhǔn)測(cè)試上比最好的現(xiàn)有模型FM-HeadCT提高了1.4%和6.9%的宏觀AUC。
這些實(shí)驗(yàn)結(jié)果不僅證明了HLIP的有效性,還強(qiáng)調(diào)了三個(gè)關(guān)鍵因素的同等重要性:數(shù)據(jù)規(guī)模、建模方法和計(jì)算效率。就像研究團(tuán)隊(duì)所展示的,如果只使用10%的訓(xùn)練數(shù)據(jù),HLIP在Pub-Brain-5上的性能會(huì)下降24.5%;如果采用簡單的隨機(jī)選擇一個(gè)掃描進(jìn)行訓(xùn)練的方法,性能會(huì)下降12.4%;如果使用較小的批量大?。ɡ?4),性能會(huì)下降6.6%。
四、HLIP的臨床價(jià)值:從實(shí)驗(yàn)室到醫(yī)院
HLIP不僅在學(xué)術(shù)基準(zhǔn)測(cè)試上表現(xiàn)出色,研究團(tuán)隊(duì)還在真實(shí)臨床環(huán)境中進(jìn)行了前瞻性評(píng)估。他們分析了約23K腦部MRI研究(涵蓋52種診斷)和約15K頭部CT研究(涵蓋83種診斷),這相當(dāng)于在真實(shí)醫(yī)院場(chǎng)景中對(duì)AI進(jìn)行"實(shí)習(xí)醫(yī)生"測(cè)試。
結(jié)果證明,HLIP在這些真實(shí)世界任務(wù)上的表現(xiàn)始終優(yōu)于標(biāo)準(zhǔn)ViT模型。更重要的是,通過可視化HLIP的"注意力熱圖",研究人員發(fā)現(xiàn)它能夠準(zhǔn)確定位病理區(qū)域,無論是跨越不同胸部CT切片還是不同類型的腦部MRI掃描。
例如,在一個(gè)膠質(zhì)瘤案例中,HLIP能夠同時(shí)在FLAIR和T1加權(quán)對(duì)比增強(qiáng)序列中識(shí)別腫瘤區(qū)域;在肺纖維化案例中,它能夠跨越多個(gè)CT切片定位病變。這種能力對(duì)臨床實(shí)踐至關(guān)重要,因?yàn)樗M了放射科醫(yī)生綜合多個(gè)影像序列進(jìn)行診斷的方式。
此外,HLIP的另一個(gè)關(guān)鍵優(yōu)勢(shì)是其通用性。與許多需要針對(duì)特定任務(wù)進(jìn)行專門訓(xùn)練的AI模型不同,HLIP是一個(gè)通用基礎(chǔ)模型,可以適應(yīng)各種醫(yī)學(xué)影像任務(wù)。這就像一位全科醫(yī)生,雖然可能不如專科醫(yī)生在特定領(lǐng)域精通,但具備廣泛的知識(shí)基礎(chǔ),能夠處理各種醫(yī)療情況。
五、HLIP的局限性與未來展望
盡管HLIP取得了顯著成果,研究團(tuán)隊(duì)也坦率地討論了其局限性。首先,計(jì)算資源仍然是一個(gè)挑戰(zhàn)。盡管HLIP比原始ViT更高效,但訓(xùn)練仍需要相當(dāng)?shù)挠?jì)算資源,最密集的設(shè)置使用了8張L40 GPU。即使有了閃存注意力(flash attention)和梯度檢查點(diǎn)(gradient checkpointing)等優(yōu)化技術(shù),他們能夠達(dá)到的批量大?。ㄎ唇?jīng)篩選數(shù)據(jù)集為256,已篩選數(shù)據(jù)集為512)仍遠(yuǎn)小于自然圖像和2D醫(yī)學(xué)影像領(lǐng)域典型的批量大小。此外,他們的計(jì)算資源不足以訓(xùn)練更大的模型,如ViT-Large。
另一個(gè)有趣的觀察是,零樣本遷移性能并不總是與研究數(shù)量相關(guān)。例如,盡管關(guān)鍵詞搜索產(chǎn)生了比膠質(zhì)瘤更多的腦膜瘤或轉(zhuǎn)移瘤患者,但膠質(zhì)瘤的零樣本性能明顯高于其他兩種。腫瘤大小可能部分解釋這種差異,但這個(gè)問題值得進(jìn)一步研究。
研究團(tuán)隊(duì)還指出,他們簡單地收集了所有來自健康系統(tǒng)的研究,導(dǎo)致訓(xùn)練數(shù)據(jù)集不平衡。建立在自然圖像領(lǐng)域的發(fā)現(xiàn)基礎(chǔ)上,他們認(rèn)為開發(fā)一種系統(tǒng)方法來構(gòu)建相對(duì)平衡的預(yù)訓(xùn)練數(shù)據(jù)集是未來工作的重要方向。
HLIP的成功也為醫(yī)學(xué)影像AI的未來發(fā)展指明了方向。首先,直接從未經(jīng)篩選的臨床數(shù)據(jù)中學(xué)習(xí)是可行且有效的。其次,利用領(lǐng)域知識(shí)(如放射學(xué)數(shù)據(jù)的層次結(jié)構(gòu))可以大大提高模型效率和性能。最后,計(jì)算效率、數(shù)據(jù)規(guī)模和有效建模同等重要,三者缺一不可。
六、總結(jié):HLIP如何改變醫(yī)學(xué)影像AI的格局
歸根結(jié)底,HLIP代表了3D醫(yī)學(xué)影像AI領(lǐng)域的一個(gè)重要突破。它巧妙地結(jié)合了傳統(tǒng)深度學(xué)習(xí)架構(gòu)(ViT)與放射學(xué)領(lǐng)域知識(shí)(數(shù)據(jù)的層次結(jié)構(gòu)),創(chuàng)造了一個(gè)既高效又有效的解決方案。
通過引入層次化注意力機(jī)制,HLIP成功地解決了3D醫(yī)學(xué)影像處理的關(guān)鍵挑戰(zhàn):計(jì)算復(fù)雜性。這使得直接從未經(jīng)篩選的臨床數(shù)據(jù)中學(xué)習(xí)成為可能,極大地簡化了數(shù)據(jù)準(zhǔn)備流程,同時(shí)提高了模型性能。
HLIP的成功不僅體現(xiàn)在學(xué)術(shù)基準(zhǔn)測(cè)試上的卓越表現(xiàn),還體現(xiàn)在其對(duì)真實(shí)臨床環(huán)境的適應(yīng)性上。它能夠像放射科醫(yī)生一樣,綜合多個(gè)掃描序列和切片進(jìn)行診斷,這對(duì)臨床實(shí)踐具有重要價(jià)值。
雖然仍有改進(jìn)空間,但HLIP無疑為3D醫(yī)學(xué)影像的AI輔助診斷鋪平了道路。隨著技術(shù)的進(jìn)一步發(fā)展和計(jì)算資源的增加,我們可以期待HLIP及其后繼者在臨床實(shí)踐中發(fā)揮越來越重要的作用,最終幫助放射科醫(yī)生提高診斷效率和準(zhǔn)確性,造?;颊摺?/p>
如果你對(duì)HLIP更感興趣,可以訪問研究團(tuán)隊(duì)的GitHub頁面(https://github.com/Zch0414/hlip)查看代碼實(shí)現(xiàn),或閱讀完整論文了解更多技術(shù)細(xì)節(jié)。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。