常見的顯微鏡圖像多種多樣,有普通光學顯微鏡拍攝的細胞、組織照片,也有利用電子顯微鏡獲取的更微小結(jié)構(gòu)的圖像。這些圖像對科研人員來說極其寶貴,但隨著顯微成像技術(shù)的快速發(fā)展,科學工作者面臨著一個嚴峻挑戰(zhàn):圖像數(shù)據(jù)積累速度遠遠超過了專家分析處理的能力。想象一下,如果你每天要處理成千上萬張照片,而且每張照片都需要你精確地圈出里面的每個細胞或結(jié)構(gòu),那會是多么費時費力的工作!
近日,復旦大學的李曼宇、何銳安、張子賢、譚偉民和嚴波團隊發(fā)表了一篇題為《利用多模態(tài)大語言模型統(tǒng)一顯微鏡下的萬物分割》(Unifying Segment Anything in Microscopy with Multimodal Large Language Model)的研究論文,正在接受審議中。這項研究提出了一種名為uLLSAM(統(tǒng)一大語言模型顯微鏡分割)的創(chuàng)新方法,旨在解決上述挑戰(zhàn)。
傳統(tǒng)的生物醫(yī)學圖像分割基礎模型,如μSAM(顯微鏡版本的SAM),雖然在某些特定數(shù)據(jù)集上表現(xiàn)出色,但當面對未見過的領域數(shù)據(jù)時,往往表現(xiàn)不佳。這就像一個人可能擅長識別狗,但遇到從未見過的貓時就無法很好地辨認。研究團隊認為,這種局限性主要源于缺乏"視覺-語言知識"的融合。
想象一下,如果有一個助手既能看懂圖像,又能理解文字描述,并能將兩者聯(lián)系起來,那么它的理解能力會大大提升。這就是多模態(tài)大語言模型(MLLMs)的優(yōu)勢——它們能夠?qū)⒁曈X和語言信息結(jié)合起來,實現(xiàn)更全面的理解。復旦大學研究團隊正是基于這一思路,利用MLLMs來引導SAM模型學習跨域顯微圖像數(shù)據(jù),從而創(chuàng)造出一個能夠處理多種顯微鏡圖像的統(tǒng)一模型。
整個方法的核心在于,研究者們設計了一個"視覺-語言語義對齊"(VLSA)模塊,將大語言模型的視覺-語言知識注入到SAM中。有趣的是,研究發(fā)現(xiàn)當SAM接收到全局視覺-語言知識提示后,其性能確實顯著提升,但在邊界輪廓感知方面仍有不足。這就像是一個人能大致分辨出一個物體,但難以準確描繪它的邊緣。為了解決這個問題,團隊進一步提出了"語義邊界正則化"(SBR)技術(shù)來增強SAM的邊界識別能力。
這種創(chuàng)新方法在9個領域內(nèi)的顯微鏡數(shù)據(jù)集上實現(xiàn)了7.71%的Dice系數(shù)(衡量分割準確度的指標)和12.10%的分割準確度(SA)提升,達到了最先進的性能水平。更令人印象深刻的是,該方法在10個領域外的數(shù)據(jù)集上也展示了6.79%的Dice和10.08%的SA提升,表明其具有強大的泛化能力。簡單來說,這個模型不僅在它見過的圖像類型上表現(xiàn)優(yōu)異,而且在它從未"見過"的新類型圖像上也能表現(xiàn)出色——這正是科學家們夢寐以求的特性。
接下來,讓我們深入了解這項研究的具體內(nèi)容,看看它如何幫助科學家們更高效地分析顯微圖像。
一、研究背景與痛點
想象你是一名生物學家,每天工作的一部分就是通過顯微鏡觀察細胞或組織。隨著現(xiàn)代成像技術(shù)的發(fā)展,你獲取的圖像數(shù)量正在呈爆炸性增長。然而,這些珍貴的數(shù)據(jù)需要專業(yè)人員手動分析和標注,這就像是要求一個人徒手清點一大袋米粒——費時費力且容易出錯。
現(xiàn)有的挑戰(zhàn)主要體現(xiàn)在兩個方面:其一,專業(yè)人員數(shù)量有限,無法跟上圖像生成的速度;其二,專家們不僅需要標注圖像中的關鍵區(qū)域,還需要詳細描述結(jié)構(gòu)特征、復雜細節(jié)和潛在機制。這就像要求一個人不僅要數(shù)清米粒數(shù)量,還要描述每粒米的形狀、紋理和來源——這無疑是一項艱巨的任務。
為了解決這一痛點,研究者們開發(fā)了各種基礎模型來輔助下游任務,如圖像修復和細胞組織分割。其中,顯微鏡版本的"分割一切"模型(μSAM)基于原始SAM開發(fā),提供了針對光學顯微鏡(LM)和電子顯微鏡(EM)兩種不同類型圖像的專用模型權(quán)重。這些模型支持交互式分割、交互式跟蹤和全自動分割功能。
然而,這些顯微鏡基礎模型通常只專注于特定領域,當應用于異質(zhì)域數(shù)據(jù)時,它們的泛化能力面臨重大挑戰(zhàn)。主要原因在于它們?nèi)狈σ曈X-語言知識的整合。簡單來說,它們只能"看",但不能"理解"所看到的內(nèi)容,尤其是在處理不同領域的數(shù)據(jù)時。
而多模態(tài)大語言模型(MLLMs)的出現(xiàn)為解決這一問題帶來了希望。這類模型具有強大的隱式語義建模能力,能夠在視覺和語言組件之間相互增強特征表示,從而更深入地理解圖像信息和不同領域的特性。就像一個既能看懂圖片又能理解文字的人,能夠?qū)煞N信息結(jié)合起來,獲得更全面的理解。
最近,顯微鏡中心的視覺-語言數(shù)據(jù)集的增長,特別是BIOMEDICA數(shù)據(jù)集(包含從科學文獻中收集的2400萬高質(zhì)量圖像-文本對),為MLLMs在顯微鏡領域的發(fā)展提供了巨大潛力。這就像為模型提供了大量的"教材",讓它能夠?qū)W習如何同時理解圖像和相應的專業(yè)描述。
在這一背景下,復旦大學的研究團隊提出了uLLSAM框架,這是首個探索MLLMs和SAM在顯微鏡領域集成的框架,旨在利用MLLMs強大的理解和推理能力將視覺-語言知識注入SAM,使SAM能夠有效學習跨域視覺-語言知識。
二、uLLSAM的技術(shù)創(chuàng)新與工作原理
uLLSAM的核心思想是將多模態(tài)大語言模型的語義理解能力與SAM的圖像分割能力相結(jié)合,創(chuàng)造一個統(tǒng)一的框架來處理不同類型的顯微鏡圖像。讓我們用一個簡單的比喻來理解:如果將顯微鏡圖像看作是一本充滿未知文字的書,傳統(tǒng)的SAM只能識別書中的字母形狀,而無法理解其含義;而uLLSAM則像是一個既能識別字母形狀,又能理解單詞含義的閱讀者,因此能夠更全面地理解整本書的內(nèi)容。
### 視覺-語言知識注入
研究團隊提出的核心創(chuàng)新是"視覺-語言語義對齊"(VLSA)模塊。這個模塊就像是一個翻譯器,將多模態(tài)大語言模型提取的視覺-語言知識轉(zhuǎn)換成SAM能夠理解的形式,然后注入到SAM中。
技術(shù)上,SAM和大語言模型共享相同的視覺轉(zhuǎn)換器(ViT-B/16)。對于視覺-語言對齊,uLLSAM采用與LLaVA相同的方法。具體來說,團隊使用視覺投影層和像素混洗函數(shù)來調(diào)整視覺token的數(shù)量。當從大語言模型的最后一層獲取隱藏狀態(tài)后,VLSA模塊進一步處理這些隱藏狀態(tài):首先從中分離出視覺token,然后使用像素混洗操作調(diào)整視覺token的數(shù)量,最后通過層歸一化和多層感知器等組件修改每個token的維度,使其能夠與SAM的提示編碼器對齊。
為了確保訓練期間的數(shù)值穩(wěn)定性,研究團隊還引入了縮放因子α和偏移因子β。這就像在翻譯時不僅考慮詞匯對應,還要考慮語法結(jié)構(gòu)和語言習慣,以確保翻譯結(jié)果既準確又自然。
### 語義邊界正則化
在訓練uLLSAM時,研究者們發(fā)現(xiàn)一個有趣的現(xiàn)象:當SAM接收全局視覺-語言知識提示后,其性能確實顯著提高,但在邊界輪廓感知方面卻存在不足。這就像一個人能夠辨認出圖片中有一只貓,但難以準確描繪出貓的輪廓。
為了解決這個問題,團隊提出了"語義邊界正則化"(SBR)策略。簡單來說,對于每個實例掩碼,他們根據(jù)SBR策略生成一個正向點和三個負向點。正向點優(yōu)先從高置信度區(qū)域(腐蝕區(qū)域)均勻采樣,而負向點則從距離實例邊界9至11像素且不在實例內(nèi)的背景點中選擇。
這種策略為訓練SAM提供了明確的語義邊界約束,使模型能夠更好地學習實例邊界特征,從而在推理過程中只需簡單的交互式輸入即可獲得最佳性能。就像教一個人不僅要認識整體物體,還要特別關注物體的邊緣,以便更準確地描繪出來。
### 訓練策略
uLLSAM采用三階段訓練方法:視覺-語言對齊、監(jiān)督微調(diào)(SFT)和交互式SAM訓練。這種策略使SAM能夠從MLLMs中提取豐富的視覺-語言特征。
**第一階段:視覺-文本對齊預訓練**。這一階段通過視覺投影層將視覺編碼器的特征與語言模型的特征空間對齊,高效地將視覺信息與大語言模型集成。團隊從BIOMEDICA數(shù)據(jù)集中采樣了約8萬對顯微鏡圖像-文本對進行訓練。
**第二階段:監(jiān)督微調(diào)**。由于顯微鏡數(shù)據(jù)集中同時具有實例分割標簽和高質(zhì)量文本描述的數(shù)據(jù)稀缺,研究者們利用Qwen2.5VL-72B為9個LM和EM數(shù)據(jù)集生成詳細的文本描述。這一過程使模型能夠在學習強大視覺-語言特征的同時,產(chǎn)生全面的圖像級描述。
**第三階段:交互式SAM訓練**。此時MLLMs已能夠提取強大的視覺-文本交互特征,SAM可以利用這些特征來提升對圖像細節(jié)的理解。與MedSAM訓練類似,團隊僅使用點提示作為交互式輸入,因為點能靈活地指示用戶感興趣的區(qū)域。對于每個實例,他們使用SBR策略生成用于訓練的點,并為每張圖像最多選擇4個隨機實例進行損失計算。
在這一階段,團隊訓練了圖像編碼器、提示編碼器、掩碼解碼器、視覺投影層和VLSA模塊,使用BCE和Dice損失函數(shù)的線性組合作為訓練目標。
三、實驗設計與結(jié)果分析
為了全面評估uLLSAM的性能,研究團隊設計了一系列嚴格的實驗,包括在領域內(nèi)數(shù)據(jù)和領域外數(shù)據(jù)上的測試,以及與現(xiàn)有方法的比較。這就像是對一個新開發(fā)的翻譯工具進行多語言、多場景的全面測試,以確認其在各種情況下都能可靠工作。
### 數(shù)據(jù)集與評估指標
研究團隊從七個光學顯微鏡(LM)數(shù)據(jù)集和兩個電子顯微鏡(EM)數(shù)據(jù)集中采樣了4萬張2D圖像用于模型訓練,并從其余數(shù)據(jù)集中采樣了7.8千張圖像用于模型性能驗證。由于數(shù)據(jù)集中包含3D數(shù)據(jù)和雙通道TissueNet,所有數(shù)據(jù)都被轉(zhuǎn)換為2D格式進行處理,并用0填充創(chuàng)建正方形圖像,然后調(diào)整為1024×1024分辨率。
此外,團隊還準備了10個未訓練的數(shù)據(jù)集來測試模型的零樣本性能,包括三個LM數(shù)據(jù)集、三個EM數(shù)據(jù)集、兩個組織病理學數(shù)據(jù)集和兩個醫(yī)學數(shù)據(jù)集。這就像是在多個未知的外語環(huán)境中測試一個翻譯工具,以評估其適應新語言的能力。
在評估指標方面,研究者們使用了與μSAM相同的SBR策略為7.8千驗證數(shù)據(jù)集生成提示。uLLSAM具有高度靈活性,可以根據(jù)計算資源和應用場景選擇推理模式,即使在不使用視覺-語言知識(VLK)進行推理時也只有最小的性能損失。評估指標包括分割任務中常用的Dice系數(shù)和閾值為0.5的分割準確度(SA)。
### 實驗結(jié)果
研究團隊設計了三組對比實驗:第一組被稱為"專家模型",參考μSAM分別使用LM和EM數(shù)據(jù)訓練兩個專家模型(LM專家和EM專家),然后評估這些訓練后的專家模型在領域內(nèi)和領域外數(shù)據(jù)上的推理性能;第二組稱為"通用模型",將LM和EM數(shù)據(jù)結(jié)合起來訓練一個統(tǒng)一的顯微鏡基礎模型;第三組則在原始SAM及其變體上進行測試。
**專家模型性能**:研究結(jié)果顯示,在單模態(tài)數(shù)據(jù)集上分別訓練μSAM和uLLSAM專家模型,然后在領域內(nèi)和領域外數(shù)據(jù)集上測試時,uLLSAM在各自領域內(nèi)的九個數(shù)據(jù)集上均優(yōu)于μSAM。在跨域泛化能力方面,uLLSAM同樣表現(xiàn)出色,除了在Platynereis數(shù)據(jù)集上較μSAM稍弱外,在其他所有數(shù)據(jù)集上都展示出更強的泛化能力。這表明,即使SAM沒有在特定模態(tài)數(shù)據(jù)上訓練,MLLMs的引導也能顯著提高SAM的零樣本泛化性能。
**通用模型性能**:受到專家模型實驗結(jié)果的啟發(fā),研究團隊嘗試使用MLLMs引導SAM在多模態(tài)顯微鏡數(shù)據(jù)集上進行聯(lián)合訓練,進一步驗證MLLMs是否能幫助SAM更好地學習不同領域間的豐富知識。結(jié)果顯示,uLLSAM在Dice(0.5)和SA(0.5)指標上均全面超越μSAM。特別是在DeepBacs數(shù)據(jù)集上,uLLSAM分別提升了12.61%和19.33%,而在MitoLab數(shù)據(jù)集上的最小提升也達到了3.04%和4.77%。
**通用交互式分割模型性能**:研究團隊直接在自然環(huán)境中的通用基礎視覺模型SAM及其變體上測試交互式分割性能。結(jié)果顯示,在9個LM和EM數(shù)據(jù)集上的平均性能指標中,自然圖像與顯微鏡圖像之間存在顯著差距。這驅(qū)使研究者開發(fā)專門適用于顯微鏡領域的基礎視覺模型,并且需要具備強大的泛化能力。
### 消融實驗
為了深入理解uLLSAM的各個組件的貢獻,研究團隊進行了三個以MLLM為中心的消融實驗:第一個實驗解決了一個不確定性——由于模型引入了額外參數(shù),性能提升是源于這些額外參數(shù)還是源于SAM真正學習了更豐富的領域知識;第二個實驗涉及VLSA模塊的設計;第三個實驗檢驗SBR策略的有效性。
**視覺-語言知識注入**:研究團隊在9個領域內(nèi)和10個領域外數(shù)據(jù)集上,僅使用uLLSAM的訓練SAM部分進行推理測試。結(jié)果顯示,即使在推理時不使用視覺-語言知識,性能也全面超越μSAM。特別是在DeepBacs數(shù)據(jù)集上,Dice和SA指標分別提升了9.76%和14.42%,而在LIVECell數(shù)據(jù)集上的最小性能提升也達到了1.1%和1.84%。所有數(shù)據(jù)集的平均性能提升分別為3.94%和6.2%。這強有力地證明性能提升不僅僅是因為參數(shù)數(shù)量增加。與完整的uLLSAM相比,僅使用SAM組件導致的性能下降只有2.88%和4.36%。
在10個領域外數(shù)據(jù)集上的結(jié)果也同樣令人印象深刻:與μSAM相比,不使用大語言模型組件的uLLSAM在GLAS數(shù)據(jù)集上的Dice和SA性能提升最高,分別達到13.22%和19.00%;在CoNSeP數(shù)據(jù)集上有輕微性能下降,分別為-1.9%和-1.73%;整體平均性能提升分別為2.98%和4.65%。這進一步證實MLLMs能夠引導SAM學習更好的多模態(tài)特征。
**VLSA模塊**:團隊嘗試了VLSA模型的不同設計。由于MLLMs的視覺語義提示與SAM的提示空間之間存在差距,他們探索了直接輸入這些提示到SAM提示編碼器與使用可學習的縮放和偏移因子的性能差異。研究還添加了一個dropout層到VLSA以調(diào)查uLLSAM是否存在過擬合現(xiàn)象。分析結(jié)果表明,使用可學習的縮放和偏移因子能夠提高模型性能,而添加dropout層實際上會降低性能,這表明模型并沒有顯著的過擬合問題。
**SBR策略**:實驗結(jié)果顯示,直接注入視覺-語言知識會導致模型生成模糊的物體邊界,存在過度分割、欠分割和不準確分割等問題。SBR策略帶來了平均8.24%的Dice和11.46%的SA性能提升,證實了該策略的有效性。
### 零樣本泛化性能
為了進一步驗證模型在跨模態(tài)數(shù)據(jù)集上的零樣本性能和泛化能力,研究團隊額外選擇了3個LM、3個EM、2個組織病理學和2個醫(yī)學數(shù)據(jù)集(這些數(shù)據(jù)集在訓練過程中未被使用)進行進一步驗證。
結(jié)果顯示,uLLSAM全面超越μSAM。具體來說,GLAS數(shù)據(jù)集在Dice和SA評估指標上的性能提升最大,分別達到17.84%和24.52%,而CoNSeP數(shù)據(jù)集的最小提升分別為1.27%和2.57%。在所有10個數(shù)據(jù)集上,uLLSAM實現(xiàn)了平均6.79%和10.08%的性能提升。
此外,研究團隊還探索了不同數(shù)量的正向和負向提示點如何影響模型性能。結(jié)果表明,當使用1個正向點和3個負向點時,模型在數(shù)據(jù)集上達到最佳平均性能,這意味著用戶通常只需提供四個交互式提示點即可獲得令人滿意的基線結(jié)果。3個負向點顯著確定了物體的邊界范圍,使模型能夠更有信心地分割感興趣區(qū)域。
四、研究意義與未來展望
這項研究代表了顯微鏡圖像分析領域的一個重要突破,為科學家們提供了一個強大的工具來處理越來越多的顯微鏡圖像數(shù)據(jù)。uLLSAM的主要貢獻可以概括為以下幾點:
**統(tǒng)一的多模態(tài)顯微鏡數(shù)據(jù)處理**:uLLSAM利用MLLMs引導SAM學習跨域視覺-語言知識,在不同顯微鏡領域?qū)崿F(xiàn)了改進的分割性能。這種方法使得處理光學顯微鏡(LM)和電子顯微鏡(EM)數(shù)據(jù)的統(tǒng)一框架成為可能,性能有了顯著提升,達到了最先進的結(jié)果。
**視覺-語言知識注入**:研究團隊提出的視覺-語言語義對齊(VLSA)模塊成功地將MLLMs的輸出與SAM提示編碼器對齊。由于在整合視覺-語言知識后SAM的邊界感知能力下降,團隊進一步提出了語義邊界正則化(SBR)來增強SAM的邊界感知能力。
**顯微鏡分割的強大跨域泛化**:uLLSAM展示了強大的零樣本泛化能力,在跨域場景中超越了現(xiàn)有方法。它在來自各種領域的10個未見過的數(shù)據(jù)集上實現(xiàn)了顯著改進,包括LM、EM、病理學和醫(yī)學影像,展示了其適應新領域的能力,無需額外訓練。
這項研究的實際意義不容忽視。想象一下生物學家的工作流程:他們現(xiàn)在可以使用這個統(tǒng)一的工具來分析各種類型的顯微鏡圖像,而不需要為每種圖像類型使用不同的工具。這不僅節(jié)省了時間和精力,還提高了分析的一致性和可靠性。
然而,盡管取得了顯著進步,這項研究仍有一些局限性和未來可以探索的方向:
首先,在訓練過程中,研究團隊僅考慮了單一的交互模式。未來的工作可以探索多樣化的提示交互是否能進一步提升模型的泛化能力。
其次,研究僅僅利用了LLMs的強大語義感知能力來改進SAM的泛化,這允許在推理過程中進行解耦。然而,文本引導的引用分割等任務尚未被探索,部分原因是缺乏專家級的高質(zhì)量標注數(shù)據(jù)。
第三,由于計算資源的限制,研究團隊無法驗證更大規(guī)模的LLMs是否能進一步提升模型的泛化和顯微圖像分析能力。一種可行的方法是采用參數(shù)高效微調(diào)(PEFT)策略,如LoRA。
第四,目前研究只考慮了LLM和SAM之間的單向交互。未來,研究者們可以探索如何實現(xiàn)這兩個組件之間的雙向交互,以實現(xiàn)互利共贏的結(jié)果。
最后,當前研究尚未對圖像級描述輸出進行控制干預。未來,可以探索一些強化學習方法來進一步優(yōu)化模型的文本描述輸出。
總的來說,這項研究為MLLMs在顯微鏡領域的應用開辟了道路,為未來的研究提供了寶貴的見解。隨著技術(shù)的不斷發(fā)展,我們可以期待更加智能、高效的顯微鏡圖像分析工具,幫助科學家們更好地理解微觀世界,推動科學發(fā)現(xiàn)和醫(yī)學進步。
好文章,需要你的鼓勵
這項研究提出了"高效探測"方法,解決了掩碼圖像建模AI難以有效評估的問題。通過創(chuàng)新的多查詢交叉注意力機制,該方法在減少90%參數(shù)的同時實現(xiàn)10倍速度提升,在七個基準測試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強相關性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應性。團隊承諾開源全部代碼,推動技術(shù)普及應用。
伊利諾伊大學研究團隊開發(fā)了CLAIMSPECT系統(tǒng),通過層次化分解復雜爭議、智能檢索相關文獻、多角度收集觀點的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動構(gòu)建爭議話題的分析框架,識別不同觀點及其支撐證據(jù),為科學和政治爭議提供更全面客觀的分析,已在生物醫(yī)學和國際關系領域驗證有效性。
清華大學研究團隊首次提出情感認知融合網(wǎng)絡(ECFN),讓AI能像人類一樣理解和表達情感。該系統(tǒng)通過多層次情感處理架構(gòu),在情感識別準確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實現(xiàn)了跨模態(tài)情感融合、動態(tài)情感追蹤和個性化情感建模,為醫(yī)療、教育、客服等領域帶來革命性應用前景。
哈佛大學研究團隊通過創(chuàng)新的多智能體強化學習方法,讓AI在戰(zhàn)略游戲中學會復雜推理。研究發(fā)現(xiàn)AI通過游戲競爭能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項突破性成果為未來AI在醫(yī)療、教育、城市管理等領域的應用奠定基礎,展現(xiàn)了通過模擬人類學習過程培養(yǎng)真正智能AI的新路徑。