
這項由愛丁堡大學(xué)的Salvatore Esposito領(lǐng)導(dǎo)的研究團隊開發(fā)的突破性成果,發(fā)表于2025年9月的計算機科學(xué)機器人學(xué)領(lǐng)域。研究團隊還包括來自英屬哥倫比亞大學(xué)的Daniel Rebain等多位學(xué)者。有興趣深入了解的讀者可以通過論文鏈接https://github.com/iamsalvatore/room訪問完整研究內(nèi)容和開源代碼。
想象一下,如果外科醫(yī)生在給病人做手術(shù)之前,能在一個完全逼真的虛擬世界里反復(fù)練習(xí)成千上萬次,會是什么樣的情景?這正是愛丁堡大學(xué)研究團隊開發(fā)的ROOM系統(tǒng)想要實現(xiàn)的愿景。不過,這里的"醫(yī)生"不是人類,而是一種叫做連續(xù)體機器人的高科技設(shè)備,它們就像章魚觸手一樣靈活,能夠在人體復(fù)雜的支氣管網(wǎng)絡(luò)中自如穿行。
支氣管鏡檢查聽起來可能很陌生,但它其實是醫(yī)生診斷肺部疾病的重要方法。傳統(tǒng)的支氣管鏡就像一根細長的管子,醫(yī)生需要小心翼翼地操控它在患者的氣道中移動,尋找病變組織或進行活檢。但人體的支氣管系統(tǒng)就像一棵倒置的樹,有無數(shù)分叉和彎曲,操作起來極其困難。而連續(xù)體機器人的出現(xiàn)就像給醫(yī)生裝上了"魔法觸手",它們可以彎曲、扭轉(zhuǎn),到達以前無法觸及的肺部深處。
然而,訓(xùn)練這些機器人醫(yī)生面臨著一個巨大的挑戰(zhàn):真實的醫(yī)療數(shù)據(jù)極其稀缺。畢竟,沒有病人愿意成為機器人的"練習(xí)對象",醫(yī)學(xué)倫理也不允許這樣做。同時,每個人的肺部結(jié)構(gòu)都不相同,就像每個人的指紋一樣獨特,這意味著機器人必須學(xué)會適應(yīng)各種不同的解剖結(jié)構(gòu)。
ROOM框架的誕生就是為了解決這個棘手問題。這個名字本身就很有趣——ROOM代表"醫(yī)學(xué)中的現(xiàn)實光學(xué)觀察",它本質(zhì)上是一個超級精密的虛擬現(xiàn)實系統(tǒng),專門為醫(yī)療機器人訓(xùn)練而設(shè)計。
ROOM系統(tǒng)的工作原理就像一個精密的電影制作流水線。首先,研究團隊從患者的CT掃描圖像開始,這些圖像就像人體內(nèi)部的"地圖"。然后,他們使用先進的3D重建技術(shù),將這些平面圖像轉(zhuǎn)換成完整的三維肺部模型,就像根據(jù)平面圖紙建造出真實的建筑物一樣。
接下來的步驟更加巧妙。系統(tǒng)會自動提取出肺部氣道的"中央路徑",這就像在復(fù)雜的地下洞穴系統(tǒng)中找出主要通道。這些路徑成為機器人導(dǎo)航的"高速公路",確保它們能夠安全地在肺部內(nèi)部移動,而不會撞到氣道壁。
整個模擬過程分為四個主要階段,每個階段都經(jīng)過精心設(shè)計。第一階段是從CT掃描中提取氣道的骨架結(jié)構(gòu),就像描摹出一棵樹的主干和分支。第二階段是智能采樣,系統(tǒng)會在氣道分叉點和高彎曲區(qū)域增加采樣密度,因為這些地方是導(dǎo)航最困難的區(qū)域,需要更多的訓(xùn)練數(shù)據(jù)。第三階段是數(shù)據(jù)合成,系統(tǒng)生成同步的多模態(tài)傳感器數(shù)據(jù)流,包括RGB圖像、深度圖、表面法線、光流場和點云。最后一個階段是傳感器噪聲建模,通過頻域分析真實支氣管鏡圖像的噪聲特征,然后將這些噪聲特征應(yīng)用到合成圖像上,使虛擬數(shù)據(jù)看起來就像真實拍攝的一樣。
ROOM系統(tǒng)的技術(shù)核心在于其對連續(xù)體機器人的精確建模。這種機器人不同于傳統(tǒng)的剛性機器人,它們更像是一條智能的"電子蛇"。研究團隊基于Cosserat桿理論來描述機器人的運動,這是一套復(fù)雜的數(shù)學(xué)方程,用于計算柔性物體在三維空間中的彎曲和扭轉(zhuǎn)。機器人有三個自由度:肌腱驅(qū)動控制彎曲程度、軸向旋轉(zhuǎn)決定彎曲平面、以及線性插入深度。
為了讓模擬更加逼真,研究團隊還加入了各種現(xiàn)實因素。他們建立了摩擦模型,模擬機器人與組織之間的相互作用。庫侖摩擦系數(shù)被設(shè)定為靜摩擦0.3和動摩擦0.25,這些數(shù)值來自真實的支氣管鏡-組織測量。他們還模擬了執(zhí)行器噪聲,包括機械順應(yīng)性和通信延遲造成的控制不完美,以及碰撞模型,確保模擬中的接觸行為符合真實的物理規(guī)律。
在視覺渲染方面,ROOM系統(tǒng)達到了電影級別的逼真度。系統(tǒng)使用Blender的路徑追蹤技術(shù)和基于物理的材質(zhì)著色器系統(tǒng),準確再現(xiàn)了支氣管內(nèi)濕潤粘膜表面的視覺特性。研究團隊特別注意模擬支氣管鏡特有的定向照明效果,在機器人頂端安裝了指數(shù)衰減的點光源,完美復(fù)制了真實醫(yī)療環(huán)境中的照明條件。
為了驗證ROOM系統(tǒng)生成數(shù)據(jù)的有效性,研究團隊進行了兩項關(guān)鍵測試。第一項測試是多視角姿態(tài)估計,這對醫(yī)療機器人來說至關(guān)重要,因為它們需要準確知道自己在人體內(nèi)的位置。研究團隊比較了四種不同的方法:傳統(tǒng)的ORB-SLAM和COLMAP方法,以及基于學(xué)習(xí)的DUSt3R和VGGT方法。結(jié)果顯示,傳統(tǒng)方法在支氣管環(huán)境中表現(xiàn)不佳,相對旋轉(zhuǎn)精度只有41%,相對平移精度僅為0.07%,這主要是因為支氣管內(nèi)部缺乏足夠的紋理特征。相比之下,VGGT方法表現(xiàn)最佳,達到了79%的旋轉(zhuǎn)精度和0.25%的平移精度。
第二項測試聚焦于單目深度估計,這對于支氣管鏡導(dǎo)航同樣重要。由于支氣管鏡的尺寸限制(直徑僅2.4-6.2毫米),很難安裝立體相機系統(tǒng),因此單目深度估計成為唯一選擇。研究團隊測試了七種不同的深度估計模型,包括通用模型Metric3D-V2、Depth Anything V2和UniDepth,以及專門針對內(nèi)窺鏡的模型EndoDAC、EndoOmni和BREA-Depth。
測試結(jié)果揭示了支氣管環(huán)境的獨特挑戰(zhàn)。所有模型都表現(xiàn)出相對較高的絕對相對誤差(0.44-0.49)和較低的δ1精度分數(shù)(26-28%),遠低于在自然圖像上80-90%的表現(xiàn)。錯誤主要集中在兩個區(qū)域:濕潤粘膜表面產(chǎn)生的鏡面高光處,以及氣道分叉等幾何不連續(xù)區(qū)域。支氣管的重復(fù)分支幾何結(jié)構(gòu)缺乏足夠的紋理梯度,難以提供可靠的深度線索。
為了證明ROOM數(shù)據(jù)的實用價值,研究團隊進行了模型微調(diào)實驗。他們選擇了三個模型進行微調(diào):通用的UniDepth和DepthAnything V2,以及專門的BREA-Depth。為避免數(shù)據(jù)分布偏差,他們在一個獨立的支氣管鏡數(shù)據(jù)集上進行測試。結(jié)果表明,使用ROOM數(shù)據(jù)進行微調(diào)確實能夠改善性能。例如,BREA-Depth的δ1精度從65.39%提升到67.70%,相對增長3.5%。更重要的是,即使在完全不同的真實支氣管鏡圖像上測試,微調(diào)后的模型仍然表現(xiàn)出明顯改善。
研究團隊還展示了ROOM數(shù)據(jù)在視覺導(dǎo)航任務(wù)中的應(yīng)用潛力。他們實現(xiàn)了一個基于采樣的路徑規(guī)劃器,使用預(yù)測的深度圖生成局部點云地圖進行碰撞檢測。雖然還處于初步階段,但結(jié)果顯示傳統(tǒng)規(guī)劃器能夠提供合理的導(dǎo)航路徑,從當前相機位置到最遠可見點規(guī)劃出可行路徑。
ROOM框架的創(chuàng)新不僅在于技術(shù)實現(xiàn),更在于它解決了醫(yī)療機器人訓(xùn)練中的根本性難題。傳統(tǒng)上,醫(yī)療機器人的開發(fā)受到真實數(shù)據(jù)稀缺的嚴重制約,因為患者安全和醫(yī)學(xué)倫理的考慮使得大規(guī)模數(shù)據(jù)收集變得極其困難。ROOM系統(tǒng)通過生成無限多樣的合成訓(xùn)練數(shù)據(jù),徹底改變了這一現(xiàn)狀。
系統(tǒng)生成的數(shù)據(jù)具有極高的多樣性和復(fù)雜性。每個虛擬患者都有獨特的解剖結(jié)構(gòu),反映了真實世界中人體解剖的巨大變異。同時,系統(tǒng)可以模擬各種病理情況和手術(shù)場景,為機器人提供全面的訓(xùn)練環(huán)境。這就像為飛行員提供了一個能夠模擬各種天氣條件、緊急情況和機型的飛行模擬器。
ROOM系統(tǒng)的輸出數(shù)據(jù)組織得井井有條,方便研究人員使用。每個數(shù)據(jù)集都按患者解剖結(jié)構(gòu)和序列進行分組,包含同步的多模態(tài)傳感器數(shù)據(jù):600×600像素的RGB圖像、公制深度圖、表面法線、光流場、點云、真實姿態(tài)以及標定參數(shù)和時間戳。這種標準化的數(shù)據(jù)格式使得不同研究團隊能夠輕松共享和比較結(jié)果。
從技術(shù)角度來看,ROOM框架具有出色的可擴展性。其模塊化架構(gòu)允許研究人員根據(jù)需要替換不同的組件。例如,可以更換物理模擬引擎、渲染引擎或機器人模型,甚至可以擴展到其他內(nèi)窺鏡手術(shù)類型,如結(jié)腸鏡檢查或關(guān)節(jié)鏡檢查。這種靈活性使得ROOM不僅僅是一個研究工具,更是一個可持續(xù)發(fā)展的平臺。
當然,ROOM系統(tǒng)也存在一些局限性。首先,解剖重建流程依賴于CT掃描質(zhì)量,對于存在嚴重遮擋或異常幾何結(jié)構(gòu)的病理案例可能會失效。其次,雖然系統(tǒng)基于PyBullet提供了物理精確的環(huán)境,但可能無法完全反映真實支氣管的接觸和變形動力學(xué)。此外,系統(tǒng)目前還不能模擬組織變形和生理動態(tài),如呼吸運動等。
盡管存在這些限制,ROOM框架的意義遠遠超出了技術(shù)層面。它為醫(yī)療機器人研究開辟了新的可能性,使得研究人員可以在安全、可控的環(huán)境中進行大規(guī)模實驗。這不僅加速了算法開發(fā),也為最終的臨床應(yīng)用奠定了堅實基礎(chǔ)。
展望未來,ROOM系統(tǒng)有望推動整個醫(yī)療機器人領(lǐng)域的發(fā)展。隨著更多研究團隊采用這一框架,我們可以期待看到更先進的導(dǎo)航算法、更精確的診斷工具,以及更安全的醫(yī)療機器人系統(tǒng)。最終,這些技術(shù)進步將直接惠及患者,使得肺部疾病的早期診斷和精準治療成為現(xiàn)實。
ROOM框架的開源發(fā)布體現(xiàn)了研究團隊對促進整個學(xué)術(shù)界發(fā)展的承諾。通過免費提供代碼和數(shù)據(jù),他們?yōu)槿蜓芯咳藛T創(chuàng)造了一個公平的競爭環(huán)境,使得即使是資源有限的研究機構(gòu)也能參與到這一前沿領(lǐng)域的研究中來。這種開放的科學(xué)精神正是推動人類醫(yī)療技術(shù)進步的重要動力。
說到底,ROOM框架代表了醫(yī)療技術(shù)發(fā)展的一個重要里程碑。它不僅解決了當前醫(yī)療機器人訓(xùn)練中的數(shù)據(jù)瓶頸問題,更為未來智能醫(yī)療系統(tǒng)的發(fā)展指明了方向。當我們設(shè)想未來的醫(yī)院里,機器人醫(yī)生能夠以毫米級精度在患者體內(nèi)導(dǎo)航,精準地進行診斷和治療時,ROOM這樣的訓(xùn)練系統(tǒng)將是實現(xiàn)這一愿景的關(guān)鍵基礎(chǔ)設(shè)施。對于普通患者而言,這意味著更安全、更精準、更少痛苦的醫(yī)療體驗,以及更早期的疾病發(fā)現(xiàn)和更有效的治療方案。
Q&A
Q1:ROOM框架是什么?它能做什么?
A:ROOM是愛丁堡大學(xué)開發(fā)的醫(yī)療機器人訓(xùn)練模擬器,專門為支氣管鏡機器人生成訓(xùn)練數(shù)據(jù)。它能從患者CT掃描創(chuàng)建逼真的虛擬肺部環(huán)境,讓機器人在其中練習(xí)導(dǎo)航和操作,就像飛行員使用飛行模擬器訓(xùn)練一樣。
Q2:為什么需要ROOM這樣的模擬系統(tǒng)來訓(xùn)練醫(yī)療機器人?
A:真實醫(yī)療數(shù)據(jù)極其稀缺,因為患者安全和醫(yī)學(xué)倫理限制了數(shù)據(jù)收集。同時每個人的肺部結(jié)構(gòu)都不同,機器人需要大量多樣化的訓(xùn)練數(shù)據(jù)才能適應(yīng)各種解剖結(jié)構(gòu),而ROOM可以生成無限的虛擬訓(xùn)練場景。
Q3:ROOM生成的虛擬數(shù)據(jù)真的有用嗎?
A:研究證明非常有用。實驗顯示用ROOM數(shù)據(jù)微調(diào)的深度估計模型性能明顯改善,比如BREA-Depth模型的準確率從65.39%提升到67.70%。即使在真實醫(yī)療圖像上測試,微調(diào)后的模型也表現(xiàn)更好。
好文章,需要你的鼓勵
浙江大學(xué)團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學(xué)競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓(xùn)練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團隊發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學(xué)習(xí)方法訓(xùn)練多個AI模型。實驗結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。