在2025年5月,康涅狄格大學的研究團隊發(fā)表了一篇名為"ScanBot: Towards Intelligent Surface Scanning in Embodied Robotic Systems"的研究論文,該研究由Zhiling Chen、Yang Zhang、Fardin Jalil Piran、Qianyu Zhou、Jiong Tang和通訊作者Farhad Imani共同完成。這項研究展示了機器人智能系統(tǒng)面臨的一個被忽視卻至關重要的挑戰(zhàn):機器人不僅需要能抓取和操作物體,還需要能夠進行高精度的表面掃描。這就好比我們?nèi)祟惒粌H要能用手拿起物品,還要能用眼睛細致觀察物體表面的每一個細節(jié)。
一、為什么機器人需要學會"仔細觀察":研究背景與動機
想象一下,當你看到一個陌生的物體時,你不僅會伸手去拿它,還會仔細觀察它的表面、材質(zhì)和細節(jié)。這種觀察能力對我們來說似乎是理所當然的,但對機器人來說卻是一個巨大的挑戰(zhàn)。近年來,機器人領域取得了令人印象深刻的進步,特別是在導航、抓取物體和自然語言交互方面。然而,研究團隊發(fā)現(xiàn)了一個關鍵問題:現(xiàn)有的機器人系統(tǒng)大多只關注粗略的任務,如抓取和移動物體,而忽略了高精度表面檢測這一重要能力。
想象一下一個簡單的區(qū)別:用機械爪抓起一個物體與用激光掃描儀精確地掃描物體表面是兩種完全不同的任務。前者就像用手拿起一個蘋果,而后者則像用放大鏡仔細檢查蘋果表面是否有瑕疵或蟲害。這兩種任務對機器人的要求截然不同。
研究團隊指出,當今的通用機器人可能會使用各種工具,而這些工具對運動控制的要求遠比簡單的平行夾持器嚴格。例如,噴漆噴槍必須保持±2毫米的距離和±50毫米/秒的掃描速度才能避免"橘皮效應";TIG焊接torch必須在±0.2毫米范圍內(nèi)跟蹤焊縫;而本研究關注的激光線掃描儀的軌跡抖動必須低于0.1毫米(即傳感器的深度分辨率)。目前沒有公開的基準測試能評估機器人模型是否能滿足這種亞毫米級、受指令條件約束的軌跡要求。
這一差距在大型工業(yè)組件的非破壞性評估中尤為明顯,例如飛機蒙皮、渦輪葉片和電池外殼。對于這些大型物體,全表面掃描的工作量會隨零部件尺寸呈二次方增長,并且在很少出現(xiàn)故障的區(qū)域上浪費傳感器帶寬。例如,以0.1毫米分辨率掃描一個1米×0.5米的渦輪葉片需要約5000萬個點,使用1千赫茲的傳感器需要超過45分鐘,這對于在線質(zhì)量控制來說是不可行的。工程師們希望進行有目標的掃描,比如"檢查前緣焊接",讓機器人將這個短語定位到一個網(wǎng)格區(qū)域,并即時調(diào)整距離、速度和曝光參數(shù)。
二、夾具vs掃描儀:兩種工具的不同挑戰(zhàn)
為了更清楚地說明問題,研究人員比較了機器人使用夾具和掃描儀時的行為差異。想象一個機器人正在執(zhí)行四個代表性步驟——無論是使用夾具還是掃描儀。
在第一步,兩種系統(tǒng)都從初始狀態(tài)開始,識別感興趣的物體。但這里已經(jīng)出現(xiàn)了差異:對于夾具來說,目標是一個需要抓取的立方體;而對于掃描儀,必須將物體視為需要輪廓分析的表面。
在第二步,夾具會定位立方體并基于幾何形狀識別穩(wěn)定的抓取姿勢。而掃描儀則必須解釋自然語言指令(例如"掃描風扇"),根據(jù)物體外觀和環(huán)境條件調(diào)整掃描參數(shù),并將指令定位到特定區(qū)域。
第三步,夾具執(zhí)行簡短的運動來抓取物體,而掃描儀需要精確移動到正確對齊的起點,保持適當?shù)母叨群头较蛞员苊庹趽鹾蜏y量偽影。
最后,在第四步,夾具完成任務,進行離散的放置動作,而掃描儀則執(zhí)行平滑連續(xù)的運動到終點。不同于抓取,掃描任務的成功不是由任務完成來判斷,而是由所得3D表面重建的質(zhì)量和完整性來判斷。兩者都對運動抖動或錯位極為敏感。
三、傳統(tǒng)掃描方法的局限性
研究團隊發(fā)現(xiàn),現(xiàn)實世界中工業(yè)掃描的執(zhí)行方式也存在局限性。傳統(tǒng)的激光掃描通常以兩種方式之一進行:要么使用固定掃描儀對通過傳送帶的物體進行掃描,要么使用機器臂沿著整個表面遵循硬編碼的軌跡。
雖然這些方法可能適用于簡單、均勻的零件,但在實際檢測場景中它們變得效率低下且不切實際。處理大型組件時,全面的表面覆蓋變得耗時過多。更關鍵的是,缺陷通常出現(xiàn)在特定區(qū)域,如連接器、焊縫或邊緣,這使得全表面掃描變得浪費。此外,缺陷(如微裂紋或分層)只能在經(jīng)過精細調(diào)整的條件下被檢測到,例如較慢的掃描速度或更高的曝光設置,這些條件無法均勻應用于整個零件。
四、ScanBot數(shù)據(jù)集:讓機器人學會"細致觀察"的第一步
基于這些實際挑戰(zhàn),研究團隊推出了ScanBot,這是首個專為高精度表面掃描任務設計的指令條件多模態(tài)數(shù)據(jù)集。ScanBot包含12個物體,既有現(xiàn)實世界的電子組件,也有分析結(jié)構的3D打印形狀,每一個都注明了多個任務指令和相應的高分辨率掃描軌跡。
這些物體包括四塊不同形態(tài)和散熱設計的顯卡、一個內(nèi)存模塊、一張WiFi卡,以及六個3D打印幾何形狀?,F(xiàn)實世界的組件具有多樣的表面特性,如啞光塑料蓋、有光澤的散熱器、暴露的焊接電路和反光金屬連接器,這些都是工業(yè)表面分析中常見的挑戰(zhàn)。3D打印部件則被設計成三個比較組:黑白兩個等邊三角形、兩個有不同凸起和凹陷圖案的立方體、以及兩個有相同幾何特征但不同表面顏色的圓柱體。
研究團隊定義了六種代表性的掃描任務:表面掃描(捕捉物體的完整幾何形狀)、幾何聚焦(針對特定結(jié)構組件如風扇或凹槽)、空間參考(掃描左側(cè)或右側(cè)等相對位置定義的區(qū)域)、功能目標(關注端口或連接器等語義有意義的部分)、缺陷檢測(針對有缺陷或損壞區(qū)域的掃描)以及比較分析(比較多個區(qū)域的一致性或?qū)R)。
每個任務都配備了一個或多個自然語言指令,并通過相應的運動軌跡執(zhí)行。每個軌跡產(chǎn)生一個多模態(tài)數(shù)據(jù)樣本,由同步傳感器流和詳細元數(shù)據(jù)組成。數(shù)據(jù)集總共包含896個掃描路徑,涵蓋了這六個類別。
研究團隊的硬件設置包括一個6自由度UR3協(xié)作機器人臂,配備了多傳感器負載。機器人末端執(zhí)行器上安裝了Keyence LJ-X8200 2D/3D激光位移傳感器。該型號使用405納米藍色激光,在80毫米視場內(nèi)每個輪廓捕獲3200個數(shù)據(jù)點,實現(xiàn)亞毫米分辨率(Z軸重復性為1微米,X軸精度為3微米)。此外,還安裝了Intel RealSense D435i RGB-D相機和GoPro HERO8 Black相機,分別提供第一人稱和第三人稱視角。
五、當前智能模型的局限性:評估結(jié)果
有了這個數(shù)據(jù)集,研究團隊評估了當前最先進的多模態(tài)大語言模型(MLLM)在指令條件表面掃描任務中的表現(xiàn)。測試對象包括GPT-4.1、OpenAI o3、Gemini 2.5 Pro和Gemini 2.5 Flash。評估涵蓋了從感知到規(guī)劃再到執(zhí)行的整個過程循環(huán):模型首先觀察來自未見過物體的多個傳感器數(shù)據(jù),然后解釋指令,規(guī)劃激光掃描軌跡,最后從獲取的輪廓重建表面幾何。
在選擇掃描儀參數(shù)方面,Gemini 2.5 Flash取得了最高的總體準確率,為41.7%,其次是Gemini 2.5 Pro,為40.3%。GPT-4.1和OpenAI o3表現(xiàn)相似,都達到34.7%的準確率。不同參數(shù)的預測準確率差異明顯。采樣頻率和光強范圍預測相對一致,表明模型可以捕捉一般的物體大小和亮度。相比之下,Z中心和CMOS范圍特別困難,平均準確率低于25%。
在定位目標區(qū)域方面,OpenAI o3取得了最高的平均交并比(IoU)0.129,其次是GPT-4.1的0.073。Gemini 2.5 Pro和Gemini 2.5 Flash表現(xiàn)不佳,平均IoU低于0.02。結(jié)果顯示,模型在T1(全物體掃描)任務上表現(xiàn)最好,這類指令映射到整個物體且不那么模糊。對于涉及精細特征的任務(如T2幾何聚焦、T3空間參考、T4功能目標),性能急劇下降,IoU接近零。
在生成掃描路徑方面,無論使用什么輸入組合和模型類型,預測的路徑點始終落在物體輪廓之外,讓激光掃過背景,產(chǎn)生重構誤差最大的點云。這表明,即使給予額外的深度線索或外部視圖,當前多模態(tài)大語言模型也缺乏將自由形式指令轉(zhuǎn)換為可行掃描軌跡所需的毫米級空間定位能力。
這些實驗結(jié)果表明,盡管最先進的視覺語言動作(VLA)模型在抓取或?qū)Ш降却至6热蝿罩斜憩F(xiàn)良好,但在需要亞毫米精度的表面掃描任務中仍面臨重大挑戰(zhàn)。要實現(xiàn)工業(yè)級的掃描性能,未來的模型需要更好地理解精確的空間關系、物體幾何結(jié)構和傳感器參數(shù)調(diào)整。
六、未來方向與局限性
盡管ScanBot為指令條件表面掃描提供了結(jié)構化基準,但它仍有幾個局限性。首先,所有軌跡都假設是平面表面,限制了它對具有曲面或不規(guī)則幾何形狀的物體的適用性。其次,掃描過程是開環(huán)的:一旦預測了軌跡和參數(shù),系統(tǒng)就不會根據(jù)執(zhí)行過程中的掃描質(zhì)量或反饋進行調(diào)整。第三,框架假設一次性掃描,但在實際場景中,某些區(qū)域可能需要在不同角度或設置下多次掃描才能獲得足夠的覆蓋率或分辨率。
未來的工作將解決這些局限性,擴展ScanBot以支持曲面掃描,機器人需要持續(xù)調(diào)整姿勢和方向以跟隨非平面幾何。研究團隊還計劃啟用多通道掃描,允許對具有挑戰(zhàn)性的區(qū)域進行重復表面覆蓋。最后,雖然本研究關注激光掃描儀,但指令引導連續(xù)控制的更廣泛范式適用于其他工具,如焊機、噴霧器和拋光機。研究團隊計劃將ScanBot擴展為多工具基準,進一步探索工具條件感知和控制。
七、結(jié)語:走向更全面的機器人智能
總的來說,ScanBot數(shù)據(jù)集和實驗結(jié)果揭示了當前機器人智能系統(tǒng)的一個重要盲區(qū):雖然我們的機器人越來越擅長抓取和移動物體,但它們在需要高精度、連續(xù)操作的任務上仍然表現(xiàn)不佳。這就像是我們教會了機器人如何用手,卻還沒教會它們?nèi)绾斡醚劬褪种傅木氂|感。
這項研究不僅針對工業(yè)應用,還揭示了機器人智能的一個基礎問題:真正的通用機器人需要能夠熟練使用各種工具,而每種工具都有其獨特的感知和控制要求。未來的機器人系統(tǒng)不僅需要掌握"抓取"這樣的離散動作,還需要能夠執(zhí)行"掃描"、"檢測"、"觀察"這樣需要連續(xù)精確控制的任務。
ScanBot提供的基準測試和數(shù)據(jù)集為這一方向的研究提供了重要的第一步,幫助研究人員開發(fā)更全面、更精確的機器人控制系統(tǒng)。對于普通人來說,這意味著未來的機器人不僅能幫我們搬運物品,還能幫我們進行精細的檢查工作,從檢測家用電器的潛在問題到輔助醫(yī)療診斷,應用場景將更加廣泛。
有興趣深入了解這項研究的讀者可以在arXiv上查找原論文,標題為"ScanBot: Towards Intelligent Surface Scanning in Embodied Robotic Systems",發(fā)表于2025年5月,由康涅狄格大學的研究團隊完成。
好文章,需要你的鼓勵
浙江大學團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學、編程等任務上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓練提供了新思路。
南洋理工大學與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術,實現(xiàn)AI視頻實時流式生成的重大突破。該技術通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學研究團隊發(fā)現(xiàn),通過讓AI模型學習解決幾何問題,能夠顯著提升其空間理解能力。他們構建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學習方法訓練多個AI模型。實驗結(jié)果顯示,幾何訓練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎幾何知識對培養(yǎng)AI空間智能的重要價值。