在我們想象中的未來(lái)世界里,機(jī)器人應(yīng)該能夠像人類一樣靈活地看到周圍的一切。但現(xiàn)實(shí)中的機(jī)器人卻像戴著眼罩一樣,只能看到前方很小的一片區(qū)域。這項(xiàng)由香港科技大學(xué)(廣州)的鄭旭教授團(tuán)隊(duì)聯(lián)合多所國(guó)際頂尖機(jī)構(gòu)開展的研究,于2025年9月發(fā)表在計(jì)算機(jī)視覺領(lǐng)域的重要論文中,為我們展示了一個(gè)全新的解決方案:讓機(jī)器人擁有360度全方位視覺,就像給它們裝上了"千里眼"。這篇名為《PANORAMA: The Rise of Omnidirectional Vision in the Embodied AI Era》的論文詳細(xì)闡述了全方位視覺技術(shù)在人工智能時(shí)代的重要意義和發(fā)展前景。
想象一下,當(dāng)你站在房間中央時(shí),你的眼睛雖然只能看到前方,但通過轉(zhuǎn)動(dòng)頭部,你能夠觀察到四周的所有情況。而傳統(tǒng)的機(jī)器人攝像頭就像是被固定住頭部的人,只能死死盯著一個(gè)方向。這種限制在過去的人工智能應(yīng)用中可能不算大問題,因?yàn)槟菚r(shí)的任務(wù)相對(duì)簡(jiǎn)單,比如識(shí)別一張照片里的物體。但現(xiàn)在進(jìn)入了所謂的"具身智能時(shí)代",機(jī)器人需要在真實(shí)世界中導(dǎo)航、與人互動(dòng)、執(zhí)行復(fù)雜任務(wù),這種"視野受限"的問題就變得致命了。
鄭旭教授的研究團(tuán)隊(duì)深入分析了這個(gè)問題的根源。他們發(fā)現(xiàn),全方位視覺技術(shù)面臨著三大核心挑戰(zhàn),就像是三座大山阻擋著機(jī)器人獲得真正的"全景視野"。第一座大山是數(shù)據(jù)瓶頸問題。360度全景圖像就像是把整個(gè)球面世界硬生生地壓扁到一張平面照片上,這種"強(qiáng)行壓扁"的過程會(huì)產(chǎn)生嚴(yán)重的扭曲變形。想象你試圖把一個(gè)橙子的表皮完整地鋪在桌面上,邊緣部分必然會(huì)被拉伸變形。這種扭曲使得傳統(tǒng)的圖像標(biāo)注工具完全失效,人工標(biāo)注成本急劇上升,導(dǎo)致高質(zhì)量的全景數(shù)據(jù)集極度稀缺。
第二座大山是模型能力不足?,F(xiàn)有的人工智能模型就像是為看普通照片而生的,它們內(nèi)置的"思維模式"完全適應(yīng)不了扭曲的全景圖像。這就好比一個(gè)從小只見過平面地圖的人,突然拿到一個(gè)地球儀,完全不知道該如何理解這種球面信息。當(dāng)這些模型直接處理全景圖像時(shí),性能會(huì)顯著下降,就像戴著老花鏡看手機(jī)屏幕一樣模糊不清。
第三座大山是應(yīng)用空白問題。當(dāng)360度攝像頭這種新型傳感器遇上具身智能這個(gè)新時(shí)代,許多傳統(tǒng)應(yīng)用場(chǎng)景都需要重新思考和設(shè)計(jì)。工業(yè)安全檢查、森林火災(zāi)監(jiān)測(cè)等領(lǐng)域雖然迫切需要全方位視覺技術(shù),但由于缺乏跨學(xué)科人才和足夠的全景數(shù)據(jù)支持,這些應(yīng)用領(lǐng)域目前還處于探索階段,就像有了鋒利的寶劍卻沒有找到合適的戰(zhàn)場(chǎng)。
面對(duì)這些挑戰(zhàn),研究團(tuán)隊(duì)系統(tǒng)梳理了全方位視覺技術(shù)的最新進(jìn)展,將其歸納為三個(gè)相互關(guān)聯(lián)的發(fā)展方向。在全景生成領(lǐng)域,研究者們起初嘗試使用生成對(duì)抗網(wǎng)絡(luò)來(lái)創(chuàng)造全景圖像,就像教會(huì)計(jì)算機(jī)模仿藝術(shù)家畫畫。其中最具代表性的是Dream360技術(shù),它采用了一種巧妙的兩階段策略:先通過代碼簿的方式擴(kuò)展全景圖像的邊界部分,再通過頻率感知的方法進(jìn)行精細(xì)化處理,最終能夠生成高質(zhì)量、高分辨率的全景圖像。
隨著擴(kuò)散模型成為生成領(lǐng)域的主流技術(shù),全景生成研究也緊跟潮流。PanoDiffusion技術(shù)就像是為全景圖像量身定制的"畫師",它采用雙分支擴(kuò)散結(jié)構(gòu),能夠同時(shí)處理RGB彩色信息和深度信息,讓生成的全景圖像不僅看起來(lái)真實(shí),還包含了豐富的空間信息。而OmniDrag技術(shù)則更進(jìn)一步,允許用戶通過簡(jiǎn)單的軌跡控制來(lái)指導(dǎo)全景圖像的生成過程,就像用畫筆在畫布上勾勒出想要的場(chǎng)景走向。
在全景感知領(lǐng)域,考慮到數(shù)據(jù)瓶頸問題的嚴(yán)重性,領(lǐng)域適應(yīng)技術(shù)成為了熱門的解決方案。這種技術(shù)就像是教會(huì)機(jī)器人"舉一反三"的能力,讓它能夠利用無(wú)標(biāo)簽的全景數(shù)據(jù)進(jìn)行學(xué)習(xí)。研究者們開發(fā)了三種主要策略來(lái)實(shí)現(xiàn)這個(gè)目標(biāo)。對(duì)抗學(xué)習(xí)策略通過引入一個(gè)"鑒別者"來(lái)強(qiáng)迫模型生成難以區(qū)分來(lái)源域的特征,就像訓(xùn)練一個(gè)演員既要演得像,又要讓觀眾猜不出他的真實(shí)身份。
偽標(biāo)簽策略則采用了"自己教自己"的思路,為目標(biāo)域數(shù)據(jù)生成自監(jiān)督標(biāo)簽進(jìn)行訓(xùn)練。GoodSAM和GoodSAM++技術(shù)利用分割萬(wàn)物模型來(lái)改進(jìn)偽標(biāo)簽的質(zhì)量,提供更可靠的學(xué)習(xí)目標(biāo)。而OmniSAM更是提出了動(dòng)態(tài)偽標(biāo)簽更新機(jī)制,讓模型能夠在學(xué)習(xí)過程中不斷改進(jìn)自己的"理解"。原型對(duì)齊策略的目標(biāo)是讓源域和目標(biāo)域的高級(jí)特征中心保持一致,就像確保不同房間的溫度計(jì)都指向同一個(gè)刻度。360SFUDA++和OmniSAM等技術(shù)專注于匹配扭曲模式并通過原型抽象語(yǔ)義,取得了顯著的性能提升。
在全景理解領(lǐng)域,當(dāng)前的多模態(tài)大語(yǔ)言模型主要基于普通圖像訓(xùn)練,面對(duì)全景圖像時(shí)就像是從未見過球體的人突然要理解地球儀一樣困惑。從數(shù)據(jù)角度來(lái)看,近期的研究重點(diǎn)是構(gòu)建全景理解數(shù)據(jù)集和基準(zhǔn)測(cè)試。OSR-bench創(chuàng)造性地提出了認(rèn)知地圖的概念,將整個(gè)全景圖像分割成小塊,并根據(jù)其中包含的物體為每個(gè)小塊打標(biāo)簽。這種分層方法實(shí)現(xiàn)了快速有效的數(shù)據(jù)標(biāo)注和基準(zhǔn)測(cè)試,就像將復(fù)雜的拼圖分解成一個(gè)個(gè)容易處理的小片段。
同時(shí),OmniVQA通過智能體協(xié)作實(shí)現(xiàn)了高效的數(shù)據(jù)標(biāo)注,多個(gè)AI助手像團(tuán)隊(duì)合作一樣共同完成標(biāo)注任務(wù)。從模型角度來(lái)看,當(dāng)前的方法傾向于應(yīng)用GRPO技術(shù),但現(xiàn)有工作更偏向于直接在現(xiàn)有視覺問答數(shù)據(jù)集上微調(diào)多模態(tài)大語(yǔ)言模型。ERP-RoPE等技術(shù)嘗試探索全景圖像的內(nèi)部特征,進(jìn)一步增強(qiáng)模型對(duì)全景圖像的理解能力,就像為模型裝上了專門理解球面世界的"透視鏡"。
為了系統(tǒng)性地解決全方位視覺在具身智能時(shí)代面臨的挑戰(zhàn),研究團(tuán)隊(duì)提出了PANORAMA系統(tǒng)架構(gòu)這一理想解決方案。這個(gè)系統(tǒng)就像是為機(jī)器人打造的一套完整的"視覺生態(tài)系統(tǒng)",由四個(gè)相互協(xié)調(diào)的子系統(tǒng)組成。
數(shù)據(jù)采集與預(yù)處理子系統(tǒng)是整個(gè)系統(tǒng)的"眼睛和大腦前端",負(fù)責(zé)捕獲原始的全方位數(shù)據(jù)并將其轉(zhuǎn)換為適合計(jì)算處理的格式。這個(gè)子系統(tǒng)主要包含攝像頭硬件(如使用等距矩形投影或多魚眼鏡頭組合的設(shè)備)和互補(bǔ)傳感器(如慣性測(cè)量單元和深度傳感器)。它的核心功能包括數(shù)據(jù)捕獲、格式轉(zhuǎn)換和同步校準(zhǔn)。數(shù)據(jù)捕獲負(fù)責(zé)獲取高分辨率的全方位圖像和視頻,格式轉(zhuǎn)換能夠在不同表示方法之間動(dòng)態(tài)轉(zhuǎn)換數(shù)據(jù),以適應(yīng)下游處理任務(wù)的需求。同步校準(zhǔn)則確保多個(gè)傳感器之間的時(shí)間對(duì)齊和空間協(xié)調(diào),為準(zhǔn)確的數(shù)據(jù)融合奠定基礎(chǔ)。
感知子系統(tǒng)是系統(tǒng)的"理解中樞",對(duì)預(yù)處理后的全景數(shù)據(jù)執(zhí)行基礎(chǔ)場(chǎng)景感知任務(wù)。它采用專門適應(yīng)球面幾何的深度學(xué)習(xí)模型,從全方位輸入中提取豐富的結(jié)構(gòu)化信息。這個(gè)子系統(tǒng)的關(guān)鍵能力包括特征提取和環(huán)境感知。特征提取利用專門的架構(gòu)(如球面卷積神經(jīng)網(wǎng)絡(luò)和變換器)來(lái)理解全方位背景,環(huán)境感知?jiǎng)t同時(shí)執(zhí)行語(yǔ)義分割、物體檢測(cè)和深度估計(jì)等核心感知任務(wù),通過共享特征骨干網(wǎng)絡(luò)提高效率。
應(yīng)用子系統(tǒng)是系統(tǒng)的"行動(dòng)大腦",將感知洞察轉(zhuǎn)化為具身AI智能體的具體行動(dòng)。它消費(fèi)結(jié)構(gòu)化數(shù)據(jù)(如語(yǔ)義地圖、物體列表、深度信息)來(lái)服務(wù)特定的下游任務(wù)。典型應(yīng)用包括導(dǎo)航與即時(shí)定位地圖構(gòu)建、人機(jī)交互和數(shù)字孿生與三維重建。導(dǎo)航與即時(shí)定位地圖構(gòu)建使自主移動(dòng)成為可能,并能在室內(nèi)外環(huán)境中進(jìn)行實(shí)時(shí)空間映射。人機(jī)交互為智能體提供全場(chǎng)景感知能力,實(shí)現(xiàn)更自然和情境感知的交互。數(shù)字孿生與三維重建則創(chuàng)建真實(shí)世界空間的沉浸式精確虛擬模型,用于仿真、規(guī)劃和監(jiān)控。
加速與部署子系統(tǒng)是系統(tǒng)的"效率保障",解決在真實(shí)世界資源受限環(huán)境中處理高分辨率全景數(shù)據(jù)的計(jì)算挑戰(zhàn)。它專注于整個(gè)流水線的實(shí)際實(shí)現(xiàn),包括軟件加速和硬件部署。軟件加速通過模型量化和剪枝等技術(shù)優(yōu)化整個(gè)技術(shù)棧,在準(zhǔn)確性、延遲和功耗之間取得平衡,以便在邊緣設(shè)備上部署。硬件部署則采用邊緣計(jì)算平臺(tái)來(lái)實(shí)現(xiàn)真實(shí)世界應(yīng)用。
整個(gè)系統(tǒng)的工作流程就像一條高效的生產(chǎn)線。數(shù)據(jù)采集與預(yù)處理子系統(tǒng)首先從全景攝像頭和其他傳感器捕獲原始數(shù)據(jù),進(jìn)行校正和同步。這些清潔、格式化的數(shù)據(jù)隨后傳遞給感知子系統(tǒng),深度學(xué)習(xí)模型在此執(zhí)行特征提取和環(huán)境感知,生成對(duì)場(chǎng)景的綜合理解。這些感知輸出隨后被應(yīng)用子系統(tǒng)利用,執(zhí)行導(dǎo)航或交互等特定的具身AI任務(wù)。在整個(gè)過程中,加速與部署子系統(tǒng)確保計(jì)算流水線的可行性,實(shí)現(xiàn)從原始傳感器輸入到最終具身應(yīng)用的低延遲、高效操作。
面向未來(lái),研究團(tuán)隊(duì)提出了一個(gè)雄心勃勃的六階段發(fā)展路線圖,就像為全方位視覺技術(shù)繪制了一張?jiān)敿?xì)的"成長(zhǎng)地圖"。第一階段是數(shù)據(jù)集整合,重點(diǎn)是將現(xiàn)有數(shù)據(jù)集整合到一個(gè)統(tǒng)一、一致的框架中,建立標(biāo)準(zhǔn)化的測(cè)試分組。數(shù)據(jù)將使用一致的標(biāo)簽重新標(biāo)注,靈活的重投影工具將確保跨不同格式(如等距矩形投影和立方體貼圖)的模型性能公平比較。這個(gè)階段將產(chǎn)生一個(gè)組織良好的基準(zhǔn)測(cè)試套件,通過仔細(xì)的人工檢查減少標(biāo)注錯(cuò)誤并提高標(biāo)簽準(zhǔn)確性。
第二階段是多模態(tài)擴(kuò)展,重點(diǎn)轉(zhuǎn)向同步來(lái)自RGB、深度、激光雷達(dá)、音頻和慣性測(cè)量單元傳感器的信號(hào),實(shí)現(xiàn)針對(duì)全景視覺定制的多模態(tài)和多任務(wù)預(yù)訓(xùn)練。標(biāo)準(zhǔn)化的設(shè)備和校準(zhǔn)協(xié)議將促進(jìn)更豐富的傳感器融合,增強(qiáng)全景攝像頭捕獲環(huán)境的建模能力。這個(gè)階段的關(guān)鍵里程碑是創(chuàng)建具有統(tǒng)一分組的公共多傳感器語(yǔ)料庫(kù),實(shí)現(xiàn)更有效的基準(zhǔn)測(cè)試。為了抵消大規(guī)模數(shù)據(jù)收集的成本,將利用混合真實(shí)-合成流水線,結(jié)合真實(shí)世界和模擬數(shù)據(jù)進(jìn)行更強(qiáng)大的傳感器訓(xùn)練。
第三階段專注于推理和具身數(shù)據(jù),重點(diǎn)是提升交互式具身任務(wù)中的推理能力,如基礎(chǔ)視覺問答、指令跟隨、導(dǎo)航和抓取。這些任務(wù)需要強(qiáng)大的空間推理來(lái)理解環(huán)境并與之交互?;旌蠁栴}生成方法將結(jié)合模板、大語(yǔ)言模型和人工驗(yàn)證,確保訓(xùn)練數(shù)據(jù)的規(guī)模和多樣性。仿真環(huán)境將在提供導(dǎo)航和抓取等任務(wù)的多樣化動(dòng)態(tài)場(chǎng)景方面發(fā)揮關(guān)鍵作用,這些任務(wù)需要精確的空間感知和決策制定。推理增強(qiáng)數(shù)據(jù)集和專門設(shè)計(jì)用于評(píng)估空間推理、導(dǎo)航和抓取性能的基準(zhǔn)測(cè)試的發(fā)布,將為衡量模型在真實(shí)世界交互環(huán)境中的成功率建立標(biāo)準(zhǔn)化協(xié)議。
第四階段是統(tǒng)一模型預(yù)訓(xùn)練,基于前幾個(gè)階段的集成多模態(tài)語(yǔ)料庫(kù),專注于為全景模型預(yù)訓(xùn)練統(tǒng)一的多任務(wù)編碼器。這些模型聯(lián)合處理360度幾何、語(yǔ)義標(biāo)簽和同步傳感器流(RGB、深度、激光雷達(dá)、音頻和慣性測(cè)量單元)。基于已建立的2D或3D架構(gòu)權(quán)重,關(guān)鍵創(chuàng)新在于使用全景特定數(shù)據(jù)集和任務(wù)目標(biāo)進(jìn)行微調(diào)和后訓(xùn)練。訓(xùn)練整合了跨投影表示、多目標(biāo)損失和域混合課程(真實(shí)-合成),以確??蛇w移性。這個(gè)階段將傳統(tǒng)模型適應(yīng)全景視覺的挑戰(zhàn),并增強(qiáng)在導(dǎo)航、抓取和具身任務(wù)等真實(shí)世界場(chǎng)景中的泛化能力。
第五階段建立評(píng)估和基準(zhǔn)測(cè)試基礎(chǔ)設(shè)施,包括標(biāo)準(zhǔn)化數(shù)據(jù)集分組、投影一致的重投影工具,以及涵蓋每任務(wù)準(zhǔn)確性、跨投影一致性和推理與具身任務(wù)成功率的統(tǒng)一度量套件。協(xié)議包括明確的分布外分組、校準(zhǔn)和不確定性測(cè)量、效率目標(biāo),以及關(guān)鍵任務(wù)的人工驗(yàn)證評(píng)估。這些組件共同實(shí)現(xiàn)可重現(xiàn)的比較、消融研究和操作就緒性評(píng)估。
最終的第六階段專注于部署和泛化,通過跨域遷移、持續(xù)學(xué)習(xí)和魯棒性測(cè)試為真實(shí)世界部署準(zhǔn)備模型。模型在真實(shí)世界條件下進(jìn)行測(cè)試,包括使用分布外分組的數(shù)據(jù)分布變化。評(píng)估將包括校準(zhǔn)、延遲和不確定性等測(cè)量。這個(gè)階段還包括提供壓力測(cè)試數(shù)據(jù)集、持續(xù)適應(yīng)評(píng)估基準(zhǔn)和驗(yàn)證模型不確定性工作流程的部署工具包。
當(dāng)前,全方位視覺技術(shù)正在為多個(gè)領(lǐng)域帶來(lái)革命性的影響。在機(jī)器人與自主導(dǎo)航領(lǐng)域,全方位感知是移動(dòng)機(jī)器人和自主車輛實(shí)現(xiàn)完整情境感知的基石。它消除了盲點(diǎn),使在密集和動(dòng)態(tài)環(huán)境(如擁擠的公共場(chǎng)所)中的導(dǎo)航更加準(zhǔn)確和安全,通過提供來(lái)自不同角度的上下文信息增強(qiáng)機(jī)器人的感知能力。
在人機(jī)交互方面,全方位視覺使機(jī)器人能夠理解類似人類的社交和空間信息。配備全方位攝像頭的機(jī)器人可以同時(shí)跟蹤多個(gè)個(gè)體,解釋群體對(duì)話,并理解來(lái)自任何方向的社交線索,從而促進(jìn)更自然、無(wú)縫和值得信賴的人機(jī)交互。
在認(rèn)知AI和虛擬智能體領(lǐng)域,全方位視覺提供了密集、信息豐富的感知流,從根本上更接近人類以自我為中心的世界視覺。這種高保真度輸入對(duì)于發(fā)展高級(jí)人類認(rèn)知能力的基礎(chǔ)至關(guān)重要,包括空間推理、長(zhǎng)期任務(wù)規(guī)劃和對(duì)環(huán)境物理的常識(shí)理解。
盡管全方位視覺技術(shù)在具身AI時(shí)代帶來(lái)了積極的跨社區(qū)影響,但仍存在一些開放挑戰(zhàn)需要未來(lái)研究來(lái)解決。泛化和魯棒性仍然是一個(gè)關(guān)鍵問題,因?yàn)榇蠖鄶?shù)當(dāng)前模型仍然專注于特定場(chǎng)景或投影方法。開發(fā)能夠跨越不同全景傳感器規(guī)格、應(yīng)用場(chǎng)景和投影方法泛化的模型仍然是一個(gè)重大挑戰(zhàn)。未來(lái)的工作需要專注于投影無(wú)關(guān)表示和能夠從無(wú)標(biāo)簽全方位信息(包括圖像和視頻流)學(xué)習(xí)不變特征的自監(jiān)督學(xué)習(xí)技術(shù)。
動(dòng)態(tài)扭曲處理是另一個(gè)重要挑戰(zhàn)。雖然當(dāng)前方法在處理全景圖像的靜態(tài)扭曲方面取得了顯著進(jìn)展,但它們將其視為與幀無(wú)關(guān)的幾何問題。這代表了一個(gè)關(guān)鍵限制,因?yàn)榕で谡鎸?shí)世界場(chǎng)景中本質(zhì)上是動(dòng)態(tài)的。未來(lái)的研究應(yīng)該進(jìn)一步明確考慮全方位視頻序列中扭曲的時(shí)間一致性和演化。
行動(dòng)感知表示學(xué)習(xí)是全方位視覺在具身AI時(shí)代的終極目標(biāo),不僅僅是讓機(jī)器人觀察得更好,而是讓它們更有效地采取行動(dòng)。一個(gè)關(guān)鍵方向是允許模型在全景圖像中學(xué)習(xí)面向行動(dòng)的表示。通過將全方位視覺特征的獨(dú)特優(yōu)勢(shì)整合到下游控制策略中,可以在機(jī)器人行為中實(shí)現(xiàn)更有效和高效的決策制定。
可擴(kuò)展和統(tǒng)一的架構(gòu)代表了一個(gè)重要挑戰(zhàn),即創(chuàng)建專門為全方位視覺設(shè)計(jì)的統(tǒng)一多任務(wù)基礎(chǔ)模型。超越任務(wù)特定模型的低效率,這些模型將在大量全景數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,以捕獲全方位幾何和語(yǔ)義的基礎(chǔ)理解。這將產(chǎn)生一個(gè)強(qiáng)大的視覺骨干網(wǎng)絡(luò),可以快速專門化于眾多應(yīng)用,提高性能和泛化能力,同時(shí)減少對(duì)大量任務(wù)特定數(shù)據(jù)集的需求。
研究團(tuán)隊(duì)向不同領(lǐng)域的研究者發(fā)出了明確的行動(dòng)呼吁。對(duì)于數(shù)據(jù)集創(chuàng)建者,他們建議規(guī)劃和發(fā)布大規(guī)模多任務(wù)全方位數(shù)據(jù)集,涵蓋真實(shí)世界場(chǎng)景的復(fù)雜性,包括室內(nèi)外場(chǎng)景、一般場(chǎng)景和具身智能場(chǎng)景。對(duì)于算法研究者,他們呼吁超越基于針孔模型的簡(jiǎn)單適應(yīng),創(chuàng)建擁有全方位信息的新型架構(gòu)和動(dòng)態(tài)學(xué)習(xí)范式,這是擁抱全方位視覺獨(dú)特挑戰(zhàn)的關(guān)鍵。對(duì)于應(yīng)用工程師,他們鼓勵(lì)探索和展示全方位感知在真實(shí)世界機(jī)器人和交互系統(tǒng)中的優(yōu)勢(shì),因?yàn)檫@彌合了實(shí)驗(yàn)室研究和實(shí)際應(yīng)用之間的差距。
這項(xiàng)研究的意義遠(yuǎn)遠(yuǎn)超出了技術(shù)層面的突破。它為我們描繪了一個(gè)未來(lái)世界的圖景:在那里,機(jī)器人不再是視野受限的"盲人",而是擁有全方位感知能力的智能伙伴。無(wú)論是在工廠中協(xié)助工人進(jìn)行安全檢查,還是在家庭中提供貼心服務(wù),或是在危險(xiǎn)環(huán)境中執(zhí)行救援任務(wù),這些擁有"千里眼"的機(jī)器人都將能夠提供前所未有的幫助。
說(shuō)到底,這項(xiàng)研究向我們展示了人工智能發(fā)展的一個(gè)重要轉(zhuǎn)折點(diǎn)。當(dāng)機(jī)器人從只能看到前方的"隧道視野"進(jìn)化為能夠感知四周一切的"全景視野"時(shí),它們就真正開始接近人類的感知能力。這不僅僅是技術(shù)上的進(jìn)步,更是向真正智能化、人性化的人工智能邁出的重要一步。未來(lái)的世界里,當(dāng)我們與機(jī)器人互動(dòng)時(shí),我們將感受到它們真的在"看著"我們,理解我們的需求,就像一個(gè)真正關(guān)心我們的朋友一樣。
Q&A
Q1:PANORAMA系統(tǒng)具體包含哪些子系統(tǒng),它們是如何協(xié)作的?
A:PANORAMA系統(tǒng)包含四個(gè)核心子系統(tǒng):數(shù)據(jù)采集與預(yù)處理子系統(tǒng)負(fù)責(zé)捕獲360度視覺數(shù)據(jù)并進(jìn)行格式轉(zhuǎn)換;感知子系統(tǒng)使用深度學(xué)習(xí)模型理解全景場(chǎng)景;應(yīng)用子系統(tǒng)將感知結(jié)果轉(zhuǎn)化為具體的機(jī)器人行動(dòng);加速與部署子系統(tǒng)確保整個(gè)系統(tǒng)能在實(shí)際設(shè)備上高效運(yùn)行。這四個(gè)子系統(tǒng)像流水線一樣協(xié)作,從原始數(shù)據(jù)輸入到最終的智能行為輸出。
Q2:全方位視覺技術(shù)與傳統(tǒng)攝像頭相比有什么優(yōu)勢(shì)?
A:全方位視覺技術(shù)最大的優(yōu)勢(shì)是消除了傳統(tǒng)攝像頭的"盲點(diǎn)"問題。傳統(tǒng)攝像頭只能看到前方小范圍區(qū)域,而360度攝像頭能夠同時(shí)感知四周所有方向的情況。這對(duì)于機(jī)器人導(dǎo)航、人機(jī)交互和環(huán)境監(jiān)測(cè)等應(yīng)用場(chǎng)景極其重要,能夠提供完整的場(chǎng)景感知,避免因視野死角導(dǎo)致的安全隱患或任務(wù)失敗。
Q3:這項(xiàng)技術(shù)什么時(shí)候能夠真正應(yīng)用到日常生活中?
A:根據(jù)研究團(tuán)隊(duì)提出的六階段發(fā)展路線圖,全方位視覺技術(shù)正在逐步從實(shí)驗(yàn)室走向?qū)嶋H應(yīng)用。目前已有一些工業(yè)檢測(cè)和安防監(jiān)控領(lǐng)域開始使用這種技術(shù)。預(yù)計(jì)在未來(lái)5-10年內(nèi),隨著硬件成本降低和算法優(yōu)化,我們將在家庭服務(wù)機(jī)器人、自動(dòng)駕駛汽車和智能安防系統(tǒng)中看到更多應(yīng)用。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。