這項(xiàng)由北京大學(xué)醫(yī)學(xué)技術(shù)研究院的胡嘉魁、清華大學(xué)的楊宇瀟、百度VIS的劉佳倫等研究團(tuán)隊(duì)合作完成的研究,發(fā)表于2025年6月的計(jì)算機(jī)視覺頂級(jí)會(huì)議論文集,論文編號(hào)為arXiv:2506.18527v1。感興趣的讀者可以通過arXiv平臺(tái)訪問完整論文內(nèi)容。
想象一下,當(dāng)你拿起一個(gè)蘋果仔細(xì)觀察時(shí),你會(huì)自然地轉(zhuǎn)動(dòng)它,從不同角度查看它的形狀、顏色和紋理。現(xiàn)在,研究人員成功地讓人工智能也學(xué)會(huì)了這種"轉(zhuǎn)著圈看東西"的能力。這項(xiàng)突破性研究解決了一個(gè)看似簡(jiǎn)單但實(shí)際極其復(fù)雜的問題:如何讓計(jì)算機(jī)從一張圖片或一段文字描述中,生成同一個(gè)物體從多個(gè)不同角度看到的圖像。
這個(gè)問題的重要性遠(yuǎn)超我們的想象。在3D內(nèi)容創(chuàng)建、機(jī)器人視覺理解,甚至是未來的虛擬現(xiàn)實(shí)應(yīng)用中,這種能力都是不可或缺的。就像一個(gè)雕塑家需要從各個(gè)角度觀察自己的作品一樣,現(xiàn)代AI系統(tǒng)也需要具備這種多視角理解能力,才能真正掌握三維世界的奧秘。
研究團(tuán)隊(duì)面臨的最大挑戰(zhàn)是如何保持不同視角圖像之間的一致性。傳統(tǒng)的方法就像是讓多個(gè)畫家同時(shí)畫同一個(gè)蘋果,但他們彼此看不到對(duì)方的畫作,結(jié)果往往是畫出來的蘋果在顏色、形狀上都不一致。更糟糕的是,當(dāng)要畫蘋果背面時(shí),由于正面圖片提供的信息有限,畫家們往往只能憑想象填補(bǔ)空白,導(dǎo)致前后矛盾。
為了解決這個(gè)問題,研究團(tuán)隊(duì)提出了一種全新的"自回歸多視角生成"方法,簡(jiǎn)稱MV-AR。這種方法的核心思想就像是模擬人類觀察物體的自然過程:先看正面,然后轉(zhuǎn)到側(cè)面,再轉(zhuǎn)到背面,每一步都利用之前看到的所有信息來理解下一個(gè)角度應(yīng)該是什么樣子。
一、讓AI像人類一樣逐步觀察物體
傳統(tǒng)的AI多視角生成方法有個(gè)根本性缺陷:它們?cè)噲D同時(shí)生成所有角度的圖像,就像要求一個(gè)人同時(shí)用多只眼睛從不同方向看同一個(gè)物體。這種做法的問題在于,當(dāng)視角相差很大時(shí)(比如從正面看到背面),參考信息變得極其有限,導(dǎo)致生成的圖像質(zhì)量急劇下降。
研究團(tuán)隊(duì)的MV-AR方法采用了一種更符合人類認(rèn)知習(xí)慣的策略。就像我們拿起一個(gè)陌生物品會(huì)逐漸轉(zhuǎn)動(dòng)它來全面了解一樣,MV-AR讓AI按照特定順序逐個(gè)生成視角圖像。當(dāng)生成第n個(gè)視角時(shí),AI可以參考前面已經(jīng)生成的所有n-1個(gè)視角的信息,這樣就能獲得更豐富、更準(zhǔn)確的參考信息。
這種方法的優(yōu)勢(shì)在實(shí)際應(yīng)用中表現(xiàn)得非常明顯。當(dāng)需要從正面圖像生成背面圖像時(shí),傳統(tǒng)方法只能依靠正面的有限信息進(jìn)行猜測(cè),而MV-AR可以利用側(cè)面、斜角等中間視角提供的漸進(jìn)信息,就像我們轉(zhuǎn)動(dòng)物體時(shí)大腦逐步構(gòu)建完整3D模型的過程一樣。
為了實(shí)現(xiàn)這種漸進(jìn)式生成,研究團(tuán)隊(duì)將每張圖像轉(zhuǎn)換成一系列離散的"圖像片段",就像將一幅畫分解成許多小色塊一樣。然后,AI模型學(xué)習(xí)如何根據(jù)之前所有的色塊序列來預(yù)測(cè)下一個(gè)色塊應(yīng)該是什么顏色和紋理。這個(gè)過程類似于我們閱讀時(shí)根據(jù)前面的文字內(nèi)容來理解后續(xù)內(nèi)容的含義。
二、設(shè)計(jì)多種"線索"幫助AI理解需求
僅僅有好的生成策略還不夠,AI還需要能夠理解各種類型的輸入信息。研究團(tuán)隊(duì)為MV-AR設(shè)計(jì)了四種不同的"理解能力",讓它能夠處理文字描述、參考圖像、相機(jī)位置和3D形狀等多種輸入。
對(duì)于文字輸入,研究團(tuán)隊(duì)遇到了一個(gè)有趣的問題:當(dāng)AI同時(shí)處理文字和圖像信息時(shí),后續(xù)的圖像信息可能會(huì)"干擾"文字信息的理解,就像在嘈雜環(huán)境中很難專心聽音樂一樣。為了解決這個(gè)問題,他們開發(fā)了一種名為"分離自注意力"的技術(shù),確保文字信息不會(huì)被后續(xù)的圖像信息沖淡或覆蓋。
相機(jī)位置信息的處理更加巧妙。研究團(tuán)隊(duì)使用了一種叫做"普呂克射線嵌入"的數(shù)學(xué)方法,將相機(jī)的位置和朝向信息編碼成特殊的數(shù)字序列。這些序列告訴AI當(dāng)前應(yīng)該從哪個(gè)角度"觀察"物體,就像給攝影師指明拍攝位置和角度一樣。這種位置信息被巧妙地融入到圖像生成的每一步中,確保生成的圖像符合指定的視角要求。
對(duì)于參考圖像的處理,研究團(tuán)隊(duì)發(fā)現(xiàn)傳統(tǒng)的"交叉注意力"機(jī)制在自回歸框架中效果不佳,因?yàn)榛A(chǔ)模型缺乏處理圖像到圖像轉(zhuǎn)換的能力。因此,他們?cè)O(shè)計(jì)了一個(gè)專門的"圖像變形控制器",這個(gè)控制器能夠分析當(dāng)前視角與參考視角之間的重疊區(qū)域,提取相關(guān)的紋理和顏色信息,然后逐個(gè)像素地將這些信息融入到生成過程中。
3D形狀信息的加入解決了文字和圖像輸入的固有局限性。有時(shí)候,僅憑文字描述或單張圖片很難完全確定物體的三維形狀,就像僅從正面照片很難判斷一個(gè)人的側(cè)面輪廓一樣。研究團(tuán)隊(duì)通過在輸入序列開頭加入3D點(diǎn)云信息,為AI提供了明確的幾何約束,確保生成的多視角圖像在幾何上保持一致。
三、巧妙的訓(xùn)練策略解決數(shù)據(jù)稀缺難題
訓(xùn)練一個(gè)強(qiáng)大的AI模型通常需要海量的高質(zhì)量數(shù)據(jù),但在多視角圖像生成領(lǐng)域,這樣的數(shù)據(jù)相對(duì)稀缺。更重要的是,自回歸模型容易出現(xiàn)"累積誤差"問題:如果某個(gè)中間視角生成得不夠好,就會(huì)影響后續(xù)所有視角的質(zhì)量,就像傳話游戲中的錯(cuò)誤會(huì)逐步放大一樣。
為了解決數(shù)據(jù)稀缺問題,研究團(tuán)隊(duì)提出了一種創(chuàng)新的數(shù)據(jù)增強(qiáng)技術(shù),稱為"視角洗牌"。這個(gè)方法的核心思想非常簡(jiǎn)單卻極其有效:對(duì)于同一個(gè)物體的多張視角圖像,不一定要按照固定的順序進(jìn)行訓(xùn)練。通過隨機(jī)打亂視角順序,一套原本只能提供一種訓(xùn)練序列的數(shù)據(jù)可以生成多種不同的訓(xùn)練序列。
具體來說,如果一個(gè)物體有4個(gè)視角的圖像,傳統(tǒng)方法只能按照1-2-3-4的順序進(jìn)行訓(xùn)練。而視角洗牌技術(shù)可以生成2-1-4-3、3-4-1-2等多種不同的排列,大大增加了訓(xùn)練數(shù)據(jù)的多樣性。這種方法不僅解決了數(shù)據(jù)稀缺問題,還幫助模型學(xué)會(huì)從任意視角開始生成其他視角,提高了模型的靈活性和魯棒性。
視角洗牌帶來的另一個(gè)意外好處是緩解了累積誤差問題。通過訓(xùn)練模型處理各種不同的視角轉(zhuǎn)換路徑,模型學(xué)會(huì)了更好地利用視角間的重疊信息,即使某個(gè)中間視角出現(xiàn)小問題,也能通過其他視角的信息進(jìn)行修正。
研究團(tuán)隊(duì)還采用了一種"漸進(jìn)學(xué)習(xí)"策略來處理多種輸入條件。他們首先訓(xùn)練一個(gè)基礎(chǔ)的文字到多視角模型,然后在此基礎(chǔ)上逐步加入圖像和形狀等其他輸入類型。在訓(xùn)練過程中,不同類型的輸入條件會(huì)被隨機(jī)丟棄或組合,迫使模型學(xué)會(huì)靈活處理各種輸入組合。這種策略確保了最終的模型既能處理單一類型的輸入,也能同時(shí)處理多種類型的輸入組合。
四、全面測(cè)試驗(yàn)證系統(tǒng)性能
為了驗(yàn)證MV-AR的有效性,研究團(tuán)隊(duì)在三個(gè)主要任務(wù)上進(jìn)行了詳細(xì)測(cè)試:文字到多視角生成、圖像到多視角生成,以及形狀到多視角生成。每個(gè)測(cè)試都使用了業(yè)界認(rèn)可的評(píng)估標(biāo)準(zhǔn)和數(shù)據(jù)集。
在文字到多視角生成測(cè)試中,MV-AR與目前最先進(jìn)的擴(kuò)散模型MVDream進(jìn)行了直接對(duì)比。測(cè)試使用了谷歌掃描物體數(shù)據(jù)集中的30個(gè)日常物品,每個(gè)物品都有詳細(xì)的文字描述。結(jié)果顯示,MV-AR在圖像質(zhì)量方面達(dá)到了與MVDream相當(dāng)?shù)乃剑谖淖峙c圖像一致性方面甚至略有優(yōu)勢(shì)。更重要的是,MV-AR生成的多視角圖像在前后一致性方面表現(xiàn)更佳,特別是在處理前視角和后視角之間的關(guān)系時(shí)。
圖像到多視角生成測(cè)試展現(xiàn)了MV-AR的另一個(gè)優(yōu)勢(shì)。在這個(gè)任務(wù)中,AI需要根據(jù)單張輸入圖像生成其他角度的圖像。研究團(tuán)隊(duì)發(fā)現(xiàn),傳統(tǒng)的交叉注意力機(jī)制在自回歸框架中表現(xiàn)不佳,而他們?cè)O(shè)計(jì)的圖像變形控制器顯著提升了性能。具體數(shù)據(jù)顯示,MV-AR在峰值信噪比方面達(dá)到了22.99,在結(jié)構(gòu)相似性指數(shù)方面達(dá)到了0.907,都明顯優(yōu)于對(duì)比方法。
特別值得注意的是,當(dāng)需要從正面圖像生成背面圖像時(shí),MV-AR展現(xiàn)出了明顯的優(yōu)勢(shì)。傳統(tǒng)方法由于缺乏中間視角的信息,往往在背面生成上出現(xiàn)較大偏差。而MV-AR通過逐步的視角轉(zhuǎn)換,能夠利用側(cè)面視角提供的額外信息,生成更加準(zhǔn)確和一致的背面圖像。
形狀到多視角生成測(cè)試驗(yàn)證了模型處理3D幾何信息的能力。通過固定輸入的3D點(diǎn)云形狀,研究團(tuán)隊(duì)多次生成多視角圖像,發(fā)現(xiàn)MV-AR能夠穩(wěn)定地生成幾何上一致且紋理多樣的結(jié)果。這種能力對(duì)于3D內(nèi)容創(chuàng)作特別重要,因?yàn)樗试S設(shè)計(jì)師在保持形狀約束的同時(shí)探索不同的視覺風(fēng)格。
五、技術(shù)細(xì)節(jié)的深入探討
MV-AR的核心創(chuàng)新在于將自回歸建模引入多視角圖像生成領(lǐng)域。這種方法借鑒了自然語言處理中的成功經(jīng)驗(yàn),將圖像生成問題轉(zhuǎn)化為序列預(yù)測(cè)問題。具體實(shí)現(xiàn)中,每張圖像首先通過視覺標(biāo)記器轉(zhuǎn)換為離散標(biāo)記序列,然后多個(gè)視角的標(biāo)記序列按照特定順序拼接成一個(gè)長(zhǎng)序列。
模型的核心架構(gòu)基于Transformer,采用了類似Llama的設(shè)計(jì),包括RMS標(biāo)準(zhǔn)化、SwiGLU激活函數(shù)等先進(jìn)組件。為了處理不同類型的條件輸入,研究團(tuán)隊(duì)在標(biāo)準(zhǔn)Transformer的基礎(chǔ)上增加了多個(gè)專門的條件注入模塊。
相機(jī)姿態(tài)信息通過一種巧妙的"移位位置編碼"方式融入模型。這種編碼方式不是簡(jiǎn)單地將相機(jī)信息作為額外輸入,而是將其作為位置編碼的一部分,告訴模型每個(gè)圖像標(biāo)記對(duì)應(yīng)的空間位置和視角方向。這種設(shè)計(jì)使得模型能夠自然地理解不同視角之間的幾何關(guān)系。
圖像變形控制器的設(shè)計(jì)考慮了視角轉(zhuǎn)換的物理約束。控制器首先分析當(dāng)前視角與參考視角之間的重疊區(qū)域,然后提取這些區(qū)域的特征信息。通過交叉注意力機(jī)制,控制器將參考圖像的相關(guān)特征逐標(biāo)記地注入到生成過程中,確保幾何和紋理的一致性。
訓(xùn)練過程中的損失函數(shù)設(shè)計(jì)也值得關(guān)注。研究團(tuán)隊(duì)使用標(biāo)準(zhǔn)的負(fù)對(duì)數(shù)似然損失,但在實(shí)際優(yōu)化中發(fā)現(xiàn),過度依賴位置信息可能導(dǎo)致模型記憶特定的標(biāo)記轉(zhuǎn)換模式而非學(xué)習(xí)通用的視角轉(zhuǎn)換規(guī)律。視角洗牌技術(shù)恰好緩解了這個(gè)問題,迫使模型學(xué)習(xí)更加通用的特征表示。
六、實(shí)驗(yàn)結(jié)果的深入分析
實(shí)驗(yàn)結(jié)果不僅驗(yàn)證了MV-AR的有效性,還揭示了一些有趣的現(xiàn)象。在文字到多視角生成任務(wù)中,MV-AR在CLIP評(píng)分上超越了MVDream,這表明生成的圖像與文字描述的匹配度更高。這種改進(jìn)主要?dú)w功于分離自注意力機(jī)制,它確保了文字信息不會(huì)被后續(xù)的圖像生成過程稀釋。
在圖像到多視角生成的對(duì)比實(shí)驗(yàn)中,研究團(tuán)隊(duì)發(fā)現(xiàn)上下文圖像條件和交叉注意力機(jī)制在自回歸框架中的表現(xiàn)都不如圖像變形控制器。這個(gè)發(fā)現(xiàn)很有啟發(fā)性,說明了自回歸模型需要專門設(shè)計(jì)的條件注入機(jī)制,不能簡(jiǎn)單地照搬擴(kuò)散模型的做法。
形狀條件的引入帶來了意想不到的靈活性。通過固定幾何形狀而改變其他條件(如文字描述),模型能夠生成同一形狀但不同材質(zhì)、顏色或風(fēng)格的多視角圖像。這種能力對(duì)于產(chǎn)品設(shè)計(jì)和游戲開發(fā)等應(yīng)用場(chǎng)景特別有價(jià)值。
消融實(shí)驗(yàn)進(jìn)一步驗(yàn)證了各個(gè)組件的重要性。移位位置編碼的移除導(dǎo)致FID分?jǐn)?shù)從144.29上升到147.29,IS分?jǐn)?shù)從8.00下降到7.26,說明相機(jī)姿態(tài)信息的正確編碼對(duì)模型性能至關(guān)重要。視角洗牌的移除造成了更大的性能下降,F(xiàn)ID分?jǐn)?shù)上升到173.51,PSNR下降到18.27,充分證明了數(shù)據(jù)增強(qiáng)策略的重要性。
七、技術(shù)局限性與未來改進(jìn)方向
盡管MV-AR取得了顯著成果,但研究團(tuán)隊(duì)也坦誠地指出了當(dāng)前方法的一些局限性。首先,由于使用了2D視覺標(biāo)記器而非3D標(biāo)記器,模型在處理視角間信息交換時(shí)可能不夠高效。未來的改進(jìn)方向包括開發(fā)專門的因果3D VAE,既能保持自回歸生成的優(yōu)勢(shì),又能更好地利用3D空間的連續(xù)性。
累積誤差仍然是自回歸模型的固有問題。雖然視角洗牌和漸進(jìn)學(xué)習(xí)策略在一定程度上緩解了這個(gè)問題,但當(dāng)生成的視角數(shù)量增加時(shí),誤差累積仍可能影響最終結(jié)果的質(zhì)量。這個(gè)問題需要在模型架構(gòu)和訓(xùn)練策略兩個(gè)層面繼續(xù)探索解決方案。
模型的計(jì)算效率也有改進(jìn)空間。由于需要逐個(gè)生成視角,MV-AR的推理速度相比同時(shí)生成所有視角的擴(kuò)散模型要慢一些。不過,這種序貫生成方式帶來的質(zhì)量提升通常能夠補(bǔ)償時(shí)間成本,特別是在需要高質(zhì)量結(jié)果的應(yīng)用場(chǎng)景中。
數(shù)據(jù)質(zhì)量仍然是制約性能的重要因素。雖然視角洗牌技術(shù)大大增加了訓(xùn)練數(shù)據(jù)的多樣性,但高質(zhì)量多視角數(shù)據(jù)的收集和標(biāo)注仍然是一個(gè)挑戰(zhàn)。未來可能需要結(jié)合合成數(shù)據(jù)生成和主動(dòng)學(xué)習(xí)等技術(shù)來進(jìn)一步改善這個(gè)問題。
八、實(shí)際應(yīng)用前景與影響
MV-AR的成功為多個(gè)應(yīng)用領(lǐng)域帶來了新的可能性。在3D內(nèi)容創(chuàng)作方面,設(shè)計(jì)師可以通過簡(jiǎn)單的文字描述或草圖快速生成物體的多視角預(yù)覽,大大加速創(chuàng)意迭代過程。這種能力對(duì)于游戲開發(fā)、動(dòng)畫制作和產(chǎn)品設(shè)計(jì)都有重要意義。
在機(jī)器人視覺理解方面,MV-AR可以幫助機(jī)器人系統(tǒng)更好地理解和預(yù)測(cè)物體在不同視角下的外觀。當(dāng)機(jī)器人只能從某個(gè)角度觀察物體時(shí),它可以利用MV-AR生成其他角度的預(yù)期圖像,從而做出更加準(zhǔn)確的判斷和決策。
電商和在線展示應(yīng)用也能從這項(xiàng)技術(shù)中受益。通過單張產(chǎn)品圖片,系統(tǒng)可以自動(dòng)生成360度全方位展示效果,為消費(fèi)者提供更好的購物體驗(yàn)。這種技術(shù)還可以應(yīng)用于虛擬試穿、家居設(shè)計(jì)預(yù)覽等場(chǎng)景。
教育和科學(xué)研究領(lǐng)域同樣有廣闊的應(yīng)用前景。例如,在生物學(xué)教學(xué)中,可以根據(jù)文字描述生成細(xì)胞或器官的多角度視圖;在考古學(xué)研究中,可以根據(jù)部分發(fā)現(xiàn)的文物片段推測(cè)完整文物的可能外觀。
研究團(tuán)隊(duì)還提到了一個(gè)更加雄心勃勃的目標(biāo):將多視角生成與理解統(tǒng)一在同一個(gè)框架中。這意味著未來的模型不僅能夠生成多視角圖像,還能夠理解和分析現(xiàn)有的多視角圖像,真正實(shí)現(xiàn)視覺理解與生成的雙向能力。
說到底,這項(xiàng)研究代表了人工智能在視覺理解方面的一個(gè)重要進(jìn)步。通過模擬人類觀察物體的自然過程,MV-AR不僅解決了多視角圖像生成的技術(shù)難題,更重要的是為AI系統(tǒng)提供了一種更加直觀、更加符合人類認(rèn)知習(xí)慣的學(xué)習(xí)方式。
這種技術(shù)的成功還有著更深層的意義。它表明,在AI發(fā)展過程中,簡(jiǎn)單地增加模型規(guī)?;驍?shù)據(jù)量并不總是最好的解決方案。有時(shí)候,重新思考問題的本質(zhì),從人類的認(rèn)知過程中汲取靈感,可能會(huì)帶來更加優(yōu)雅和有效的解決方案。正如研究團(tuán)隊(duì)所展示的,讓AI像人類一樣"轉(zhuǎn)著圈"觀察物體,竟然能夠顯著提升多視角圖像生成的質(zhì)量和一致性。
這項(xiàng)研究為我們展現(xiàn)了AI技術(shù)發(fā)展的一個(gè)重要方向:不是讓機(jī)器變得更加機(jī)械化,而是讓它們變得更加人性化,更加貼近人類的思維方式。當(dāng)AI能夠像我們一樣觀察和理解世界時(shí),它們就能更好地為人類服務(wù),創(chuàng)造出更加豐富和精彩的數(shù)字世界。對(duì)于普通人來說,這意味著未來我們將擁有更加強(qiáng)大和便利的創(chuàng)作工具,只需要簡(jiǎn)單的描述或草圖,就能創(chuàng)造出專業(yè)級(jí)的3D內(nèi)容。
Q&A
Q1:MV-AR是什么?它與傳統(tǒng)方法有什么不同? A:MV-AR是一種新的AI多視角圖像生成方法,它模擬人類觀察物體的方式,逐個(gè)生成不同角度的圖像,每次生成時(shí)都能利用之前所有角度的信息。這與傳統(tǒng)方法同時(shí)生成所有角度圖像的做法不同,能夠顯著提高圖像間的一致性,特別是在處理相差很大的視角時(shí)表現(xiàn)更佳。
Q2:這項(xiàng)技術(shù)會(huì)不會(huì)讓3D建模師失業(yè)? A:不會(huì)完全取代,但會(huì)大大改變工作方式。MV-AR主要是幫助快速生成多視角預(yù)覽和概念設(shè)計(jì),專業(yè)的3D建模、動(dòng)畫制作和精細(xì)調(diào)整仍需要人類專家。它更像是給設(shè)計(jì)師提供了一個(gè)強(qiáng)大的助手,讓創(chuàng)意迭代變得更快更容易。
Q3:普通人如何使用這項(xiàng)技術(shù)?有什么要求? A:目前這項(xiàng)技術(shù)還處于研究階段,普通用戶無法直接使用。研究團(tuán)隊(duì)來自北京大學(xué)和百度,未來可能會(huì)通過百度的產(chǎn)品或其他平臺(tái)提供服務(wù)。使用時(shí)只需要提供文字描述、單張圖片或3D形狀信息,系統(tǒng)就能自動(dòng)生成多個(gè)角度的圖像。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對(duì)弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。