這項(xiàng)由韓國KAIST人工智能研究院的尹熙智、鄭在宇、金俊完等研究人員與紐約大學(xué)、中央大學(xué)、高麗大學(xué)、蘇黎世聯(lián)邦理工學(xué)院合作完成的研究發(fā)表于2025年9月,論文題為《Visual Representation Alignment for Multimodal Large Language Models》。有興趣深入了解的讀者可以通過論文網(wǎng)址https://cvlab-kaist.github.io/VIRAL訪問完整研究內(nèi)容。
當(dāng)下我們生活在一個(gè)充滿智能助手的時(shí)代,從手機(jī)上的語音助手到各種聊天機(jī)器人,這些人工智能系統(tǒng)都在努力理解我們的圖片和文字。然而就像一個(gè)剛學(xué)會(huì)認(rèn)字卻還不太會(huì)看圖的孩子,現(xiàn)在的多模態(tài)大語言模型在處理需要精細(xì)視覺理解的任務(wù)時(shí)經(jīng)常出錯(cuò)。比如當(dāng)你問它"這張照片里有幾個(gè)人在舉旗子"時(shí),它可能會(huì)答錯(cuò)數(shù)量,或者當(dāng)你詢問"飛機(jī)后面是哪家航空公司的標(biāo)志"時(shí),它可能會(huì)看錯(cuò)logo。
這個(gè)問題的根源在于現(xiàn)有的訓(xùn)練方式。目前的多模態(tài)大語言模型就像一個(gè)只聽課文朗讀卻很少看插圖的學(xué)生,雖然文字理解能力很強(qiáng),但對(duì)圖像細(xì)節(jié)的把握卻不夠精準(zhǔn)。研究團(tuán)隊(duì)發(fā)現(xiàn),這些模型在訓(xùn)練過程中只接受文字監(jiān)督,缺乏對(duì)視覺通道的直接指導(dǎo),導(dǎo)致許多重要的視覺細(xì)節(jié)在學(xué)習(xí)過程中被丟棄了。
為了解決這個(gè)問題,KAIST團(tuán)隊(duì)提出了一種名為VIRAL的創(chuàng)新方法,全稱為"視覺表征對(duì)齊"。這種方法的核心思想是讓多模態(tài)大語言模型的內(nèi)部視覺表征與預(yù)訓(xùn)練的視覺基礎(chǔ)模型保持一致,就像讓學(xué)生不僅要聽老師講課,還要對(duì)照標(biāo)準(zhǔn)答案檢查自己的理解是否準(zhǔn)確。
經(jīng)過在多個(gè)基準(zhǔn)測試上的驗(yàn)證,VIRAL方法在所有任務(wù)上都取得了一致的性能提升,特別是在需要精細(xì)視覺理解的任務(wù)上表現(xiàn)尤為突出。這項(xiàng)研究為如何有效整合視覺信息到多模態(tài)大語言模型的訓(xùn)練中開辟了重要方向。
一、問題的發(fā)現(xiàn):為什么AI看圖會(huì)"失焦"
要理解這項(xiàng)研究的價(jià)值,我們首先需要明白現(xiàn)在的多模態(tài)大語言模型是如何工作的。這些模型就像一個(gè)既能看圖又能讀文的學(xué)生,它們由三個(gè)主要部分組成:一個(gè)專門處理圖像的視覺編碼器,一個(gè)專門理解文字的大語言模型,還有一個(gè)連接兩者的投影器。
當(dāng)我們給這樣的模型展示一張圖片并提出問題時(shí),視覺編碼器首先會(huì)將圖片轉(zhuǎn)換成數(shù)字化的特征表示,就像把一幅畫轉(zhuǎn)換成詳細(xì)的文字描述。然后投影器會(huì)把這些視覺特征翻譯成語言模型能夠理解的形式,最后語言模型根據(jù)這些信息生成回答。
然而研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)關(guān)鍵問題:在現(xiàn)有的訓(xùn)練方式下,這些模型只在文字輸出上接受監(jiān)督,就像老師只根據(jù)學(xué)生的作文來評(píng)分,而不檢查學(xué)生是否真正看懂了圖片。這種訓(xùn)練方式導(dǎo)致模型在學(xué)習(xí)過程中可能會(huì)丟棄那些對(duì)于生成正確文字答案來說不是立即必要的視覺細(xì)節(jié)。
舉個(gè)具體例子,當(dāng)模型看到一張"一群人舉著大旗子"的照片時(shí),如果訓(xùn)練數(shù)據(jù)中的描述只是簡單地說"一張人們舉旗的照片",那么模型就沒有動(dòng)機(jī)去記住確切有幾個(gè)人、旗子是什么顏色、人們的具體位置等細(xì)節(jié)信息。這就解釋了為什么現(xiàn)在的多模態(tài)模型在需要精確計(jì)數(shù)或空間推理的任務(wù)上表現(xiàn)不佳。
為了驗(yàn)證這個(gè)假設(shè),研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)巧妙的實(shí)驗(yàn)。他們測量了LLaVA模型內(nèi)部視覺表征與其輸入視覺編碼器原始特征之間的相似性。結(jié)果令人震驚:隨著網(wǎng)絡(luò)層數(shù)的加深,這種相似性急劇下降,這意味著模型的內(nèi)部表征正在偏離視覺編碼器提供的豐富信息。
更有趣的是,研究人員發(fā)現(xiàn)在網(wǎng)絡(luò)的中間層存在一個(gè)小幅度的相似性回升,這暗示網(wǎng)絡(luò)在某種程度上意識(shí)到保留視覺信息的重要性。這個(gè)發(fā)現(xiàn)為后續(xù)的解決方案提供了重要線索。
二、解決方案的探索:讓AI重新"聚焦"視覺細(xì)節(jié)
基于對(duì)問題根源的深入理解,研究團(tuán)隊(duì)開始探索各種可能的解決方案。他們的第一次嘗試是通過殘差連接的方式,將投影后的視覺特征重新注入到語言模型的中間層,就像在學(xué)生做題的過程中不斷提醒他們參考原始圖片。
這種方法確實(shí)帶來了一定的改善,模型與視覺編碼器特征的對(duì)齊程度得到了提升,在多個(gè)基準(zhǔn)測試上的表現(xiàn)也有所改進(jìn)。然而當(dāng)研究團(tuán)隊(duì)嘗試直接使用視覺編碼器的原始特征時(shí),效果反而變差了。這是因?yàn)樵嫉木幋a器特征還沒有經(jīng)過專門的視覺-語言對(duì)齊訓(xùn)練,直接注入反而會(huì)干擾模型的正常工作。
這個(gè)發(fā)現(xiàn)啟發(fā)研究團(tuán)隊(duì)思考一個(gè)更根本的問題:與其簡單地重新注入特征,為什么不直接約束模型的內(nèi)部表征,讓它們與理想的視覺表征保持一致呢?
于是他們提出了視覺表征對(duì)齊的方法。這種方法通過添加一個(gè)額外的對(duì)齊損失函數(shù),直接監(jiān)督模型中間層的視覺表征,使其與預(yù)訓(xùn)練視覺編碼器的特征保持相似。具體來說,他們使用余弦相似度來衡量模型內(nèi)部表征與目標(biāo)特征之間的差異,并將這個(gè)差異作為額外的訓(xùn)練目標(biāo)。
更進(jìn)一步,研究團(tuán)隊(duì)意識(shí)到僅僅與輸入的視覺編碼器對(duì)齊可能還不夠。他們開始嘗試與更強(qiáng)大的視覺基礎(chǔ)模型進(jìn)行對(duì)齊,比如DINOv2、SAM等專門為視覺任務(wù)設(shè)計(jì)的模型。這些模型由于接受了更專業(yè)的視覺訓(xùn)練,能夠提供更豐富、更準(zhǔn)確的視覺表征。
這就像讓學(xué)生不僅要對(duì)照課本,還要參考更多權(quán)威資料來檢驗(yàn)自己的理解。通過與這些強(qiáng)大的視覺基礎(chǔ)模型對(duì)齊,多模態(tài)大語言模型不僅能夠保留來自輸入編碼器的重要視覺細(xì)節(jié),還能夠吸收來自視覺基礎(chǔ)模型的額外視覺知識(shí),從而增強(qiáng)其處理復(fù)雜視覺輸入的能力。
三、VIRAL方法的技術(shù)核心:讓AI學(xué)會(huì)"看圖說話"
VIRAL方法的核心思想可以比作教導(dǎo)一個(gè)學(xué)生如何更好地觀察和描述圖片。傳統(tǒng)的訓(xùn)練方式只關(guān)注學(xué)生的最終答案是否正確,而VIRAL方法還會(huì)檢查學(xué)生在思考過程中是否真正理解了圖片的內(nèi)容。
具體來說,VIRAL在原有的語言建模損失基礎(chǔ)上,增加了一個(gè)視覺表征對(duì)齊損失。當(dāng)模型處理一張圖片時(shí),研究團(tuán)隊(duì)會(huì)提取模型內(nèi)部某一層的視覺表征,然后將其與預(yù)訓(xùn)練視覺基礎(chǔ)模型的特征進(jìn)行比較。如果兩者的相似度不夠高,模型就會(huì)受到額外的懲罰,促使它調(diào)整內(nèi)部表征以更好地保留視覺信息。
這個(gè)過程中有幾個(gè)關(guān)鍵的技術(shù)細(xì)節(jié)。首先是選擇合適的對(duì)齊層。通過大量實(shí)驗(yàn),研究團(tuán)隊(duì)發(fā)現(xiàn)在32層模型的第16層進(jìn)行對(duì)齊效果最好。這一層正好處于網(wǎng)絡(luò)的中間位置,既保證了視覺特征的充分處理,又避免了過度的語言化影響。
其次是選擇合適的視覺基礎(chǔ)模型。研究團(tuán)隊(duì)測試了多種不同的視覺基礎(chǔ)模型,包括CLIP、DINOv2、SAM、Depth Anything v2和RADIO等。結(jié)果顯示,DINOv2作為對(duì)齊目標(biāo)時(shí)效果最好,這主要是因?yàn)镈INOv2專門為視覺表征學(xué)習(xí)而設(shè)計(jì),能夠提供更豐富的空間和語義信息。
在對(duì)齊損失的設(shè)計(jì)上,研究團(tuán)隊(duì)采用了基于余弦相似度的方法,而不是簡單的歐氏距離或其他度量方式。余弦相似度關(guān)注的是向量的方向而不是大小,這更適合衡量高維特征表征之間的語義相似性。
為了平衡原有的語言建模任務(wù)和新增的視覺對(duì)齊任務(wù),研究團(tuán)隊(duì)設(shè)置了一個(gè)權(quán)重參數(shù)λ。經(jīng)過調(diào)試,他們發(fā)現(xiàn)將λ設(shè)置為0.5時(shí)能夠取得最好的效果,既保證了語言理解能力不受影響,又充分利用了視覺對(duì)齊的好處。
四、實(shí)驗(yàn)設(shè)計(jì)與結(jié)果:全方位驗(yàn)證AI視覺能力提升
為了全面驗(yàn)證VIRAL方法的有效性,研究團(tuán)隊(duì)設(shè)計(jì)了一系列詳盡的實(shí)驗(yàn)。他們基于廣泛使用的LLaVA-1.5模型進(jìn)行改進(jìn),該模型結(jié)合了Vicuna-1.5作為語言模型和CLIP作為視覺編碼器。為了保證實(shí)驗(yàn)的公平性,他們僅使用原始的LLaVA-665K數(shù)據(jù)集,沒有添加任何額外數(shù)據(jù)。
實(shí)驗(yàn)涵蓋了三個(gè)主要類別的任務(wù)。第一類是需要精細(xì)空間推理或?qū)ο笥?jì)數(shù)的視覺中心任務(wù),包括CV-Bench2D、What's Up和MMVP等基準(zhǔn)測試。這些任務(wù)專門考察模型對(duì)視覺細(xì)節(jié)的理解能力,比如準(zhǔn)確計(jì)數(shù)圖片中的對(duì)象數(shù)量、理解空間關(guān)系等。第二類是多模態(tài)幻覺檢測任務(wù),使用POPE基準(zhǔn)測試來評(píng)估模型是否會(huì)產(chǎn)生與圖像內(nèi)容不符的錯(cuò)誤描述。第三類是通用多模態(tài)理解任務(wù),通過MME和MMStar等綜合性基準(zhǔn)測試來確保方法的通用性。
實(shí)驗(yàn)結(jié)果令人驚喜。在所有測試的基準(zhǔn)上,使用VIRAL方法訓(xùn)練的模型都取得了一致的性能提升,尤其是在需要精細(xì)視覺理解的任務(wù)上表現(xiàn)最為突出。比如在CV-Bench2D測試中,性能從56.82%提升到59.67%,在MMVP測試中從28.20%提升到33.33%,在What's Up測試中從40.13%提升到48.55%。
為了驗(yàn)證方法的通用性,研究團(tuán)隊(duì)還在不同的視覺編碼器和語言模型上進(jìn)行了測試。他們發(fā)現(xiàn)即使將CLIP替換為更強(qiáng)大的SigLIPv2編碼器,VIRAL方法仍然能夠帶來顯著提升。同樣,在更大的13B參數(shù)模型和不同的語言模型如Qwen2.5上,VIRAL都表現(xiàn)出了一致的改進(jìn)效果。
五、深入分析:揭秘AI視覺理解的內(nèi)在機(jī)制
為了更深入地理解VIRAL方法為什么有效,研究團(tuán)隊(duì)進(jìn)行了一系列精心設(shè)計(jì)的分析實(shí)驗(yàn)。他們首先研究了不同視覺基礎(chǔ)模型作為對(duì)齊目標(biāo)的效果。通過比較DINOv2、CLIP、SAM、Depth Anything v2和RADIO等不同模型,他們發(fā)現(xiàn)DINOv2作為對(duì)齊目標(biāo)時(shí)效果最佳。這個(gè)發(fā)現(xiàn)并不意外,因?yàn)镈INOv2專門為自監(jiān)督視覺表征學(xué)習(xí)而設(shè)計(jì),能夠捕獲更豐富的視覺語義信息。
接下來,研究團(tuán)隊(duì)系統(tǒng)地研究了在不同網(wǎng)絡(luò)層進(jìn)行對(duì)齊的效果。他們測試了從第4層到第32層的多個(gè)位置,發(fā)現(xiàn)第16層是最佳的對(duì)齊位置。這個(gè)位置正好處于網(wǎng)絡(luò)的中間部分,此時(shí)視覺特征已經(jīng)經(jīng)過了充分的處理,但還沒有被過度地語言化。這個(gè)發(fā)現(xiàn)與之前關(guān)于多模態(tài)大語言模型信息流動(dòng)的研究結(jié)果高度一致。
在對(duì)齊策略方面,研究團(tuán)隊(duì)比較了單層對(duì)齊和多層對(duì)齊的效果。令人意外的是,僅在單個(gè)層進(jìn)行對(duì)齊比在多個(gè)連續(xù)層進(jìn)行對(duì)齊效果更好。這可能是因?yàn)槎鄬訉?duì)齊會(huì)過度約束模型的表征學(xué)習(xí),影響其自然的特征演化過程。
研究團(tuán)隊(duì)還測試了不同的對(duì)齊損失函數(shù)。除了默認(rèn)的余弦相似度損失,他們還嘗試了基于特征關(guān)系對(duì)齊的方法,即比較自相似矩陣而不是直接特征。結(jié)果顯示,直接的余弦相似度對(duì)齊效果更好,這表明保持特征的絕對(duì)信息比保持相對(duì)關(guān)系更重要。
為了從另一個(gè)角度驗(yàn)證方法的有效性,研究團(tuán)隊(duì)分析了模型的注意力模式變化。他們發(fā)現(xiàn)使用VIRAL訓(xùn)練的模型在文本-圖像交叉注意力上表現(xiàn)出更好的定位能力,能夠更準(zhǔn)確地關(guān)注與問題相關(guān)的圖像區(qū)域。通過空間熵指標(biāo)的量化分析,他們發(fā)現(xiàn)VIRAL訓(xùn)練的模型注意力更加集中,特別是在負(fù)責(zé)視覺理解的中間層。
六、訓(xùn)練效率與魯棒性:AI學(xué)習(xí)的"加速度"與"穩(wěn)定性"
VIRAL方法不僅在最終性能上有所提升,在訓(xùn)練效率方面也展現(xiàn)出了意外的優(yōu)勢(shì)。研究團(tuán)隊(duì)通過在訓(xùn)練過程中每1000步評(píng)估一次模型性能,發(fā)現(xiàn)使用VIRAL方法的模型收斂速度明顯更快。這就像給學(xué)生提供了更清晰的學(xué)習(xí)指導(dǎo),不僅最終成績更好,學(xué)習(xí)過程也更加高效。
在POPE測試中,VIRAL模型從訓(xùn)練開始就表現(xiàn)出更高的準(zhǔn)確率,并且這種優(yōu)勢(shì)隨著訓(xùn)練的進(jìn)行而持續(xù)保持。在CV-Bench2D和MMVP等更具挑戰(zhàn)性的視覺任務(wù)中,雖然兩種方法在早期階段表現(xiàn)相似,但VIRAL模型在訓(xùn)練后期顯示出更明顯的改進(jìn)。這表明視覺表征對(duì)齊不僅提高了最終性能,還加速了學(xué)習(xí)過程。
為了進(jìn)一步驗(yàn)證VIRAL方法對(duì)視覺信息的敏感性,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)巧妙的魯棒性測試。他們?cè)谳斎雸D像的視覺token上進(jìn)行隨機(jī)排列,然后觀察模型性能的下降程度。理論上,如果一個(gè)模型真正理解和利用了視覺信息,那么當(dāng)視覺token的空間順序被打亂時(shí),其性能應(yīng)該顯著下降。
實(shí)驗(yàn)結(jié)果證實(shí)了這一預(yù)期。使用傳統(tǒng)方法訓(xùn)練的模型在視覺token隨機(jī)排列后性能下降幅度很小,這表明它們并沒有真正利用視覺信息的空間結(jié)構(gòu)。而使用VIRAL方法訓(xùn)練的模型在相同條件下表現(xiàn)出更大的性能下降,這恰恰證明了它們對(duì)視覺空間信息更加敏感,更好地學(xué)會(huì)了利用圖像的空間關(guān)系。
這種現(xiàn)象在使用CLIP編碼器時(shí)尤為明顯,性能下降幅度從6.5%增加到13.0%。在使用更強(qiáng)的SigLIPv2編碼器時(shí),這種差異更加顯著,從5.6%增加到19.0%。這些數(shù)據(jù)有力地證明了VIRAL方法確實(shí)讓模型更好地學(xué)會(huì)了理解和利用視覺信息中的空間關(guān)系。
七、實(shí)際應(yīng)用效果:從實(shí)驗(yàn)室到現(xiàn)實(shí)場景
通過大量的定性分析,研究團(tuán)隊(duì)展示了VIRAL方法在實(shí)際應(yīng)用中的效果改善。在對(duì)象計(jì)數(shù)任務(wù)中,傳統(tǒng)的LLaVA-1.5模型經(jīng)常出現(xiàn)計(jì)數(shù)錯(cuò)誤,比如將圖片中的四只狗錯(cuò)誤地識(shí)別為三只。而使用VIRAL方法訓(xùn)練的模型能夠給出正確的計(jì)數(shù)結(jié)果,這表明它更好地保留了視覺細(xì)節(jié)信息。
在空間關(guān)系理解方面,改進(jìn)同樣明顯。當(dāng)被問及"考慮到植物(紅框標(biāo)注)和熱水浴缸在圖像中的相對(duì)位置,植物相對(duì)于熱水浴缸位于何處"時(shí),原始模型可能會(huì)給出錯(cuò)誤的方向判斷,而VIRAL改進(jìn)的模型能夠準(zhǔn)確識(shí)別出"上方"這一正確答案。
為了更直觀地理解這種改進(jìn),研究團(tuán)隊(duì)對(duì)模型內(nèi)部的視覺表征進(jìn)行了主成分分析可視化。結(jié)果顯示,使用VIRAL方法訓(xùn)練的模型產(chǎn)生的視覺表征在結(jié)構(gòu)上更加清晰和有序,不同的視覺概念在表征空間中形成了更明確的聚類結(jié)構(gòu)。這種有序性反映了模型對(duì)視覺信息理解的深度和準(zhǔn)確性。
特別值得注意的是,這種改進(jìn)不僅體現(xiàn)在訓(xùn)練過程中的指標(biāo)提升上,更重要的是在實(shí)際使用場景中的表現(xiàn)。模型在面對(duì)需要精確視覺理解的問題時(shí),能夠給出更加準(zhǔn)確和可靠的答案,這對(duì)于實(shí)際部署和應(yīng)用具有重要意義。
八、方法的局限性與未來展望
盡管VIRAL方法取得了顯著的成功,但研究團(tuán)隊(duì)也誠實(shí)地承認(rèn)了當(dāng)前方法的一些局限性。首先,該方法的效果在很大程度上依賴于所選擇的視覺基礎(chǔ)模型的質(zhì)量。如果基礎(chǔ)模型本身在某些視覺任務(wù)上表現(xiàn)不佳,那么對(duì)齊到這樣的模型可能不會(huì)帶來預(yù)期的改進(jìn),甚至可能產(chǎn)生負(fù)面影響。
其次,當(dāng)前的方法主要關(guān)注單層對(duì)齊,雖然實(shí)驗(yàn)顯示這種策略效果最好,但這可能限制了方法的進(jìn)一步發(fā)展?jié)摿?。未來的研究可能需要探索更?fù)雜的多層對(duì)齊策略,或者設(shè)計(jì)自適應(yīng)的對(duì)齊方案。
在計(jì)算成本方面,VIRAL方法確實(shí)增加了一定的訓(xùn)練開銷,因?yàn)樾枰~外計(jì)算視覺基礎(chǔ)模型的特征并進(jìn)行對(duì)齊損失的計(jì)算。不過相對(duì)于整體的訓(xùn)練成本,這種額外開銷是可以接受的,而且考慮到訓(xùn)練效率的提升,總體的時(shí)間成本可能反而會(huì)降低。
對(duì)于方法的通用性,雖然實(shí)驗(yàn)在多個(gè)不同的模型架構(gòu)和數(shù)據(jù)集上都驗(yàn)證了有效性,但在更大規(guī)模的模型或者完全不同的視覺-語言任務(wù)上的表現(xiàn)還需要進(jìn)一步驗(yàn)證。特別是在一些高度特化的領(lǐng)域任務(wù)中,通用的視覺基礎(chǔ)模型可能無法提供最適合的對(duì)齊目標(biāo)。
九、技術(shù)影響與產(chǎn)業(yè)意義
VIRAL方法的提出不僅僅是一個(gè)技術(shù)改進(jìn),更重要的是它揭示了多模態(tài)大語言模型訓(xùn)練中的一個(gè)根本性問題,并提供了一個(gè)簡潔而有效的解決方案。這種思路對(duì)整個(gè)人工智能領(lǐng)域都具有重要的啟發(fā)意義。
從技術(shù)發(fā)展的角度來看,這項(xiàng)研究強(qiáng)調(diào)了在多模態(tài)學(xué)習(xí)中平衡不同模態(tài)監(jiān)督信號(hào)的重要性。長期以來,研究者們更多地關(guān)注如何設(shè)計(jì)更強(qiáng)大的網(wǎng)絡(luò)架構(gòu)或收集更多的訓(xùn)練數(shù)據(jù),而相對(duì)忽視了訓(xùn)練目標(biāo)設(shè)計(jì)的重要性。VIRAL方法的成功表明,有時(shí)候問題的解決方案可能就在于重新審視訓(xùn)練過程本身。
這種思路的影響已經(jīng)開始在學(xué)術(shù)界顯現(xiàn)。越來越多的研究者開始關(guān)注多模態(tài)模型內(nèi)部表征的質(zhì)量,而不僅僅是最終的任務(wù)性能。這種轉(zhuǎn)變可能會(huì)推動(dòng)更多創(chuàng)新的訓(xùn)練方法和評(píng)估標(biāo)準(zhǔn)的出現(xiàn)。
從產(chǎn)業(yè)應(yīng)用的角度來看,VIRAL方法的實(shí)用性是其最大的優(yōu)勢(shì)之一。該方法可以輕松地集成到現(xiàn)有的多模態(tài)大語言模型訓(xùn)練流程中,不需要大規(guī)模的架構(gòu)修改或額外的數(shù)據(jù)收集。這使得它很容易被產(chǎn)業(yè)界采用和部署。
對(duì)于那些依賴視覺理解的應(yīng)用場景,比如智能客服、內(nèi)容審核、教育輔助等,VIRAL方法帶來的準(zhǔn)確性提升可能會(huì)產(chǎn)生直接的商業(yè)價(jià)值。更準(zhǔn)確的視覺理解意味著更少的錯(cuò)誤,更高的用戶滿意度,以及更低的人工干預(yù)成本。
說到底,這項(xiàng)來自KAIST的研究為我們展示了一個(gè)重要道理:有時(shí)候最有效的解決方案并不需要完全重新發(fā)明輪子,而是在現(xiàn)有技術(shù)的基礎(chǔ)上找到正確的改進(jìn)方向。VIRAL方法通過一個(gè)簡單而優(yōu)雅的視覺表征對(duì)齊策略,解決了困擾多模態(tài)大語言模型的一個(gè)核心問題。
這種方法的意義不僅在于性能的提升,更在于它為我們提供了一種新的思考多模態(tài)學(xué)習(xí)的方式。當(dāng)我們訓(xùn)練一個(gè)既能看又能說的人工智能系統(tǒng)時(shí),不應(yīng)該只關(guān)注它說得對(duì)不對(duì),還要關(guān)注它看得清不清。只有真正理解了視覺世界的豐富性和復(fù)雜性,人工智能才能在與人類的交互中表現(xiàn)得更加智能和可靠。
隨著多模態(tài)人工智能技術(shù)的不斷發(fā)展,我們可以預(yù)期會(huì)看到更多基于這種思路的創(chuàng)新方法。這些方法將幫助人工智能系統(tǒng)更好地理解我們的多模態(tài)世界,最終為人類提供更加智能和有用的服務(wù)。對(duì)于那些希望深入了解這一前沿研究的讀者,建議訪問研究團(tuán)隊(duì)提供的項(xiàng)目網(wǎng)站https://cvlab-kaist.github.io/VIRAL,那里有更詳細(xì)的技術(shù)資料和實(shí)驗(yàn)結(jié)果。
Q&A
Q1:VIRAL方法是什么?它如何改善多模態(tài)大語言模型?
A:VIRAL是"視覺表征對(duì)齊"方法,由KAIST團(tuán)隊(duì)開發(fā)。它通過讓模型內(nèi)部的視覺表征與預(yù)訓(xùn)練視覺基礎(chǔ)模型保持一致,解決了傳統(tǒng)模型在視覺細(xì)節(jié)理解上的不足。這就像給學(xué)生提供標(biāo)準(zhǔn)答案來檢驗(yàn)理解一樣,讓AI更好地保留和利用視覺信息。
Q2:為什么現(xiàn)有的多模態(tài)大語言模型在視覺理解上存在問題?
A:問題在于訓(xùn)練方式。現(xiàn)有模型只接受文字監(jiān)督,就像老師只根據(jù)作文評(píng)分而不檢查學(xué)生是否真正看懂了圖片。這導(dǎo)致模型為了生成正確文字答案,會(huì)丟棄那些看似不重要的視覺細(xì)節(jié),比如物體的確切數(shù)量、顏色、空間位置等信息。
Q3:VIRAL方法在實(shí)際應(yīng)用中效果如何?有什么具體改進(jìn)?
A:VIRAL方法在多個(gè)基準(zhǔn)測試中都取得了顯著提升,特別是在需要精細(xì)視覺理解的任務(wù)上。比如在對(duì)象計(jì)數(shù)、空間關(guān)系理解等任務(wù)中,準(zhǔn)確率提升了3-8個(gè)百分點(diǎn)。實(shí)際應(yīng)用中,模型能更準(zhǔn)確地回答"圖片中有幾個(gè)人"、"物體的相對(duì)位置"等需要細(xì)致觀察的問題。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。