在人工智能飛速發(fā)展的今天,大型多模態(tài)語(yǔ)言模型(MLLMs)似乎已經(jīng)能夠同時(shí)理解圖像和文字,就像人類(lèi)一樣從圖文并茂的示例中學(xué)習(xí)新任務(wù)。然而,慕尼黑大學(xué)(LMU Munich)的研究團(tuán)隊(duì)最近有了一個(gè)令人意外的發(fā)現(xiàn):這些看似聰明的AI模型實(shí)際上存在一個(gè)嚴(yán)重的"視覺(jué)盲區(qū)"。這項(xiàng)由陳碩(Shuo Chen)、劉建哲(Jianzhe Liu)等研究人員領(lǐng)導(dǎo)的研究發(fā)表于2025年的COLM會(huì)議,研究結(jié)果讓人震驚——當(dāng)前的多模態(tài)AI在學(xué)習(xí)新任務(wù)時(shí),往往會(huì)忽略圖像中的重要信息,而過(guò)度依賴(lài)文字提示,這就像一個(gè)學(xué)生在看圖學(xué)習(xí)時(shí)總是偷看答案而不仔細(xì)觀察圖片內(nèi)容。
這個(gè)問(wèn)題的嚴(yán)重性遠(yuǎn)超我們的想象。當(dāng)我們給AI展示幾張圖片和對(duì)應(yīng)的問(wèn)答示例,希望它能學(xué)會(huì)某個(gè)新任務(wù)時(shí),AI表面上表現(xiàn)不錯(cuò),實(shí)際上卻可能完全沒(méi)有理解圖像內(nèi)容。這種現(xiàn)象被研究團(tuán)隊(duì)形象地稱(chēng)為"偽多模態(tài)學(xué)習(xí)"——看起來(lái)是在進(jìn)行多模態(tài)學(xué)習(xí),實(shí)際上只是在進(jìn)行文字模仿。
為了解決這個(gè)根本性問(wèn)題,研究團(tuán)隊(duì)開(kāi)發(fā)了一種名為DARA(動(dòng)態(tài)注意力重分配)的新技術(shù),并創(chuàng)建了一個(gè)專(zhuān)門(mén)的測(cè)試數(shù)據(jù)集TrueMICL。DARA技術(shù)就像給AI裝上了一副"特殊眼鏡",迫使它更仔細(xì)地觀察和理解圖像內(nèi)容,而不是僅僅依賴(lài)文字線索。更令人驚喜的是,這種技術(shù)極其輕量化,只需要大約100個(gè)可學(xué)習(xí)參數(shù)就能帶來(lái)高達(dá)10%的性能提升,這在AI技術(shù)中是非常罕見(jiàn)的高效率改進(jìn)。
研究團(tuán)隊(duì)通過(guò)大量實(shí)驗(yàn)驗(yàn)證了他們的發(fā)現(xiàn)和解決方案。他們測(cè)試了包括Qwen2-VL、Idefics3、Phi-3.5-Vision等多個(gè)主流模型,結(jié)果一致顯示當(dāng)前的多模態(tài)AI確實(shí)存在"視而不見(jiàn)"的問(wèn)題。更有趣的是,即使是最先進(jìn)的GPT-4o模型也無(wú)法完全避免這個(gè)問(wèn)題,這說(shuō)明這是整個(gè)AI領(lǐng)域都需要關(guān)注的普遍性挑戰(zhàn)。
一、多模態(tài)AI的"視覺(jué)盲區(qū)":一個(gè)被忽視的嚴(yán)重問(wèn)題
要理解這個(gè)問(wèn)題,我們可以用一個(gè)簡(jiǎn)單的比喻來(lái)說(shuō)明。假設(shè)你在教一個(gè)學(xué)生學(xué)習(xí)數(shù)學(xué),你給他展示了幾道例題:圖片顯示"2+3",答案是"5";圖片顯示"4+1",答案是"5"。然后你問(wèn)他:"7+2等于多少?"如果這個(gè)學(xué)生真正理解了加法的概念,他應(yīng)該能夠回答"9"。但如果他只是機(jī)械地記住了前面所有答案都是"5",他可能會(huì)錯(cuò)誤地回答"5"。
當(dāng)前的多模態(tài)AI就面臨著類(lèi)似的問(wèn)題。研究團(tuán)隊(duì)發(fā)現(xiàn),這些AI模型在進(jìn)行多模態(tài)上下文學(xué)習(xí)(MICL)時(shí),經(jīng)常會(huì)忽視圖像中的關(guān)鍵信息,而過(guò)度依賴(lài)文字模式。這種現(xiàn)象在傳統(tǒng)的視覺(jué)語(yǔ)言任務(wù)中往往被掩蓋,因?yàn)樵S多任務(wù)可以?xún)H憑文字模式就得到合理的答案。
比如在圖像描述任務(wù)中,AI可能會(huì)根據(jù)前面幾個(gè)示例的描述風(fēng)格來(lái)生成新的描述,而不是真正觀察和理解目標(biāo)圖像的內(nèi)容。這就像一個(gè)學(xué)生在寫(xiě)作文時(shí),不是根據(jù)題目要求進(jìn)行思考,而是機(jī)械地套用之前作文的句式和結(jié)構(gòu)。
這個(gè)問(wèn)題的根源在于當(dāng)前多模態(tài)模型的注意力機(jī)制設(shè)計(jì)。研究團(tuán)隊(duì)通過(guò)詳細(xì)的注意力分析發(fā)現(xiàn),在處理多模態(tài)示例時(shí),模型往往將大部分注意力分配給文字標(biāo)記,而給予圖像標(biāo)記的注意力相對(duì)較少。具體來(lái)說(shuō),在沒(méi)有使用DARA技術(shù)的情況下,模型只將約28%的注意力分配給圖像標(biāo)記,而其余72%的注意力都集中在文字標(biāo)記上。
這種注意力分配的不平衡導(dǎo)致了一個(gè)惡性循環(huán):模型越依賴(lài)文字,就越不善于處理視覺(jué)信息;越不善于處理視覺(jué)信息,就越依賴(lài)文字。這種現(xiàn)象在需要真正理解圖像內(nèi)容的任務(wù)中表現(xiàn)得尤為明顯。
更令人擔(dān)憂(yōu)的是,這個(gè)問(wèn)題在傳統(tǒng)的評(píng)估方法中很難被發(fā)現(xiàn)。許多標(biāo)準(zhǔn)的視覺(jué)語(yǔ)言數(shù)據(jù)集都允許模型在不深入理解圖像內(nèi)容的情況下獲得不錯(cuò)的性能表現(xiàn)。這就像考試中出現(xiàn)了太多可以猜答案的題目,掩蓋了學(xué)生真實(shí)的理解水平。
研究團(tuán)隊(duì)通過(guò)一系列精心設(shè)計(jì)的實(shí)驗(yàn)證實(shí)了這個(gè)問(wèn)題的普遍性。他們發(fā)現(xiàn),即使是在圖像描述這樣看似需要視覺(jué)理解的任務(wù)中,移除演示圖像對(duì)模型性能的影響也很小,這清楚地表明模型并沒(méi)有真正利用這些視覺(jué)信息。
二、DARA技術(shù):給AI裝上"特殊眼鏡"的革命性方案
面對(duì)多模態(tài)AI的"視覺(jué)盲區(qū)"問(wèn)題,研究團(tuán)隊(duì)開(kāi)發(fā)了一種創(chuàng)新的解決方案——動(dòng)態(tài)注意力重分配技術(shù)(DARA)。這項(xiàng)技術(shù)的核心思想非常直觀:既然問(wèn)題出在注意力分配不均,那就直接調(diào)整注意力機(jī)制,讓AI更多地關(guān)注圖像內(nèi)容。
DARA技術(shù)的工作原理可以用調(diào)音師調(diào)節(jié)音響設(shè)備來(lái)類(lèi)比。當(dāng)我們發(fā)現(xiàn)某個(gè)音響系統(tǒng)的低音太弱、高音過(guò)強(qiáng)時(shí),調(diào)音師會(huì)使用均衡器來(lái)調(diào)節(jié)不同頻段的音量,使整體音效更加平衡。DARA技術(shù)就像是為AI的注意力機(jī)制安裝了一個(gè)"注意力均衡器",專(zhuān)門(mén)用來(lái)增強(qiáng)對(duì)視覺(jué)信息的關(guān)注度。
具體來(lái)說(shuō),DARA通過(guò)在注意力計(jì)算過(guò)程中引入一組可學(xué)習(xí)的參數(shù)來(lái)實(shí)現(xiàn)這個(gè)目標(biāo)。這些參數(shù)就像是一組"放大鏡",專(zhuān)門(mén)用來(lái)放大圖像標(biāo)記在注意力計(jì)算中的重要性。當(dāng)模型處理包含圖像和文字的輸入時(shí),DARA會(huì)自動(dòng)識(shí)別哪些位置對(duì)應(yīng)圖像內(nèi)容,然后對(duì)這些位置的注意力分?jǐn)?shù)進(jìn)行動(dòng)態(tài)調(diào)整。
這種調(diào)整是智能化的,而不是簡(jiǎn)單粗暴的放大。DARA引入的參數(shù)是可學(xué)習(xí)的,這意味著模型可以根據(jù)具體任務(wù)的需求自動(dòng)學(xué)習(xí)最佳的注意力分配策略。在某些任務(wù)中,可能需要大幅增強(qiáng)視覺(jué)注意力;在另一些任務(wù)中,可能只需要適度調(diào)整。DARA能夠根據(jù)訓(xùn)練數(shù)據(jù)自動(dòng)找到最適合的平衡點(diǎn)。
DARA技術(shù)最令人驚嘆的特點(diǎn)是其極致的輕量化設(shè)計(jì)。傳統(tǒng)的模型優(yōu)化方法往往需要調(diào)整成千上萬(wàn)個(gè)參數(shù),而DARA只需要引入大約100-200個(gè)可學(xué)習(xí)參數(shù)就能實(shí)現(xiàn)顯著的性能提升。這就像用一個(gè)小小的透鏡就能大幅改善整個(gè)光學(xué)系統(tǒng)的成像質(zhì)量一樣高效。
從技術(shù)實(shí)現(xiàn)角度來(lái)看,DARA的操作過(guò)程相當(dāng)簡(jiǎn)潔。在模型的注意力計(jì)算過(guò)程中,原始的注意力分?jǐn)?shù)矩陣會(huì)與DARA引入的調(diào)節(jié)因子相乘。這個(gè)調(diào)節(jié)因子是一個(gè)對(duì)角矩陣,其中對(duì)應(yīng)圖像位置的元素是可學(xué)習(xí)的參數(shù),而對(duì)應(yīng)文字位置的元素保持為零。這樣的設(shè)計(jì)確保了DARA只影響圖像相關(guān)的注意力計(jì)算,不會(huì)干擾文字處理的正常機(jī)制。
實(shí)驗(yàn)結(jié)果顯示,DARA技術(shù)的效果非常顯著。在使用DARA后,模型對(duì)圖像標(biāo)記的注意力分配從原來(lái)的28%提升到了46.7%,實(shí)現(xiàn)了接近平衡的注意力分配。這種變化不僅體現(xiàn)在數(shù)值上,更重要的是體現(xiàn)在實(shí)際任務(wù)性能上。在多個(gè)測(cè)試任務(wù)中,DARA都帶來(lái)了3-10%的性能提升,這在AI技術(shù)改進(jìn)中是相當(dāng)可觀的進(jìn)步。
更有趣的是,DARA技術(shù)還表現(xiàn)出了良好的遷移能力。研究團(tuán)隊(duì)發(fā)現(xiàn),在一個(gè)任務(wù)上訓(xùn)練的DARA參數(shù)可以在一定程度上提升其他相關(guān)任務(wù)的性能,這說(shuō)明DARA學(xué)到的注意力調(diào)節(jié)策略具有一定的通用性。
DARA技術(shù)與現(xiàn)有的參數(shù)高效調(diào)優(yōu)方法(如LoRA)相比,表現(xiàn)出了明顯的優(yōu)勢(shì)。在相同的參數(shù)規(guī)模下,DARA能夠?qū)崿F(xiàn)更好的性能提升。而且DARA還可以與LoRA等方法結(jié)合使用,進(jìn)一步提升模型性能。這種兼容性使得DARA成為了一個(gè)非常實(shí)用的技術(shù)方案。
三、TrueMICL數(shù)據(jù)集:真正考驗(yàn)AI"眼力"的試金石
發(fā)現(xiàn)問(wèn)題是一回事,準(zhǔn)確評(píng)估和解決問(wèn)題又是另一回事。研究團(tuán)隊(duì)意識(shí)到,現(xiàn)有的評(píng)估數(shù)據(jù)集無(wú)法真正暴露多模態(tài)AI的"視覺(jué)盲區(qū)"問(wèn)題,因此他們專(zhuān)門(mén)創(chuàng)建了一個(gè)名為T(mén)rueMICL的新數(shù)據(jù)集,專(zhuān)門(mén)用于測(cè)試AI是否真正具備多模態(tài)學(xué)習(xí)能力。
TrueMICL數(shù)據(jù)集的設(shè)計(jì)理念可以用"驗(yàn)鈔機(jī)"來(lái)類(lèi)比。普通人可能很難區(qū)分真鈔和高質(zhì)量的假鈔,但專(zhuān)業(yè)的驗(yàn)鈔機(jī)能夠通過(guò)紫外線、磁性檢測(cè)等多種手段準(zhǔn)確識(shí)別真?zhèn)?。同樣,傳統(tǒng)的評(píng)估數(shù)據(jù)集就像普通人的肉眼,很容易被AI的"偽多模態(tài)學(xué)習(xí)"所欺騙,而TrueMICL就像一臺(tái)精密的"驗(yàn)鈔機(jī)",能夠準(zhǔn)確識(shí)別AI是否真正進(jìn)行了多模態(tài)學(xué)習(xí)。
TrueMICL數(shù)據(jù)集包含了四大類(lèi)型、七種不同的任務(wù),總共860個(gè)樣本。這些任務(wù)的共同特點(diǎn)是:必須同時(shí)理解圖像和文字信息才能得到正確答案,僅僅依靠文字模式無(wú)法解決問(wèn)題。
第一類(lèi)是數(shù)學(xué)推理任務(wù),包括算子歸納和時(shí)鐘數(shù)學(xué)兩個(gè)子任務(wù)。算子歸納任務(wù)要求AI從幾個(gè)示例中學(xué)會(huì)某種數(shù)學(xué)運(yùn)算規(guī)則,然后應(yīng)用到新的問(wèn)題上。比如給出幾個(gè)圖片,每張圖片顯示兩個(gè)數(shù)字,對(duì)應(yīng)的答案是這兩個(gè)數(shù)字的乘積,然后要求AI對(duì)新的圖片進(jìn)行同樣的運(yùn)算。時(shí)鐘數(shù)學(xué)任務(wù)更加有趣,它會(huì)顯示時(shí)鐘圖片,AI需要學(xué)會(huì)讀取時(shí)鐘上的兩個(gè)數(shù)字并進(jìn)行特定的數(shù)學(xué)運(yùn)算。
第二類(lèi)是概念綁定任務(wù),包括異常檢測(cè)和CLEVR計(jì)數(shù)。異常檢測(cè)任務(wù)會(huì)顯示包含不同形狀和顏色的圖片,AI需要根據(jù)示例學(xué)會(huì)識(shí)別特定的異常模式。CLEVR計(jì)數(shù)任務(wù)要求AI學(xué)會(huì)計(jì)算圖片中特定屬性物體的數(shù)量。這類(lèi)任務(wù)特別考驗(yàn)AI將抽象概念與視覺(jué)特征相結(jié)合的能力。
第三類(lèi)是模式識(shí)別任務(wù),包括數(shù)獨(dú)和回文數(shù)字兩個(gè)子任務(wù)。數(shù)獨(dú)任務(wù)會(huì)顯示不完整的數(shù)獨(dú)謎題圖片,AI需要根據(jù)示例學(xué)會(huì)數(shù)獨(dú)的填充規(guī)則?;匚臄?shù)字任務(wù)要求AI學(xué)會(huì)構(gòu)造回文數(shù)字序列。這類(lèi)任務(wù)需要AI理解復(fù)雜的邏輯模式和規(guī)律。
第四類(lèi)是新概念學(xué)習(xí)任務(wù),即角色分類(lèi)。這個(gè)任務(wù)使用的是模型訓(xùn)練截止日期之后的電影角色圖片,并為這些角色分配全新的名字。AI需要通過(guò)示例學(xué)會(huì)將新的名字與陌生的面孔對(duì)應(yīng)起來(lái)。這個(gè)任務(wù)特別考驗(yàn)AI的快速概念學(xué)習(xí)能力。
TrueMICL數(shù)據(jù)集的每個(gè)任務(wù)都經(jīng)過(guò)精心設(shè)計(jì),確保滿(mǎn)足五個(gè)核心原則。首先是上下文依賴(lài)性:不看示例圖片就無(wú)法解決問(wèn)題。其次是新穎性:任務(wù)涉及的圖文關(guān)系在預(yù)訓(xùn)練數(shù)據(jù)中很少出現(xiàn)。第三是可感知的視覺(jué)信息:所需的視覺(jué)信息不會(huì)過(guò)于復(fù)雜,確保視覺(jué)編碼器能夠準(zhǔn)確感知。第四是與語(yǔ)言模型的兼容性:任務(wù)不會(huì)超出語(yǔ)言模型本身的能力范圍。第五是可配置性和可擴(kuò)展性:可以方便地生成不同難度級(jí)別的更多樣本。
實(shí)驗(yàn)結(jié)果顯示,當(dāng)前的主流多模態(tài)AI模型在TrueMICL數(shù)據(jù)集上的表現(xiàn)確實(shí)不盡如人意。許多在傳統(tǒng)數(shù)據(jù)集上表現(xiàn)優(yōu)異的模型,在TrueMICL上的準(zhǔn)確率都顯著下降。這清楚地證明了這些模型確實(shí)存在"視覺(jué)盲區(qū)"問(wèn)題,也驗(yàn)證了TrueMICL數(shù)據(jù)集的有效性。
更有趣的是,即使是最先進(jìn)的GPT-4o模型,在零樣本設(shè)置下也在大多數(shù)TrueMICL任務(wù)上表現(xiàn)不佳,只有在提供了演示樣本后性能才有顯著提升。這進(jìn)一步證明了真正的多模態(tài)學(xué)習(xí)需要有效整合視覺(jué)和文字信息,而不能僅僅依賴(lài)預(yù)訓(xùn)練時(shí)學(xué)到的知識(shí)。
四、實(shí)驗(yàn)驗(yàn)證:令人信服的科學(xué)證據(jù)
為了全面驗(yàn)證DARA技術(shù)的有效性和TrueMICL數(shù)據(jù)集的價(jià)值,研究團(tuán)隊(duì)進(jìn)行了一系列精心設(shè)計(jì)的實(shí)驗(yàn)。這些實(shí)驗(yàn)就像醫(yī)學(xué)研究中的臨床試驗(yàn)一樣嚴(yán)謹(jǐn),通過(guò)多種角度的對(duì)比分析來(lái)確保結(jié)論的可靠性。
研究團(tuán)隊(duì)選擇了三個(gè)具有代表性的多模態(tài)大語(yǔ)言模型進(jìn)行測(cè)試:Qwen2-VL、Idefics3和Phi-3.5-Vision。這三個(gè)模型在架構(gòu)設(shè)計(jì)、參數(shù)規(guī)模和訓(xùn)練數(shù)據(jù)方面都有所不同,能夠很好地代表當(dāng)前多模態(tài)AI的技術(shù)水平。同時(shí),研究團(tuán)隊(duì)還測(cè)試了閉源的GPT-4o模型,以了解最先進(jìn)的商業(yè)模型在這些任務(wù)上的表現(xiàn)。
實(shí)驗(yàn)設(shè)計(jì)包含了多個(gè)對(duì)照組,就像科學(xué)實(shí)驗(yàn)中的控制變量一樣。零樣本設(shè)置測(cè)試模型在沒(méi)有任何示例的情況下的表現(xiàn);無(wú)圖像設(shè)置只提供文字示例而不提供圖像;隨機(jī)選擇設(shè)置隨機(jī)選擇演示樣本;RICES方法通過(guò)相似性檢索選擇最相關(guān)的演示樣本;LoRA方法使用傳統(tǒng)的參數(shù)高效微調(diào)技術(shù)。
實(shí)驗(yàn)結(jié)果令人印象深刻,同時(shí)也證實(shí)了研究團(tuán)隊(duì)的核心觀點(diǎn)。在TrueMICL數(shù)據(jù)集上,所有模型在零樣本和無(wú)圖像設(shè)置下的表現(xiàn)都很差,這證明了這些任務(wù)確實(shí)需要多模態(tài)信息才能解決。有趣的是,即使使用RICES方法選擇更相關(guān)的演示樣本,性能提升也很有限,這說(shuō)明問(wèn)題的根源不在于演示樣本的質(zhì)量,而在于模型無(wú)法有效利用視覺(jué)信息。
DARA技術(shù)在所有測(cè)試模型和任務(wù)上都顯示出了一致的性能提升。以Qwen2-VL模型為例,在算子歸納任務(wù)上,DARA將準(zhǔn)確率從67.33%提升到72.67%;在時(shí)鐘數(shù)學(xué)任務(wù)上,從31.00%提升到37.33%;在異常檢測(cè)任務(wù)上,從86.67%提升到91.67%。這些提升雖然看似不大,但在AI技術(shù)發(fā)展中已經(jīng)是非常顯著的進(jìn)步。
更令人驚喜的是DARA的參數(shù)效率。研究團(tuán)隊(duì)進(jìn)行了detailed的參數(shù)規(guī)模對(duì)比實(shí)驗(yàn),結(jié)果顯示DARA只需要約140個(gè)參數(shù)就能達(dá)到與數(shù)千個(gè)參數(shù)的LoRA方法相當(dāng)?shù)男阅芴嵘_@種極致的參數(shù)效率在實(shí)際應(yīng)用中具有重要價(jià)值,特別是在計(jì)算資源受限的場(chǎng)景下。
注意力可視化分析為DARA的工作機(jī)制提供了直觀的證據(jù)。研究團(tuán)隊(duì)生成了注意力熱力圖,清楚地顯示了DARA如何改變模型的注意力分配模式。在使用DARA之前,演示圖像和查詢(xún)圖像都很少受到關(guān)注,熱力圖上主要是藍(lán)色區(qū)域。使用DARA后,圖像區(qū)域明顯變成了紅色和黃色,表明模型開(kāi)始更多地關(guān)注視覺(jué)信息。
定量分析進(jìn)一步確認(rèn)了這一觀察結(jié)果。在不使用DARA的情況下,模型只將28%的注意力分配給圖像標(biāo)記;使用DARA后,這個(gè)比例提升到46.7%,接近平衡狀態(tài)。這種注意力重分配直接轉(zhuǎn)化為了性能提升,證明了DARA方法的有效性。
研究團(tuán)隊(duì)還進(jìn)行了跨任務(wù)遷移實(shí)驗(yàn),測(cè)試在一個(gè)任務(wù)上訓(xùn)練的DARA參數(shù)是否能夠提升其他任務(wù)的性能。結(jié)果顯示,雖然遷移效果不如直接訓(xùn)練,但仍然能夠帶來(lái)2-5%的性能提升。這種遷移能力表明DARA學(xué)到的注意力調(diào)節(jié)策略具有一定的通用性。
在傳統(tǒng)視覺(jué)語(yǔ)言數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果也很有啟發(fā)性。研究團(tuán)隊(duì)發(fā)現(xiàn),DARA在VQAv2、GQA、A-OKVQA和MSCOCO等標(biāo)準(zhǔn)數(shù)據(jù)集上的性能與基線方法基本相當(dāng),沒(méi)有出現(xiàn)性能下降。這證明了DARA不會(huì)對(duì)模型的正常功能造成負(fù)面影響,同時(shí)也間接證實(shí)了這些傳統(tǒng)數(shù)據(jù)集確實(shí)無(wú)法有效評(píng)估真正的多模態(tài)學(xué)習(xí)能力。
五、技術(shù)深度解析:DARA與傳統(tǒng)方法的本質(zhì)區(qū)別
為了更深入地理解DARA技術(shù)的創(chuàng)新性,我們需要將其與現(xiàn)有的參數(shù)高效微調(diào)方法進(jìn)行詳細(xì)比較。這種比較就像分析不同工具的適用場(chǎng)景一樣,每種方法都有其獨(dú)特的優(yōu)勢(shì)和局限性。
傳統(tǒng)的LoRA(低秩適應(yīng))方法就像是對(duì)整個(gè)機(jī)械系統(tǒng)進(jìn)行全面升級(jí),通過(guò)在原有權(quán)重矩陣上添加低秩分解的更新矩陣來(lái)實(shí)現(xiàn)模型適應(yīng)。這種方法功能強(qiáng)大且通用性好,但需要大量的參數(shù)來(lái)實(shí)現(xiàn)有效的適應(yīng)。在多模態(tài)學(xué)習(xí)的場(chǎng)景下,LoRA需要學(xué)習(xí)復(fù)雜的跨模態(tài)交互模式,因此通常需要數(shù)千個(gè)參數(shù)才能達(dá)到理想效果。
相比之下,DARA更像是一個(gè)精確的調(diào)節(jié)器,專(zhuān)門(mén)針對(duì)注意力分配這一核心問(wèn)題進(jìn)行優(yōu)化。研究團(tuán)隊(duì)通過(guò)數(shù)學(xué)分析證明,DARA實(shí)際上可以看作是LoRA的一種特殊形式,但這種特殊性正是其高效性的來(lái)源。DARA的約束性設(shè)計(jì)使其能夠用極少的參數(shù)實(shí)現(xiàn)精確的注意力調(diào)節(jié),就像用一個(gè)小小的透鏡就能改變整個(gè)光學(xué)系統(tǒng)的焦點(diǎn)一樣。
從技術(shù)實(shí)現(xiàn)的角度來(lái)看,DARA的設(shè)計(jì)體現(xiàn)了"少即是多"的哲學(xué)。通過(guò)將注意力調(diào)節(jié)限制在特定的視覺(jué)標(biāo)記位置,DARA避免了參數(shù)的浪費(fèi),每個(gè)參數(shù)都能發(fā)揮最大的作用。這種設(shè)計(jì)不僅提高了參數(shù)效率,還增強(qiáng)了方法的可解釋性——我們可以清楚地知道每個(gè)參數(shù)在做什么。
DARA技術(shù)的另一個(gè)重要?jiǎng)?chuàng)新在于其動(dòng)態(tài)性。傳統(tǒng)的注意力機(jī)制是靜態(tài)的,一旦訓(xùn)練完成就固定不變。而DARA引入的參數(shù)允許模型根據(jù)具體任務(wù)動(dòng)態(tài)調(diào)整注意力分配策略。這種動(dòng)態(tài)性使得同一個(gè)模型可以在不同類(lèi)型的多模態(tài)任務(wù)之間靈活切換,就像一個(gè)多功能工具可以適應(yīng)不同的使用場(chǎng)景。
實(shí)驗(yàn)數(shù)據(jù)顯示,DARA在不同模型架構(gòu)上都表現(xiàn)出了一致的改進(jìn)效果,這證明了其方法的通用性。無(wú)論是基于Transformer的Qwen2-VL,還是采用不同視覺(jué)編碼器的Idefics3和Phi-3.5-Vision,DARA都能夠有效地改善其多模態(tài)學(xué)習(xí)能力。這種架構(gòu)無(wú)關(guān)性使得DARA成為了一個(gè)非常實(shí)用的通用解決方案。
研究團(tuán)隊(duì)還探索了DARA與LoRA結(jié)合使用的可能性。實(shí)驗(yàn)結(jié)果顯示,即使在已經(jīng)使用全參數(shù)LoRA微調(diào)的模型上,添加DARA仍然能夠帶來(lái)額外的1-2%性能提升。這種疊加效應(yīng)表明DARA和LoRA解決的是不同層面的問(wèn)題,兩者可以很好地互補(bǔ)。
從計(jì)算復(fù)雜度的角度來(lái)看,DARA幾乎不會(huì)增加模型的推理開(kāi)銷(xiāo)。由于只是對(duì)注意力分?jǐn)?shù)進(jìn)行簡(jiǎn)單的乘法運(yùn)算,DARA的計(jì)算成本可以忽略不計(jì)。這種輕量化的特性使得DARA特別適合在資源受限的環(huán)境中部署,比如移動(dòng)設(shè)備或邊緣計(jì)算場(chǎng)景。
DARA技術(shù)的可擴(kuò)展性也值得關(guān)注。隨著輸入圖像數(shù)量的增加,DARA需要的參數(shù)數(shù)量呈線性增長(zhǎng),這種可預(yù)測(cè)的擴(kuò)展性使得方法在實(shí)際應(yīng)用中更容易控制和優(yōu)化。而且,不同注意力頭可以有獨(dú)立的DARA參數(shù),這為更精細(xì)的注意力控制提供了可能性。
六、廣泛驗(yàn)證:從學(xué)術(shù)模型到商業(yè)巨頭的全面測(cè)試
為了確保研究結(jié)論的普遍適用性,研究團(tuán)隊(duì)不僅測(cè)試了開(kāi)源的學(xué)術(shù)模型,還對(duì)當(dāng)前最先進(jìn)的商業(yè)模型進(jìn)行了評(píng)估。這種全面的測(cè)試策略就像藥物研發(fā)中的多期臨床試驗(yàn),通過(guò)不同階段、不同對(duì)象的測(cè)試來(lái)確保結(jié)論的可靠性和適用性。
在開(kāi)源模型的測(cè)試中,研究團(tuán)隊(duì)選擇了三個(gè)在架構(gòu)、規(guī)模和訓(xùn)練方法上都有顯著差異的代表性模型。Qwen2-VL是一個(gè)專(zhuān)門(mén)為多模態(tài)理解優(yōu)化的模型,支持任意分辨率的圖像輸入,代表了當(dāng)前多模態(tài)模型的技術(shù)前沿。Idefics3是基于LLaMA3架構(gòu)的開(kāi)源多模態(tài)模型,在文檔理解和視覺(jué)推理方面表現(xiàn)出色。Phi-3.5-Vision則是微軟開(kāi)發(fā)的輕量級(jí)模型,雖然參數(shù)較少但經(jīng)過(guò)精心的優(yōu)化訓(xùn)練。
這三個(gè)模型在TrueMICL數(shù)據(jù)集上的表現(xiàn)模式驚人地一致,都顯示出了明顯的"視覺(jué)盲區(qū)"問(wèn)題。在零樣本設(shè)置下,所有模型的表現(xiàn)都很差,這證明這些任務(wù)確實(shí)需要從演示中學(xué)習(xí)。但令人意外的是,即使提供了包含圖像的演示樣本,模型的改進(jìn)也很有限,而使用DARA后性能都有顯著提升。
更有趣的是GPT-4o的測(cè)試結(jié)果。作為當(dāng)前最先進(jìn)的商業(yè)多模態(tài)模型,GPT-4o在許多標(biāo)準(zhǔn)基準(zhǔn)測(cè)試中都表現(xiàn)出色。但在TrueMICL數(shù)據(jù)集上,GPT-4o在零樣本設(shè)置下同樣表現(xiàn)不佳,只有在數(shù)獨(dú)等少數(shù)邏輯推理任務(wù)上表現(xiàn)較好。這個(gè)結(jié)果特別有啟發(fā)性,因?yàn)樗砻骷词故亲钕冗M(jìn)的模型也無(wú)法完全避免"視覺(jué)盲區(qū)"問(wèn)題。
然而,當(dāng)提供四個(gè)演示樣本后,GPT-4o的性能出現(xiàn)了戲劇性的提升。在算子歸納任務(wù)上達(dá)到了100%的準(zhǔn)確率,在時(shí)鐘數(shù)學(xué)任務(wù)上達(dá)到87%,在異常檢測(cè)任務(wù)上達(dá)到99%。這種巨大的性能差異清楚地表明,真正的多模態(tài)學(xué)習(xí)確實(shí)需要有效整合演示中的視覺(jué)信息,而不能僅僅依賴(lài)預(yù)訓(xùn)練知識(shí)。
為了進(jìn)一步挑戰(zhàn)GPT-4o的能力,研究團(tuán)隊(duì)還設(shè)計(jì)了更困難的數(shù)獨(dú)變體。在這個(gè)更具挑戰(zhàn)性的任務(wù)上,GPT-4o的準(zhǔn)確率從標(biāo)準(zhǔn)數(shù)獨(dú)的100%下降到91%,這說(shuō)明即使是最先進(jìn)的模型在面對(duì)真正需要復(fù)雜多模態(tài)推理的任務(wù)時(shí)仍然存在局限性。
人類(lèi)基準(zhǔn)測(cè)試提供了另一個(gè)重要的參考點(diǎn)。研究團(tuán)隊(duì)邀請(qǐng)了20名參與者對(duì)TrueMICL任務(wù)進(jìn)行測(cè)試。結(jié)果顯示,在沒(méi)有演示的情況下,人類(lèi)參與者通常無(wú)法解決這些任務(wù),但在提供演示后,他們的表現(xiàn)顯著改善。這個(gè)結(jié)果驗(yàn)證了TrueMICL任務(wù)設(shè)計(jì)的合理性——這些任務(wù)確實(shí)需要從多模態(tài)演示中學(xué)習(xí),而不是僅憑先驗(yàn)知識(shí)就能解決。
跨任務(wù)遷移實(shí)驗(yàn)揭示了DARA技術(shù)的另一個(gè)有趣特性。當(dāng)在一個(gè)任務(wù)上訓(xùn)練DARA參數(shù)并應(yīng)用到其他任務(wù)時(shí),仍然能夠帶來(lái)2-5%的性能提升。這種遷移能力表明DARA學(xué)到的注意力調(diào)節(jié)策略具有一定的通用性,可能捕捉到了多模態(tài)學(xué)習(xí)的一些基本規(guī)律。
不同演示數(shù)量的實(shí)驗(yàn)進(jìn)一步驗(yàn)證了DARA的穩(wěn)定性。研究團(tuán)隊(duì)測(cè)試了從2個(gè)到32個(gè)演示樣本的不同設(shè)置,發(fā)現(xiàn)在合理的范圍內(nèi)(通常是模型能夠處理的最大圖像數(shù)量),DARA都能帶來(lái)持續(xù)的性能改進(jìn)。這種一致性表明DARA不是針對(duì)特定設(shè)置的優(yōu)化技巧,而是一個(gè)具有普遍適用性的技術(shù)方案。
傳統(tǒng)視覺(jué)語(yǔ)言數(shù)據(jù)集上的對(duì)照實(shí)驗(yàn)也很有意義。在VQAv2、GQA、A-OKVQA和MSCOCO等標(biāo)準(zhǔn)數(shù)據(jù)集上,使用DARA的模型與基線方法性能基本相當(dāng),沒(méi)有出現(xiàn)退化。這個(gè)結(jié)果有雙重意義:一方面證明DARA不會(huì)損害模型在傳統(tǒng)任務(wù)上的性能,另一方面也間接證實(shí)了這些傳統(tǒng)數(shù)據(jù)集確實(shí)無(wú)法有效評(píng)估真正的多模態(tài)學(xué)習(xí)能力。
七、深入機(jī)制:窺探AI"大腦"的注意力奧秘
要真正理解DARA技術(shù)的工作原理,我們需要深入AI模型的"大腦"——注意力機(jī)制。這就像使用先進(jìn)的腦成像技術(shù)來(lái)觀察人類(lèi)大腦的活動(dòng)模式一樣,通過(guò)可視化和量化分析來(lái)揭示AI注意力分配的秘密。
研究團(tuán)隊(duì)使用了多種技術(shù)手段來(lái)分析DARA對(duì)模型注意力的影響。最直觀的方法是生成注意力熱力圖,這些熱力圖就像大腦的功能性磁共振成像圖片,能夠顯示模型在處理不同輸入時(shí)的"關(guān)注焦點(diǎn)"。
在沒(méi)有使用DARA的情況下,注意力熱力圖主要呈現(xiàn)藍(lán)色,表明模型對(duì)圖像區(qū)域的關(guān)注度很低。無(wú)論是演示圖像還是查詢(xún)圖像,都很少受到模型的"關(guān)注"。這種現(xiàn)象就像一個(gè)學(xué)生在課堂上雖然眼睛看著黑板,但注意力卻完全集中在課本上,完全忽視了老師在黑板上繪制的重要圖表。
使用DARA后,注意力熱力圖發(fā)生了顯著變化。圖像區(qū)域開(kāi)始出現(xiàn)紅色和黃色區(qū)域,表明模型開(kāi)始真正"看見(jiàn)"這些視覺(jué)信息。這種變化不是隨機(jī)的,而是有針對(duì)性的——模型學(xué)會(huì)了重點(diǎn)關(guān)注那些與任務(wù)相關(guān)的圖像區(qū)域。
定量分析提供了更精確的證據(jù)。研究團(tuán)隊(duì)計(jì)算了模型對(duì)不同模態(tài)標(biāo)記的注意力分配比例。數(shù)據(jù)顯示,原始模型只將28%的注意力分配給圖像標(biāo)記,而72%的注意力都集中在文字標(biāo)記上。這種嚴(yán)重的注意力不平衡正是"視覺(jué)盲區(qū)"問(wèn)題的根源。
DARA干預(yù)后,注意力分配變得更加平衡。圖像標(biāo)記獲得了46.7%的注意力,而文字標(biāo)記的注意力相應(yīng)減少到53.3%。這種重平衡不僅在數(shù)值上更加合理,更重要的是轉(zhuǎn)化為了實(shí)際的性能提升。
更細(xì)致的分析揭示了DARA參數(shù)的學(xué)習(xí)模式。研究團(tuán)隊(duì)可視化了第一個(gè)transformer層中8個(gè)注意力頭學(xué)到的放大因子。結(jié)果顯示,不同的注意力頭表現(xiàn)出了不同的專(zhuān)門(mén)化模式。比如,某個(gè)注意力頭可能特別關(guān)注第二個(gè)演示圖像(放大因子為1.27),而另一個(gè)注意力頭則更關(guān)注第四個(gè)演示圖像(放大因子為1.32)。
這種專(zhuān)門(mén)化模式表明DARA不是簡(jiǎn)單地統(tǒng)一放大所有視覺(jué)信息,而是學(xué)會(huì)了智能化的選擇性注意。不同的注意力頭學(xué)會(huì)了關(guān)注不同的演示樣本,這種分工合作的模式使得模型能夠更全面地利用多模態(tài)信息。
層次分析實(shí)驗(yàn)進(jìn)一步探索了DARA在不同網(wǎng)絡(luò)層中的作用。研究團(tuán)隊(duì)測(cè)試了將DARA應(yīng)用到多個(gè)transformer層的效果,發(fā)現(xiàn)將DARA限制在第一層就能達(dá)到最佳的效果-效率平衡。這個(gè)發(fā)現(xiàn)很有啟發(fā)性,因?yàn)樗砻髯⒁饬χ胤峙湓谠缙陔A段就已經(jīng)足夠有效,不需要在整個(gè)網(wǎng)絡(luò)中進(jìn)行復(fù)雜的調(diào)整。
硬編碼注意力調(diào)整的對(duì)照實(shí)驗(yàn)提供了另一個(gè)有趣的對(duì)比。研究團(tuán)隊(duì)嘗試了一種簡(jiǎn)單粗暴的方法:強(qiáng)制讓一半的注意力頭完全忽略文字標(biāo)記,只關(guān)注圖像標(biāo)記。結(jié)果這種硬編碼方法導(dǎo)致了不穩(wěn)定和不連貫的輸出,表明簡(jiǎn)單的注意力操作并不足以解決問(wèn)題,需要DARA這樣的學(xué)習(xí)化軟性調(diào)整。
DARA與LoRA的結(jié)合實(shí)驗(yàn)揭示了兩種方法的互補(bǔ)性。即使在已經(jīng)使用全參數(shù)LoRA微調(diào)的模型上,添加DARA仍然能夠帶來(lái)額外的改進(jìn)。這表明DARA和LoRA解決的是不同層面的問(wèn)題:LoRA主要優(yōu)化模型的整體適應(yīng)能力,而DARA專(zhuān)門(mén)解決注意力分配的問(wèn)題。
參數(shù)規(guī)模對(duì)比實(shí)驗(yàn)最清楚地展示了DARA的效率優(yōu)勢(shì)。在Qwen2-VL的算子歸納任務(wù)上,DARA只用140個(gè)參數(shù)就超越了4-shot基線,而LoRA需要數(shù)萬(wàn)個(gè)參數(shù)才能達(dá)到類(lèi)似的性能。這種巨大的效率差異在實(shí)際應(yīng)用中具有重要價(jià)值,特別是在需要快速適應(yīng)新任務(wù)的場(chǎng)景中。
八、未來(lái)展望:多模態(tài)AI的新紀(jì)元
DARA技術(shù)和TrueMICL數(shù)據(jù)集不僅解決了當(dāng)前多模態(tài)AI的一個(gè)重要問(wèn)題,更為整個(gè)領(lǐng)域的發(fā)展指明了新的方向。這項(xiàng)研究的意義就像發(fā)現(xiàn)了一個(gè)重要的科學(xué)原理,不僅解決了眼前的問(wèn)題,還為未來(lái)的探索奠定了基礎(chǔ)。
從技術(shù)發(fā)展的角度來(lái)看,DARA代表了一種新的優(yōu)化范式。傳統(tǒng)的模型優(yōu)化通常采用"大而全"的策略,試圖通過(guò)調(diào)整大量參數(shù)來(lái)改善整體性能。而DARA展示了"精而準(zhǔn)"策略的潛力——通過(guò)精確識(shí)別和解決核心問(wèn)題,用極少的參數(shù)實(shí)現(xiàn)顯著的改進(jìn)。這種思路可能會(huì)啟發(fā)更多類(lèi)似的高效優(yōu)化方法。
TrueMICL數(shù)據(jù)集的價(jià)值不僅在于當(dāng)前的評(píng)估,更在于為未來(lái)的研究提供了一個(gè)可靠的基準(zhǔn)。隨著多模態(tài)AI技術(shù)的不斷發(fā)展,我們需要更加嚴(yán)格和準(zhǔn)確的評(píng)估方法來(lái)衡量真正的進(jìn)步。TrueMICL提供的評(píng)估框架可以幫助研究者避免被表面的性能提升所誤導(dǎo),專(zhuān)注于解決真正的技術(shù)挑戰(zhàn)。
這項(xiàng)研究還揭示了多模態(tài)學(xué)習(xí)中一個(gè)深層的問(wèn)題:如何平衡不同模態(tài)信息的重要性。當(dāng)前的大多數(shù)方法都隱式地假設(shè)模型會(huì)自動(dòng)學(xué)會(huì)合適的模態(tài)融合策略,但DARA的成功表明,顯式的注意力調(diào)節(jié)可能是必要的。這個(gè)發(fā)現(xiàn)可能會(huì)推動(dòng)更多關(guān)于多模態(tài)融合機(jī)制的研究。
從應(yīng)用前景來(lái)看,DARA技術(shù)的輕量化特性使其特別適合在資源受限的環(huán)境中部署。在移動(dòng)設(shè)備、邊緣計(jì)算或?qū)崟r(shí)應(yīng)用場(chǎng)景中,DARA能夠以極小的計(jì)算開(kāi)銷(xiāo)實(shí)現(xiàn)多模態(tài)性能的顯著提升。這種特性可能會(huì)加速多模態(tài)AI技術(shù)在更廣泛領(lǐng)域的應(yīng)用。
教育領(lǐng)域是一個(gè)特別有前景的應(yīng)用方向。DARA技術(shù)能夠幫助AI更好地理解圖文結(jié)合的教學(xué)材料,從而開(kāi)發(fā)出更智能的教育輔助系統(tǒng)。這些系統(tǒng)不僅能夠理解教材中的文字內(nèi)容,還能夠準(zhǔn)確理解圖表、圖像等視覺(jué)信息,為學(xué)生提供更全面的學(xué)習(xí)支持。
醫(yī)療診斷是另一個(gè)重要的應(yīng)用領(lǐng)域。醫(yī)學(xué)影像通常需要結(jié)合病歷文字信息進(jìn)行綜合分析,DARA技術(shù)能夠幫助AI更好地整合這兩類(lèi)信息,提高診斷的準(zhǔn)確性。特別是在需要快速適應(yīng)新的診斷任務(wù)或少見(jiàn)疾病的場(chǎng)景中,DARA的高效學(xué)習(xí)能力可能會(huì)發(fā)揮重要作用。
自動(dòng)駕駛和機(jī)器人技術(shù)也可能從DARA技術(shù)中受益。這些應(yīng)用需要AI同時(shí)處理視覺(jué)傳感器數(shù)據(jù)和其他類(lèi)型的指令或信息,DARA的注意力調(diào)節(jié)機(jī)制可能有助于提高這類(lèi)系統(tǒng)的可靠性和適應(yīng)性。
從科學(xué)研究的角度來(lái)看,這項(xiàng)工作為理解人工智能的注意力機(jī)制提供了新的視角。人類(lèi)在學(xué)習(xí)新任務(wù)時(shí)也會(huì)遇到類(lèi)似的注意力分配問(wèn)題,DARA的成功可能為認(rèn)知科學(xué)和神經(jīng)科學(xué)研究提供啟發(fā)。
研究團(tuán)隊(duì)已經(jīng)開(kāi)源了代碼和數(shù)據(jù)集,這為學(xué)術(shù)界的后續(xù)研究奠定了基礎(chǔ)。預(yù)計(jì)會(huì)有更多研究者在此基礎(chǔ)上開(kāi)發(fā)出更先進(jìn)的注意力調(diào)節(jié)方法,或者將DARA的思路應(yīng)用到其他類(lèi)型的AI任務(wù)中。
隨著多模態(tài)大語(yǔ)言模型規(guī)模的不斷增長(zhǎng),DARA這樣的高效優(yōu)化方法將變得越來(lái)越重要。未來(lái)的模型可能會(huì)包含數(shù)千億甚至萬(wàn)億參數(shù),在這種規(guī)模下,能夠用少量參數(shù)實(shí)現(xiàn)顯著改進(jìn)的方法將具有巨大的價(jià)值。
然而,這項(xiàng)研究也提出了一些新的問(wèn)題需要進(jìn)一步探索。比如,如何將DARA的思路擴(kuò)展到更復(fù)雜的多模態(tài)場(chǎng)景,如視頻理解或三維場(chǎng)景理解?如何設(shè)計(jì)更加智能的注意力調(diào)節(jié)策略,讓AI能夠根據(jù)任務(wù)類(lèi)型自動(dòng)調(diào)整注意力分配?這些問(wèn)題為未來(lái)的研究提供了豐富的方向。
說(shuō)到底,這項(xiàng)研究最重要的貢獻(xiàn)可能是改變了我們對(duì)多模態(tài)AI能力的認(rèn)知。它提醒我們,表面的性能提升可能掩蓋了深層的問(wèn)題,只有通過(guò)更嚴(yán)格的評(píng)估和更深入的分析,我們才能真正推動(dòng)AI技術(shù)的進(jìn)步。DARA技術(shù)不僅解決了一個(gè)具體的技術(shù)問(wèn)題,更重要的是為整個(gè)領(lǐng)域提供了一個(gè)新的思考框架,這可能是其最持久的價(jià)值所在。
Q&A
Q1:DARA技術(shù)是什么?它能解決什么問(wèn)題? A:DARA(動(dòng)態(tài)注意力重分配)是一種讓AI更好地"看圖學(xué)習(xí)"的技術(shù)。當(dāng)前的多模態(tài)AI在學(xué)習(xí)新任務(wù)時(shí)往往忽視圖像信息,過(guò)度依賴(lài)文字提示。DARA就像給AI裝上"特殊眼鏡",迫使它更仔細(xì)觀察圖像內(nèi)容,只需約100個(gè)參數(shù)就能帶來(lái)10%的性能提升。
Q2:TrueMICL數(shù)據(jù)集有什么特別之處? A:TrueMICL是專(zhuān)門(mén)設(shè)計(jì)來(lái)測(cè)試AI是否真正進(jìn)行多模態(tài)學(xué)習(xí)的數(shù)據(jù)集,包含數(shù)學(xué)推理、概念綁定、模式識(shí)別等7種任務(wù)。它的特殊之處在于必須同時(shí)理解圖像和文字才能答對(duì),僅憑文字無(wú)法解決,就像一臺(tái)精密的"驗(yàn)鈔機(jī)"能準(zhǔn)確識(shí)別AI的真實(shí)學(xué)習(xí)能力。
Q3:這項(xiàng)研究對(duì)普通人有什么意義? A:這項(xiàng)研究將推動(dòng)多模態(tài)AI在教育、醫(yī)療、自動(dòng)駕駛等領(lǐng)域的實(shí)際應(yīng)用。比如開(kāi)發(fā)出更智能的教育系統(tǒng)能夠理解教材中的圖表,或者提高醫(yī)療AI結(jié)合影像和病歷進(jìn)行診斷的準(zhǔn)確性。雖然技術(shù)細(xì)節(jié)復(fù)雜,但最終會(huì)讓我們的生活更便利。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專(zhuān)家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專(zhuān)家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類(lèi)型問(wèn)題偏愛(ài)不同專(zhuān)家配置,為AI推理優(yōu)化開(kāi)辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話(huà)多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。