這項(xiàng)突破性研究由西安電子科技大學(xué)的李輝、楊鵬飛等六位學(xué)者共同完成,于2025年1月發(fā)表在國(guó)際多媒體頂級(jí)會(huì)議MM '25上。有興趣深入了解的讀者可以通過(guò)論文官方鏈接https://github.com/Gray-OREO/MST-Distill訪(fǎng)問(wèn)完整代碼和詳細(xì)資料。
現(xiàn)代AI系統(tǒng)正面臨一個(gè)有趣的挑戰(zhàn):如何讓機(jī)器同時(shí)理解圖像、聲音和文字?這就像教一個(gè)孩子既要會(huì)看圖說(shuō)話(huà),又要會(huì)聽(tīng)音識(shí)字,還要理解文字含義。目前的AI技術(shù)雖然在單一任務(wù)上表現(xiàn)出色,比如專(zhuān)門(mén)識(shí)別圖片的AI或?qū)iT(mén)處理語(yǔ)音的AI,但當(dāng)需要同時(shí)處理多種信息時(shí),情況就變得復(fù)雜起來(lái)。
西安電子科技大學(xué)的研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)關(guān)鍵問(wèn)題:當(dāng)我們想要讓一個(gè)AI模型從另一個(gè)更強(qiáng)大的AI模型那里學(xué)習(xí)時(shí),就像一個(gè)學(xué)生向老師學(xué)習(xí)一樣,如果這兩個(gè)模型處理的信息類(lèi)型不同(比如一個(gè)處理圖像,另一個(gè)處理聲音),學(xué)習(xí)效果往往不盡如人意。這種現(xiàn)象被稱(chēng)為"跨模態(tài)知識(shí)蒸餾",就像讓一個(gè)擅長(zhǎng)繪畫(huà)的老師教一個(gè)學(xué)音樂(lè)的學(xué)生,雖然都是藝術(shù),但傳授方式和理解方式存在差異。
研究人員通過(guò)大量實(shí)驗(yàn)發(fā)現(xiàn)了兩個(gè)核心問(wèn)題。第一個(gè)問(wèn)題是"選擇哪位老師"的困惑。比如說(shuō),當(dāng)一個(gè)專(zhuān)門(mén)處理圖像的AI學(xué)生需要學(xué)習(xí)時(shí),它應(yīng)該向誰(shuí)學(xué)習(xí)?是向處理聲音的AI老師學(xué)習(xí),還是向同時(shí)處理圖像和聲音的多模態(tài)AI老師學(xué)習(xí)?不同的老師在不同情況下效果差異巨大,有時(shí)候跨模態(tài)老師教得更好,有時(shí)候多模態(tài)老師更有效,這種不確定性讓人頭疼。
第二個(gè)問(wèn)題是"知識(shí)漂移"現(xiàn)象。這就像兩個(gè)人看同一幅畫(huà),一個(gè)人注意到了畫(huà)中的人物表情,另一個(gè)人卻被背景的風(fēng)景吸引。即使是處理相同信息的AI模型,由于訓(xùn)練方式不同,它們關(guān)注的重點(diǎn)也會(huì)不同。當(dāng)老師模型關(guān)注圖片中的某個(gè)區(qū)域時(shí),學(xué)生模型可能完全關(guān)注另一個(gè)區(qū)域,這種注意力的不匹配導(dǎo)致知識(shí)傳遞效果大打折扣。
面對(duì)這些挑戰(zhàn),研究團(tuán)隊(duì)提出了一個(gè)創(chuàng)新解決方案:MST-Distill框架,全稱(chēng)為"專(zhuān)業(yè)化教師混合體系"。這個(gè)系統(tǒng)的核心思想是不再依賴(lài)單一老師,而是組建一個(gè)多元化的教師團(tuán)隊(duì),讓學(xué)生能夠根據(jù)具體情況動(dòng)態(tài)選擇最適合的老師進(jìn)行學(xué)習(xí)。
整個(gè)MST-Distill框架分為三個(gè)精心設(shè)計(jì)的階段,就像一個(gè)完整的教育體系。第一階段是"協(xié)作初始化",這個(gè)階段就像讓所有潛在的老師和學(xué)生先在同一個(gè)課堂里共同學(xué)習(xí)基礎(chǔ)知識(shí)。研究人員不預(yù)先指定誰(shuí)是老師誰(shuí)是學(xué)生,而是讓所有模型作為平等的成員一起訓(xùn)練。這種方法的巧妙之處在于,通過(guò)共同學(xué)習(xí),所有模型都能獲得一定程度的知識(shí)對(duì)齊,為后續(xù)的專(zhuān)業(yè)化訓(xùn)練打下基礎(chǔ)。
第二階段是"專(zhuān)業(yè)化教師適應(yīng)",這是整個(gè)框架最具創(chuàng)新性的部分。研究團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)名為"MaskNet"的智能模塊,這個(gè)模塊就像一個(gè)智能翻譯器,能夠幫助不同類(lèi)型的老師調(diào)整自己的教學(xué)方式,使其更適合特定的學(xué)生。MaskNet采用了一種基于注意力機(jī)制的設(shè)計(jì),能夠識(shí)別并抑制那些可能導(dǎo)致知識(shí)漂移的信息,同時(shí)增強(qiáng)對(duì)學(xué)生有用的知識(shí)特征。
這個(gè)MaskNet模塊的工作原理很像一個(gè)智能過(guò)濾器。當(dāng)老師模型產(chǎn)生知識(shí)表示時(shí),MaskNet會(huì)分析這些信息,識(shí)別出哪些部分對(duì)目標(biāo)學(xué)生最有價(jià)值,然后通過(guò)軟掩碼技術(shù)對(duì)原始信息進(jìn)行重構(gòu)。這種重構(gòu)過(guò)程不是簡(jiǎn)單的信息刪除,而是一種智能的信息重組,確保傳遞給學(xué)生的知識(shí)既保持了原有的豐富性,又具有更好的適配性。
第三階段是"動(dòng)態(tài)知識(shí)蒸餾",這是整個(gè)系統(tǒng)的核心執(zhí)行階段。在這個(gè)階段,系統(tǒng)引入了一個(gè)名為"GateNet"的路由網(wǎng)絡(luò),這個(gè)網(wǎng)絡(luò)就像一個(gè)智能調(diào)度員,能夠根據(jù)每個(gè)具體的學(xué)習(xí)樣本動(dòng)態(tài)選擇最合適的老師組合。當(dāng)面對(duì)一個(gè)新的學(xué)習(xí)任務(wù)時(shí),GateNet會(huì)分析當(dāng)前的情況,然后從所有可用的專(zhuān)業(yè)化老師中選擇最有幫助的幾位,讓學(xué)生從這些精選的老師那里學(xué)習(xí)。
這種動(dòng)態(tài)選擇機(jī)制的優(yōu)勢(shì)在于它能夠適應(yīng)不同類(lèi)型的學(xué)習(xí)內(nèi)容。比如,對(duì)于一些視覺(jué)特征明顯的樣本,系統(tǒng)可能會(huì)選擇那些擅長(zhǎng)處理視覺(jué)信息的老師;而對(duì)于一些需要跨模態(tài)理解的復(fù)雜樣本,系統(tǒng)可能會(huì)選擇多模態(tài)老師來(lái)提供指導(dǎo)。這種靈活性大大提高了知識(shí)傳遞的效率和質(zhì)量。
為了驗(yàn)證這一創(chuàng)新框架的有效性,研究團(tuán)隊(duì)進(jìn)行了大規(guī)模的實(shí)驗(yàn)評(píng)估。他們選擇了五個(gè)不同的多模態(tài)數(shù)據(jù)集進(jìn)行測(cè)試,這些數(shù)據(jù)集涵蓋了從簡(jiǎn)單的數(shù)字識(shí)別到復(fù)雜的社交媒體分析等多個(gè)領(lǐng)域。實(shí)驗(yàn)結(jié)果顯示,MST-Distill框架在所有測(cè)試任務(wù)中都表現(xiàn)出色,相比傳統(tǒng)的知識(shí)蒸餾方法,平均性能提升了3-8個(gè)百分點(diǎn)。
在A(yíng)V-MNIST數(shù)據(jù)集上的實(shí)驗(yàn)特別引人注目。這個(gè)數(shù)據(jù)集包含了同時(shí)具有視覺(jué)和聽(tīng)覺(jué)信息的手寫(xiě)數(shù)字,是測(cè)試跨模態(tài)學(xué)習(xí)能力的理想平臺(tái)。傳統(tǒng)方法在這個(gè)數(shù)據(jù)集上的表現(xiàn)往往不穩(wěn)定,有時(shí)候跨模態(tài)學(xué)習(xí)甚至?xí)?lái)負(fù)面效果。而MST-Distill框架不僅避免了這種負(fù)面影響,還顯著提升了學(xué)習(xí)效果。
在RAVDESS情感識(shí)別數(shù)據(jù)集上的結(jié)果同樣令人印象深刻。這個(gè)數(shù)據(jù)集要求AI同時(shí)理解面部表情和語(yǔ)音情感,是一個(gè)典型的多模態(tài)理解任務(wù)。MST-Distill框架在這個(gè)任務(wù)上的成功表明,它能夠有效處理需要深度跨模態(tài)理解的復(fù)雜場(chǎng)景。
研究團(tuán)隊(duì)還對(duì)VGGSound-50k數(shù)據(jù)集進(jìn)行了測(cè)試,這是一個(gè)包含141個(gè)不同場(chǎng)景類(lèi)別的大規(guī)模視頻-音頻數(shù)據(jù)集。在這個(gè)更加復(fù)雜的實(shí)際應(yīng)用場(chǎng)景中,MST-Distill框架依然保持了優(yōu)異的性能,證明了其在真實(shí)世界應(yīng)用中的實(shí)用價(jià)值。
特別值得一提的是,研究團(tuán)隊(duì)還在CrisisMMD-V2數(shù)據(jù)集上進(jìn)行了測(cè)試,這是一個(gè)用于人道主義危機(jī)分類(lèi)的圖像-文本數(shù)據(jù)集。這個(gè)數(shù)據(jù)集的特殊性在于其圖像和文本之間的關(guān)聯(lián)性相對(duì)較弱,是測(cè)試跨模態(tài)學(xué)習(xí)算法魯棒性的理想平臺(tái)。MST-Distill框架在這個(gè)具有挑戰(zhàn)性的數(shù)據(jù)集上也取得了顯著的性能提升,進(jìn)一步驗(yàn)證了其廣泛的適用性。
為了更深入地理解MST-Distill框架的工作機(jī)制,研究團(tuán)隊(duì)進(jìn)行了詳細(xì)的消融實(shí)驗(yàn)。他們發(fā)現(xiàn),框架中的三個(gè)階段都發(fā)揮著不可替代的作用。協(xié)作初始化階段為后續(xù)的專(zhuān)業(yè)化訓(xùn)練奠定了基礎(chǔ),沒(méi)有這個(gè)階段,專(zhuān)業(yè)化教師的效果會(huì)大打折扣。專(zhuān)業(yè)化教師適應(yīng)階段則解決了知識(shí)漂移問(wèn)題,顯著提高了知識(shí)傳遞的質(zhì)量。動(dòng)態(tài)知識(shí)蒸餾階段則確保了系統(tǒng)能夠根據(jù)具體情況選擇最優(yōu)的學(xué)習(xí)策略。
研究人員還通過(guò)可視化分析深入探討了MaskNet模塊的工作原理。他們發(fā)現(xiàn),在訓(xùn)練的早期階段,MaskNet主要影響少數(shù)幾個(gè)類(lèi)別的樣本,隨著訓(xùn)練的進(jìn)行,MaskNet的影響范圍逐漸擴(kuò)大,最終能夠?qū)λ蓄?lèi)別的樣本進(jìn)行精細(xì)的實(shí)例級(jí)重構(gòu)。這種漸進(jìn)式的學(xué)習(xí)過(guò)程確保了系統(tǒng)的穩(wěn)定性和有效性。
通過(guò)Grad-CAM注意力可視化技術(shù),研究團(tuán)隊(duì)還展示了MST-Distill框架如何解決知識(shí)漂移問(wèn)題。在沒(méi)有使用該框架的情況下,老師模型和學(xué)生模型在處理相同輸入時(shí)往往關(guān)注不同的區(qū)域,這種注意力不匹配導(dǎo)致知識(shí)傳遞效果不佳。而使用MST-Distill框架后,專(zhuān)業(yè)化教師能夠提取更多樣化的視覺(jué)線(xiàn)索,幫助學(xué)生模型關(guān)注到更全面的信息。
實(shí)驗(yàn)結(jié)果還顯示,MST-Distill框架在處理不同程度模態(tài)對(duì)齊的數(shù)據(jù)時(shí)都表現(xiàn)出色。對(duì)于那些模態(tài)之間關(guān)聯(lián)性較強(qiáng)的數(shù)據(jù),框架能夠充分利用這種關(guān)聯(lián)性提升學(xué)習(xí)效果;對(duì)于那些模態(tài)之間關(guān)聯(lián)性較弱的數(shù)據(jù),框架也能夠通過(guò)智能的教師選擇策略避免負(fù)面影響。
除了在分類(lèi)任務(wù)上的成功,研究團(tuán)隊(duì)還在語(yǔ)義分割任務(wù)上驗(yàn)證了MST-Distill框架的有效性。他們使用NYU-Depth-V2數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn),這是一個(gè)包含RGB圖像和深度圖像的室內(nèi)場(chǎng)景理解數(shù)據(jù)集。在這個(gè)更加復(fù)雜的密集預(yù)測(cè)任務(wù)中,MST-Distill框架依然取得了優(yōu)異的性能,在多項(xiàng)評(píng)估指標(biāo)上都達(dá)到了最佳結(jié)果。
這項(xiàng)研究的意義遠(yuǎn)不止于技術(shù)上的突破。它為跨模態(tài)人工智能系統(tǒng)的發(fā)展提供了新的思路和方法。在現(xiàn)實(shí)世界中,人類(lèi)的學(xué)習(xí)過(guò)程往往涉及多種感官的協(xié)同作用,我們同時(shí)使用視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)等多種方式來(lái)理解世界。MST-Distill框架的設(shè)計(jì)理念與這種自然的學(xué)習(xí)過(guò)程高度契合,為構(gòu)建更加智能、更加靈活的AI系統(tǒng)提供了重要的理論基礎(chǔ)和實(shí)踐指導(dǎo)。
從應(yīng)用角度來(lái)看,這項(xiàng)技術(shù)有著廣泛的應(yīng)用前景。在自動(dòng)駕駛領(lǐng)域,車(chē)載AI系統(tǒng)需要同時(shí)處理攝像頭、雷達(dá)、激光雷達(dá)等多種傳感器的數(shù)據(jù),MST-Distill框架可以幫助這些系統(tǒng)更好地融合不同類(lèi)型的信息,提高環(huán)境感知的準(zhǔn)確性和可靠性。在醫(yī)療影像分析領(lǐng)域,醫(yī)生往往需要綜合考慮X光片、CT掃描、MRI圖像等多種影像信息,MST-Distill框架可以幫助AI系統(tǒng)更好地整合這些不同模態(tài)的醫(yī)療數(shù)據(jù),提供更準(zhǔn)確的診斷建議。
在人機(jī)交互領(lǐng)域,MST-Distill框架也有著重要的應(yīng)用價(jià)值。現(xiàn)代的智能助手需要同時(shí)理解用戶(hù)的語(yǔ)音指令、面部表情、手勢(shì)動(dòng)作等多種信息,這項(xiàng)技術(shù)可以幫助這些系統(tǒng)更好地理解用戶(hù)的真實(shí)意圖,提供更自然、更智能的交互體驗(yàn)。
研究團(tuán)隊(duì)還分析了MST-Distill框架的計(jì)算復(fù)雜度。雖然該框架在訓(xùn)練階段需要更多的計(jì)算資源,但這種額外的計(jì)算成本是一次性的,而且通過(guò)合理的參數(shù)調(diào)整和架構(gòu)優(yōu)化,可以在保持性能的同時(shí)降低計(jì)算復(fù)雜度。更重要的是,訓(xùn)練完成后的學(xué)生模型在推理階段的計(jì)算復(fù)雜度與傳統(tǒng)方法相當(dāng),這意味著該框架在實(shí)際應(yīng)用中具有良好的可擴(kuò)展性。
這項(xiàng)研究還為知識(shí)蒸餾技術(shù)的發(fā)展提供了新的視角。傳統(tǒng)的知識(shí)蒸餾主要關(guān)注如何從一個(gè)大型模型向一個(gè)小型模型傳遞知識(shí),而MST-Distill框架則拓展了這一概念,提出了多教師、動(dòng)態(tài)選擇的新范式。這種范式不僅適用于跨模態(tài)學(xué)習(xí),也可以推廣到其他類(lèi)型的知識(shí)傳遞任務(wù)中。
研究人員通過(guò)路由概率的動(dòng)態(tài)變化分析,展示了MST-Distill框架的自適應(yīng)能力。在訓(xùn)練過(guò)程中,不同專(zhuān)業(yè)化教師的選擇概率會(huì)根據(jù)學(xué)習(xí)進(jìn)度和數(shù)據(jù)特點(diǎn)動(dòng)態(tài)調(diào)整,這種自適應(yīng)機(jī)制確保了系統(tǒng)能夠始終選擇最優(yōu)的學(xué)習(xí)策略。這種智能的自適應(yīng)能力是該框架相對(duì)于傳統(tǒng)方法的一個(gè)重要優(yōu)勢(shì)。
通過(guò)對(duì)不同Top-K值的敏感性分析,研究團(tuán)隊(duì)發(fā)現(xiàn),適當(dāng)?shù)慕處熯x擇數(shù)量對(duì)系統(tǒng)性能有著重要影響。當(dāng)選擇的教師數(shù)量過(guò)少時(shí),系統(tǒng)無(wú)法充分利用教師團(tuán)隊(duì)的多樣性;當(dāng)選擇的教師數(shù)量過(guò)多時(shí),系統(tǒng)的選擇能力會(huì)退化為簡(jiǎn)單的平均化。這一發(fā)現(xiàn)為實(shí)際應(yīng)用中的參數(shù)設(shè)置提供了重要的指導(dǎo)原則。
研究團(tuán)隊(duì)還對(duì)不同類(lèi)型的教師組合進(jìn)行了深入分析。他們發(fā)現(xiàn),跨模態(tài)教師和多模態(tài)教師的組合能夠產(chǎn)生最好的效果,這種組合既保持了跨模態(tài)學(xué)習(xí)的靈活性,又利用了多模態(tài)學(xué)習(xí)的全面性。這一發(fā)現(xiàn)證實(shí)了MST-Distill框架設(shè)計(jì)理念的正確性。
為了進(jìn)一步驗(yàn)證框架的有效性,研究團(tuán)隊(duì)還進(jìn)行了大量的對(duì)比實(shí)驗(yàn)。他們將MST-Distill框架與多種經(jīng)典的知識(shí)蒸餾方法進(jìn)行了比較,包括基于響應(yīng)的方法、基于特征的方法、基于關(guān)系的方法等。實(shí)驗(yàn)結(jié)果顯示,MST-Distill框架在所有比較方法中都表現(xiàn)最優(yōu),充分證明了其技術(shù)優(yōu)勢(shì)。
這項(xiàng)研究的另一個(gè)重要貢獻(xiàn)是提出了一個(gè)通用的跨模態(tài)知識(shí)蒸餾評(píng)估框架。研究團(tuán)隊(duì)不僅提供了技術(shù)方案,還建立了一套完整的評(píng)估體系,包括數(shù)據(jù)集選擇、評(píng)估指標(biāo)設(shè)計(jì)、實(shí)驗(yàn)協(xié)議制定等多個(gè)方面。這個(gè)評(píng)估框架為該領(lǐng)域的后續(xù)研究提供了重要的參考標(biāo)準(zhǔn)。
說(shuō)到底,這項(xiàng)研究解決的是一個(gè)非常實(shí)際的問(wèn)題:如何讓AI系統(tǒng)更好地學(xué)習(xí)和理解多模態(tài)信息。在我們?nèi)粘I钪?,無(wú)論是看視頻、聽(tīng)音樂(lè)、閱讀文章,還是與他人交流,我們都在不斷地處理和整合來(lái)自不同感官的信息。MST-Distill框架的成功表明,通過(guò)巧妙的設(shè)計(jì)和創(chuàng)新的方法,我們可以讓AI系統(tǒng)具備類(lèi)似的能力,從而構(gòu)建更加智能、更加實(shí)用的人工智能應(yīng)用。
這項(xiàng)技術(shù)的成功不僅體現(xiàn)在技術(shù)指標(biāo)的提升上,更重要的是它為跨模態(tài)人工智能的發(fā)展開(kāi)辟了新的道路。隨著物聯(lián)網(wǎng)、智能家居、自動(dòng)駕駛等應(yīng)用場(chǎng)景的不斷涌現(xiàn),對(duì)多模態(tài)AI系統(tǒng)的需求將會(huì)越來(lái)越大。MST-Distill框架提供的解決方案不僅在當(dāng)前的應(yīng)用中有著重要價(jià)值,更為未來(lái)更加復(fù)雜、更加智能的AI系統(tǒng)奠定了堅(jiān)實(shí)的技術(shù)基礎(chǔ)。
未來(lái),這項(xiàng)技術(shù)還有著進(jìn)一步發(fā)展的空間。研究團(tuán)隊(duì)已經(jīng)開(kāi)始探索將該框架擴(kuò)展到更多模態(tài)的場(chǎng)景中,比如同時(shí)處理視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)、嗅覺(jué)等多種感官信息。他們還在研究如何將知識(shí)解耦和梯度調(diào)制技術(shù)融入到框架中,以進(jìn)一步提升系統(tǒng)的性能和適用性。
對(duì)于普通用戶(hù)來(lái)說(shuō),這項(xiàng)技術(shù)的發(fā)展意味著未來(lái)的AI產(chǎn)品將會(huì)更加智能、更加自然。我們可以期待看到更好的語(yǔ)音助手、更準(zhǔn)確的圖像識(shí)別應(yīng)用、更智能的推薦系統(tǒng)等。這些改進(jìn)最終會(huì)讓AI技術(shù)更好地服務(wù)于人類(lèi)的日常生活,提升我們的生活質(zhì)量和工作效率。
Q&A
Q1:什么是跨模態(tài)知識(shí)蒸餾?它為什么重要? A:跨模態(tài)知識(shí)蒸餾就像讓一個(gè)擅長(zhǎng)繪畫(huà)的老師教一個(gè)學(xué)音樂(lè)的學(xué)生,雖然都是藝術(shù)但信息類(lèi)型不同。它重要是因?yàn)楝F(xiàn)實(shí)中AI需要同時(shí)理解圖像、聲音、文字等多種信息,就像人類(lèi)用多種感官認(rèn)識(shí)世界一樣。這種技術(shù)能讓AI系統(tǒng)更智能地處理復(fù)雜的現(xiàn)實(shí)場(chǎng)景。
Q2:MST-Distill框架解決了什么核心問(wèn)題? A:它主要解決了兩個(gè)問(wèn)題:一是"選擇哪位老師"的困惑,通過(guò)動(dòng)態(tài)選擇最合適的教師組合來(lái)學(xué)習(xí);二是"知識(shí)漂移"問(wèn)題,即不同AI模型關(guān)注重點(diǎn)不同的問(wèn)題,通過(guò)MaskNet模塊來(lái)對(duì)齊注意力焦點(diǎn)。這就像為學(xué)生配備了一個(gè)智能的學(xué)習(xí)顧問(wèn)。
Q3:這項(xiàng)技術(shù)會(huì)對(duì)我們的生活產(chǎn)生什么影響? A:這項(xiàng)技術(shù)會(huì)讓未來(lái)的AI產(chǎn)品更加智能和自然。比如語(yǔ)音助手能更好地理解你的指令和表情,自動(dòng)駕駛汽車(chē)能更準(zhǔn)確地感知環(huán)境,醫(yī)療AI能更好地分析多種醫(yī)學(xué)影像。簡(jiǎn)單來(lái)說(shuō),就是讓AI更像人類(lèi)一樣綜合運(yùn)用多種感官信息來(lái)理解世界。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專(zhuān)家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專(zhuān)家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類(lèi)型問(wèn)題偏愛(ài)不同專(zhuān)家配置,為AI推理優(yōu)化開(kāi)辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話(huà)多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。