這項(xiàng)由馬里蘭大學(xué)巴爾的摩分校的Shubhashis Roy Dipta教授與英特爾實(shí)驗(yàn)室的Tz-Ying Wu、Subarna Tripathi等研究團(tuán)隊(duì)共同完成的研究發(fā)表于2024年9月,論文編號(hào)為arXiv:2509.16538v1。對(duì)于那些想要深入了解技術(shù)細(xì)節(jié)的讀者,可以通過這個(gè)編號(hào)在學(xué)術(shù)數(shù)據(jù)庫中查找完整論文。
當(dāng)我們觀看一段視頻時(shí),如果有人為這個(gè)視頻寫了一段描述文字,你如何判斷這段描述是否準(zhǔn)確呢?這聽起來像是一個(gè)簡(jiǎn)單的問題,但對(duì)計(jì)算機(jī)來說卻是一個(gè)巨大的挑戰(zhàn)。就好比你請(qǐng)朋友幫你描述一幅畫,你需要判斷朋友的描述是否靠譜——但問題是,你手里沒有這幅畫的"標(biāo)準(zhǔn)答案"。
傳統(tǒng)的做法就像考試時(shí)需要標(biāo)準(zhǔn)答案一樣。研究人員會(huì)讓人工寫出視頻的"正確"描述,然后用這些標(biāo)準(zhǔn)答案來評(píng)判其他描述的好壞。但這種方法有個(gè)致命問題:獲得這些標(biāo)準(zhǔn)答案需要花費(fèi)大量人力和金錢,而且當(dāng)我們面對(duì)互聯(lián)網(wǎng)上海量的視頻時(shí),根本不可能為每個(gè)視頻都準(zhǔn)備標(biāo)準(zhǔn)答案。
更糟糕的是,現(xiàn)有的評(píng)估方法就像一個(gè)粗心的老師,經(jīng)常給錯(cuò)誤的答案打高分。研究團(tuán)隊(duì)發(fā)現(xiàn),即使一段描述把視頻中的小提琴說成吉他,把男人說成女人,現(xiàn)有的評(píng)估系統(tǒng)仍然會(huì)給出很高的分?jǐn)?shù)。這就像一個(gè)老師看到學(xué)生把"貓"寫成"狗",卻因?yàn)榫渥咏Y(jié)構(gòu)正確就給滿分一樣荒謬。
正是基于這樣的觀察,研究團(tuán)隊(duì)開發(fā)出了VC-Inspector——一個(gè)不需要標(biāo)準(zhǔn)答案就能準(zhǔn)確評(píng)估視頻描述質(zhì)量的AI系統(tǒng)。這個(gè)系統(tǒng)的核心理念是"事實(shí)核查",就像一個(gè)專業(yè)的事實(shí)核查員,它會(huì)仔細(xì)檢查描述中的每個(gè)細(xì)節(jié)是否與視頻內(nèi)容相符。
一、革命性的免參考評(píng)估思路
要理解這項(xiàng)研究的突破性,我們需要先了解傳統(tǒng)方法的局限性。過去的視頻描述評(píng)估方法可以分為兩大類。
第一類方法完全依賴文字比較,就像兩個(gè)學(xué)生的作文放在一起對(duì)比。系統(tǒng)會(huì)計(jì)算新描述與標(biāo)準(zhǔn)描述之間的相似度,包括用詞重疊、語法結(jié)構(gòu)相似性等等。這種方法的問題顯而易見:語言表達(dá)千變?nèi)f化,同一個(gè)意思可以用完全不同的詞句來表達(dá)。更重要的是,這種方法完全忽略了視頻本身的內(nèi)容。
第二類方法嘗試結(jié)合圖像信息進(jìn)行評(píng)估。這些方法會(huì)從視頻中提取圖像幀,然后計(jì)算圖像內(nèi)容與描述文字之間的匹配度。雖然這種方法考慮了視覺信息,但它們?nèi)匀淮嬖趪?yán)重缺陷。首先,這些方法大多是為靜態(tài)圖像設(shè)計(jì)的,無法很好地處理視頻中的動(dòng)態(tài)信息。其次,現(xiàn)有的文本編碼器通常只能處理較短的文本,對(duì)于較長(zhǎng)的視頻描述就力不從心了。
最關(guān)鍵的是,無論哪種傳統(tǒng)方法,都無法有效識(shí)別描述中的事實(shí)錯(cuò)誤。研究團(tuán)隊(duì)通過大量測(cè)試發(fā)現(xiàn),即使描述中出現(xiàn)了明顯的錯(cuò)誤——比如把視頻中的小提琴說成吉他,把跑步說成睡覺——現(xiàn)有的評(píng)估系統(tǒng)仍然會(huì)給出相對(duì)較高的分?jǐn)?shù),因?yàn)檫@些描述在語法結(jié)構(gòu)上是正確的,而且與標(biāo)準(zhǔn)描述有很多詞匯重疊。
VC-Inspector的設(shè)計(jì)理念完全不同。它不需要標(biāo)準(zhǔn)答案作為參考,而是直接觀看視頻內(nèi)容,然后像一個(gè)專業(yè)的事實(shí)核查員一樣,逐項(xiàng)檢查描述中提到的物體、動(dòng)作、場(chǎng)景是否與視頻實(shí)際內(nèi)容相符。這種方法不僅更加實(shí)用,也更符合人類評(píng)估描述質(zhì)量的直覺思路。
二、巧妙的數(shù)據(jù)生成策略
既然要訓(xùn)練一個(gè)能夠識(shí)別事實(shí)錯(cuò)誤的AI系統(tǒng),研究團(tuán)隊(duì)面臨的第一個(gè)挑戰(zhàn)就是如何獲得足夠多的訓(xùn)練數(shù)據(jù)。理想情況下,他們需要大量包含各種錯(cuò)誤的視頻描述,以及這些描述對(duì)應(yīng)的質(zhì)量評(píng)分。但現(xiàn)實(shí)中,大多數(shù)數(shù)據(jù)集只包含正確的描述,很少有專門標(biāo)注錯(cuò)誤描述的數(shù)據(jù)。
研究團(tuán)隊(duì)的解決方案相當(dāng)巧妙,就像一個(gè)語言魔術(shù)師,他們使用大型語言模型來系統(tǒng)性地"制造"各種類型的錯(cuò)誤描述。這個(gè)過程可以比作一個(gè)精心設(shè)計(jì)的"錯(cuò)誤制造工廠"。
整個(gè)過程的第一步是解構(gòu)。研究團(tuán)隊(duì)讓AI模型分析每個(gè)正確的視頻描述,識(shí)別出其中包含的所有物體和動(dòng)作。比如,對(duì)于描述"一個(gè)男人在客廳的沙發(fā)上喂貓",系統(tǒng)會(huì)提取出物體:男人、客廳、沙發(fā)、貓;動(dòng)作:喂。
第二步是替換。系統(tǒng)會(huì)隨機(jī)選擇一些物體和動(dòng)作進(jìn)行替換,但這種替換不是隨意的。對(duì)于每個(gè)要替換的元素,系統(tǒng)會(huì)尋找同類但含義不同的替代品。比如,"貓"可能被替換成"狗","喂"可能被替換成"抱"。這種替換策略確保了生成的錯(cuò)誤描述仍然語法正確、邏輯合理,但在事實(shí)上是錯(cuò)誤的。
第三步是評(píng)分。研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)簡(jiǎn)單而有效的評(píng)分機(jī)制:根據(jù)錯(cuò)誤元素的數(shù)量來確定描述的質(zhì)量分?jǐn)?shù)。如果一個(gè)描述包含5個(gè)物體和動(dòng)作,其中2個(gè)被錯(cuò)誤替換,那么質(zhì)量分?jǐn)?shù)就是(5-2)/5 = 0.6。然后系統(tǒng)會(huì)將這個(gè)0到1之間的分?jǐn)?shù)轉(zhuǎn)換為1到5的整數(shù)評(píng)分,便于人類理解。
通過這種方法,研究團(tuán)隊(duì)從ActivityNet數(shù)據(jù)集的37,396個(gè)視頻描述出發(fā),生成了大約37萬個(gè)包含不同程度錯(cuò)誤的描述。為了確保訓(xùn)練效果,他們進(jìn)一步篩選出約4.4萬個(gè)質(zhì)量分布均勻的樣本作為最終的訓(xùn)練數(shù)據(jù)集。
這種數(shù)據(jù)生成策略的巧妙之處在于,它不僅產(chǎn)生了大量訓(xùn)練數(shù)據(jù),還確保了錯(cuò)誤類型的多樣性和質(zhì)量評(píng)分的合理性。更重要的是,整個(gè)過程是可重復(fù)和可擴(kuò)展的,研究團(tuán)隊(duì)可以用同樣的方法為其他視頻數(shù)據(jù)集生成訓(xùn)練數(shù)據(jù)。
三、基于事實(shí)檢查的模型訓(xùn)練
有了足夠的訓(xùn)練數(shù)據(jù)后,研究團(tuán)隊(duì)面臨的下一個(gè)挑戰(zhàn)是如何設(shè)計(jì)一個(gè)能夠進(jìn)行事實(shí)核查的AI模型。他們選擇了Qwen2.5-VL作為基礎(chǔ)模型,這是一個(gè)能夠同時(shí)處理視頻和文本的大型多模態(tài)模型。
模型的訓(xùn)練過程可以比作培訓(xùn)一個(gè)專業(yè)的視頻評(píng)論員。在訓(xùn)練過程中,模型會(huì)接收到一個(gè)視頻和一段描述,然后被要求完成兩個(gè)任務(wù):給描述打分(1到5分),并解釋為什么給出這個(gè)分?jǐn)?shù)。
解釋功能的加入是這項(xiàng)研究的一個(gè)重要?jiǎng)?chuàng)新點(diǎn)。大多數(shù)評(píng)估系統(tǒng)只會(huì)給出一個(gè)數(shù)字分?jǐn)?shù),用戶無法了解評(píng)分的依據(jù)。而VC-Inspector不僅會(huì)說"這個(gè)描述得3分",還會(huì)解釋"因?yàn)槊枋鲋械奈矬w(小提琴)是錯(cuò)誤的,視頻中實(shí)際是吉他"。這種解釋不僅增加了系統(tǒng)的可信度,也為進(jìn)一步的研究和應(yīng)用提供了寶貴信息。
訓(xùn)練過程中,研究團(tuán)隊(duì)采用了一些技術(shù)優(yōu)化策略。他們凍結(jié)了視頻編碼器的參數(shù),只訓(xùn)練語言模型部分,這樣既保證了訓(xùn)練效率,又避免了過度擬合。同時(shí),他們使用了低秩適應(yīng)技術(shù)來進(jìn)一步提高訓(xùn)練效率。
模型的輸入格式相對(duì)簡(jiǎn)單:一個(gè)視頻文件和一段候選描述。輸出則包括兩部分:一個(gè)1到5的質(zhì)量評(píng)分和一段解釋文字。在訓(xùn)練過程中,模型學(xué)會(huì)了識(shí)別描述中的物體和動(dòng)作錯(cuò)誤,并將這些錯(cuò)誤與質(zhì)量評(píng)分關(guān)聯(lián)起來。
值得注意的是,研究團(tuán)隊(duì)開發(fā)了兩個(gè)版本的VC-Inspector:3B參數(shù)版本和7B參數(shù)版本。較小的版本適用于計(jì)算資源有限的場(chǎng)景,而較大的版本則能提供更高的準(zhǔn)確性。這種設(shè)計(jì)考慮了不同用戶的實(shí)際需求和技術(shù)條件。
四、全面的實(shí)驗(yàn)驗(yàn)證
為了驗(yàn)證VC-Inspector的有效性,研究團(tuán)隊(duì)設(shè)計(jì)了一系列全面的實(shí)驗(yàn)。這些實(shí)驗(yàn)就像給新發(fā)明的測(cè)量?jī)x器進(jìn)行各種精度測(cè)試,確保它在不同條件下都能正常工作。
首先,他們?cè)诤铣蓴?shù)據(jù)集上測(cè)試了系統(tǒng)的一致性。研究團(tuán)隊(duì)使用同樣的數(shù)據(jù)生成方法創(chuàng)建了兩個(gè)新的測(cè)試集:ActivityNet-FG-Eval和YouCook2-FG-Eval。在這些測(cè)試中,VC-Inspector表現(xiàn)出色,能夠準(zhǔn)確識(shí)別不同程度的事實(shí)錯(cuò)誤,并給出合理的質(zhì)量評(píng)分。
更重要的是,研究團(tuán)隊(duì)在VATEX-Eval這個(gè)包含人工評(píng)分的標(biāo)準(zhǔn)數(shù)據(jù)集上測(cè)試了系統(tǒng)與人類判斷的一致性。VATEX-Eval數(shù)據(jù)集包含2,590個(gè)視頻,每個(gè)視頻配有6個(gè)不同質(zhì)量的描述,所有描述都經(jīng)過三名人工評(píng)估員的評(píng)分。這個(gè)測(cè)試就像讓機(jī)器和人類同時(shí)觀看視頻并評(píng)價(jià)描述質(zhì)量,然后比較雙方的評(píng)分是否一致。
實(shí)驗(yàn)結(jié)果令人印象深刻。在不使用標(biāo)準(zhǔn)答案的情況下,VC-Inspector與人類評(píng)估員的相關(guān)性達(dá)到了42.58%(使用Kendall相關(guān)系數(shù))和45.99%(使用Spearman相關(guān)系數(shù))。這個(gè)數(shù)字不僅超過了所有現(xiàn)有的無參考評(píng)估方法,甚至超越了許多需要標(biāo)準(zhǔn)答案的傳統(tǒng)方法。
為了測(cè)試系統(tǒng)的通用性,研究團(tuán)隊(duì)還將實(shí)驗(yàn)擴(kuò)展到了圖像描述評(píng)估領(lǐng)域。他們將靜態(tài)圖像視為單幀視頻,在Flickr8K-Expert和Flickr8K-CF兩個(gè)圖像描述數(shù)據(jù)集上測(cè)試VC-Inspector。結(jié)果顯示,系統(tǒng)在這些數(shù)據(jù)集上也表現(xiàn)優(yōu)異,證明了其跨域泛化能力。
研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的消融實(shí)驗(yàn),就像拆解一個(gè)復(fù)雜機(jī)器來了解每個(gè)零件的作用。他們分別測(cè)試了只替換物體、只替換動(dòng)作、同時(shí)替換物體和動(dòng)作這三種數(shù)據(jù)生成策略的效果。結(jié)果表明,同時(shí)考慮物體和動(dòng)作錯(cuò)誤的策略效果最好,這證實(shí)了兩種類型的事實(shí)錯(cuò)誤都對(duì)視頻描述質(zhì)量有重要影響。
另一個(gè)重要的消融實(shí)驗(yàn)是關(guān)于解釋功能的作用。研究團(tuán)隊(duì)比較了有解釋和無解釋兩個(gè)版本的模型性能,發(fā)現(xiàn)包含解釋的版本表現(xiàn)明顯更好。這說明解釋不僅提高了系統(tǒng)的可解釋性,還實(shí)際改善了評(píng)估準(zhǔn)確性。
五、現(xiàn)實(shí)應(yīng)用前景與技術(shù)優(yōu)勢(shì)
VC-Inspector的實(shí)際應(yīng)用價(jià)值遠(yuǎn)遠(yuǎn)超出了學(xué)術(shù)研究的范疇。在當(dāng)今這個(gè)視頻內(nèi)容爆炸的時(shí)代,這項(xiàng)技術(shù)可能會(huì)徹底改變我們處理視頻內(nèi)容的方式。
在內(nèi)容創(chuàng)作領(lǐng)域,VC-Inspector可以成為視頻創(chuàng)作者的得力助手。當(dāng)創(chuàng)作者為視頻添加字幕或描述時(shí),系統(tǒng)可以實(shí)時(shí)檢查這些文字是否準(zhǔn)確反映視頻內(nèi)容,就像一個(gè)專業(yè)的編輯在旁邊提醒"這里描述有誤"。這不僅能提高內(nèi)容質(zhì)量,還能大大減少人工校對(duì)的工作量。
在教育技術(shù)領(lǐng)域,這項(xiàng)技術(shù)的應(yīng)用前景同樣廣闊。在線教育平臺(tái)可以使用VC-Inspector來自動(dòng)評(píng)估學(xué)生提交的視頻作業(yè)描述,為教師提供客觀的評(píng)分參考。同時(shí),系統(tǒng)生成的解釋還能幫助學(xué)生了解自己的描述哪里需要改進(jìn)。
對(duì)于視頻搜索和推薦系統(tǒng)而言,VC-Inspector提供了一個(gè)強(qiáng)大的質(zhì)量控制工具。系統(tǒng)可以自動(dòng)篩選出描述質(zhì)量較差的視頻,提高搜索結(jié)果的準(zhǔn)確性。同時(shí),高質(zhì)量的視頻描述也能改善推薦算法的效果,為用戶提供更精準(zhǔn)的內(nèi)容推薦。
在無障礙技術(shù)領(lǐng)域,這項(xiàng)研究也具有重要意義。許多視力障礙用戶依賴視頻描述來理解視頻內(nèi)容。VC-Inspector可以幫助確保這些描述的準(zhǔn)確性,為殘障人士提供更好的數(shù)字內(nèi)容訪問體驗(yàn)。
從技術(shù)角度來看,VC-Inspector具有幾個(gè)顯著優(yōu)勢(shì)。首先是其無需標(biāo)準(zhǔn)答案的特性,這使得系統(tǒng)可以處理任意視頻,不受數(shù)據(jù)集限制。其次是強(qiáng)大的事實(shí)核查能力,能夠識(shí)別傳統(tǒng)方法無法發(fā)現(xiàn)的細(xì)微錯(cuò)誤。再者是出色的可解釋性,用戶不僅知道評(píng)分結(jié)果,還知道評(píng)分原因。
系統(tǒng)的計(jì)算效率也值得稱道。在單個(gè)A100 GPU上,VC-Inspector處理每個(gè)視頻片段只需要0.30秒,這比許多現(xiàn)有方法都要快。這種高效性使得系統(tǒng)在實(shí)際部署時(shí)具有很好的可行性。
更重要的是,研究團(tuán)隊(duì)將VC-Inspector設(shè)計(jì)為開源系統(tǒng),提供3B和7B兩個(gè)版本,用戶可以根據(jù)自己的計(jì)算資源選擇合適的版本。這與一些依賴昂貴閉源模型的競(jìng)爭(zhēng)方案形成了鮮明對(duì)比,大大降低了技術(shù)應(yīng)用的門檻。
六、技術(shù)創(chuàng)新的深層意義
這項(xiàng)研究的意義遠(yuǎn)遠(yuǎn)超出了技術(shù)本身的改進(jìn)。它代表了AI評(píng)估領(lǐng)域的一個(gè)重要轉(zhuǎn)向:從簡(jiǎn)單的文本匹配轉(zhuǎn)向真正的內(nèi)容理解。
傳統(tǒng)的評(píng)估方法本質(zhì)上是在玩"找相同"的游戲——比較兩段文字有多少相似之處。而VC-Inspector則是在進(jìn)行"事實(shí)核查"——驗(yàn)證描述與實(shí)際內(nèi)容是否一致。這種轉(zhuǎn)變反映了AI系統(tǒng)從表面分析走向深層理解的發(fā)展趨勢(shì)。
研究團(tuán)隊(duì)提出的數(shù)據(jù)生成策略也具有重要的方法學(xué)價(jià)值。面對(duì)訓(xùn)練數(shù)據(jù)稀缺的問題,他們沒有選擇收集更多人工標(biāo)注數(shù)據(jù)這條昂貴的道路,而是巧妙地利用AI來生成訓(xùn)練數(shù)據(jù)。這種"以AI訓(xùn)練AI"的思路為解決數(shù)據(jù)稀缺問題提供了新的啟發(fā)。
系統(tǒng)的可解釋性設(shè)計(jì)也體現(xiàn)了負(fù)責(zé)任AI的理念。在AI系統(tǒng)越來越多地參與重要決策的今天,用戶有權(quán)知道系統(tǒng)為什么做出某個(gè)判斷。VC-Inspector的解釋功能不僅滿足了這種需求,還能幫助用戶建立對(duì)系統(tǒng)的信任。
從更宏觀的角度來看,這項(xiàng)研究推進(jìn)了多模態(tài)AI的發(fā)展。視頻理解需要同時(shí)處理視覺和語言信息,這對(duì)AI系統(tǒng)的綜合能力提出了很高要求。VC-Inspector的成功展示了當(dāng)前AI技術(shù)在多模態(tài)理解方面已經(jīng)達(dá)到的水平。
這項(xiàng)研究也為未來的相關(guān)工作指明了方向。研究團(tuán)隊(duì)在論文中提到,當(dāng)前的方法主要關(guān)注物體和動(dòng)作錯(cuò)誤,未來可以擴(kuò)展到其他類型的錯(cuò)誤,比如屬性描述錯(cuò)誤、時(shí)間順序錯(cuò)誤等。同時(shí),如何評(píng)估視頻描述的時(shí)間連貫性和敘事結(jié)構(gòu)也是一個(gè)有待探索的方向。
說到底,VC-Inspector的出現(xiàn)標(biāo)志著視頻內(nèi)容理解領(lǐng)域的一個(gè)重要里程碑。它不僅解決了一個(gè)具體的技術(shù)問題,更重要的是展示了AI系統(tǒng)如何能夠更好地理解和評(píng)估人類創(chuàng)造的內(nèi)容。在這個(gè)視頻內(nèi)容日益豐富的時(shí)代,這樣的技術(shù)創(chuàng)新無疑具有重要的現(xiàn)實(shí)意義。
歸根結(jié)底,這項(xiàng)由馬里蘭大學(xué)和英特爾實(shí)驗(yàn)室聯(lián)合完成的研究,為我們展示了AI技術(shù)如何能夠更好地服務(wù)于內(nèi)容創(chuàng)作和理解。隨著技術(shù)的不斷完善和應(yīng)用的不斷擴(kuò)展,我們有理由相信,類似VC-Inspector這樣的智能評(píng)估工具將在未來發(fā)揮越來越重要的作用,讓數(shù)字世界中的內(nèi)容質(zhì)量變得更高,讓用戶體驗(yàn)變得更好。對(duì)于那些希望深入了解技術(shù)細(xì)節(jié)的讀者,建議查閱原論文arXiv:2509.16538v1獲取更多信息。
Q&A
Q1:VC-Inspector是什么?它能做什么?
A:VC-Inspector是由馬里蘭大學(xué)和英特爾實(shí)驗(yàn)室開發(fā)的AI視頻描述評(píng)估系統(tǒng)。它的核心能力是不需要標(biāo)準(zhǔn)答案就能評(píng)判視頻描述的質(zhì)量好壞,就像一個(gè)專業(yè)的事實(shí)核查員,會(huì)檢查描述中的物體和動(dòng)作是否與視頻實(shí)際內(nèi)容相符,并給出1-5分的評(píng)分和詳細(xì)解釋。
Q2:VC-Inspector與傳統(tǒng)視頻描述評(píng)估方法有什么不同?
A:傳統(tǒng)方法需要標(biāo)準(zhǔn)答案作為參考,就像考試需要標(biāo)準(zhǔn)答案一樣,而且經(jīng)常無法發(fā)現(xiàn)明顯的事實(shí)錯(cuò)誤。VC-Inspector直接觀看視頻內(nèi)容進(jìn)行評(píng)估,不需要標(biāo)準(zhǔn)答案,能準(zhǔn)確識(shí)別描述中的錯(cuò)誤信息,比如把小提琴說成吉他這種錯(cuò)誤,傳統(tǒng)方法可能給高分,但VC-Inspector會(huì)準(zhǔn)確識(shí)別并扣分。
Q3:VC-Inspector的應(yīng)用前景如何?普通人能用到嗎?
A:應(yīng)用前景非常廣闊,包括內(nèi)容創(chuàng)作、在線教育、視頻搜索推薦、無障礙技術(shù)等領(lǐng)域。由于研究團(tuán)隊(duì)將其設(shè)計(jì)為開源系統(tǒng),提供3B和7B兩個(gè)版本,計(jì)算效率很高,普通用戶和小型企業(yè)都有機(jī)會(huì)使用。目前主要還在研究階段,但隨著技術(shù)成熟,很可能會(huì)集成到各種視頻平臺(tái)和應(yīng)用中。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。