這項(xiàng)由香港科技大學(xué)(廣州)、廣東工業(yè)大學(xué)和StepFun AI聯(lián)合開展的研究發(fā)表于2025年8月,論文作者包括謝元、陳天水、葛正和倪亮等研究者。這項(xiàng)開創(chuàng)性研究首次將多輪推理機(jī)制引入長視頻理解領(lǐng)域,提出了Video-MTR框架。有興趣深入了解的讀者可以通過arXiv:2508.20478v1訪問完整論文。
想象你是一名偵探,面對一起復(fù)雜案件時(shí),你不會(huì)只看一眼現(xiàn)場就下結(jié)論,而是會(huì)反復(fù)勘查現(xiàn)場,每次都重點(diǎn)關(guān)注不同的線索,逐步拼湊出完整的真相。這正是研究團(tuán)隊(duì)為人工智能視頻理解系統(tǒng)設(shè)計(jì)的全新工作方式。
傳統(tǒng)的AI視頻分析系統(tǒng)就像一個(gè)匆忙的觀察者,只能粗略地掃視整個(gè)視頻,然后匆忙給出判斷。這種"一次性"的分析方式在處理短視頻時(shí)或許還能應(yīng)付,但面對那些長達(dá)幾十分鐘甚至幾小時(shí)的長視頻時(shí)就顯得力不從心了。關(guān)鍵信息可能被埋沒在大量無關(guān)畫面中,導(dǎo)致AI經(jīng)常給出錯(cuò)誤的理解。
研究團(tuán)隊(duì)意識到,真正的視頻理解應(yīng)該更像人類觀看復(fù)雜內(nèi)容時(shí)的思維過程。當(dāng)我們觀看一部懸疑電影時(shí),會(huì)先大致了解劇情走向,然后在關(guān)鍵情節(jié)處反復(fù)思考,甚至倒回去重新觀看某些片段,直到完全理解故事的來龍去脈。基于這個(gè)洞察,他們開發(fā)了Video-MTR系統(tǒng),讓AI也能進(jìn)行這種"多輪推理"。
一、AI偵探的工作流程:從粗略瀏覽到精確定位
Video-MTR的工作方式確實(shí)很像一位經(jīng)驗(yàn)豐富的偵探破案。當(dāng)系統(tǒng)接到一個(gè)關(guān)于視頻內(nèi)容的問題時(shí),它不會(huì)急著給答案,而是制定一個(gè)系統(tǒng)性的調(diào)查計(jì)劃。
在第一輪調(diào)查中,AI偵探會(huì)對整個(gè)"案發(fā)現(xiàn)場"進(jìn)行初步勘查。它均勻地從整個(gè)視頻中選取16個(gè)關(guān)鍵幀畫面,就像偵探在案發(fā)現(xiàn)場拍攝全景照片一樣,先獲得一個(gè)大致的印象。通過這次初步觀察,系統(tǒng)會(huì)形成一個(gè)初步判斷,但它很清楚這個(gè)判斷可能不夠準(zhǔn)確。
關(guān)鍵的突破發(fā)生在后續(xù)輪次中?;诔醪接^察的結(jié)果,AI偵探會(huì)意識到"我需要更仔細(xì)地查看某個(gè)時(shí)間段的內(nèi)容"。比如,如果問題是關(guān)于兩個(gè)人之間的關(guān)系,而初步觀察顯示他們可能是師生關(guān)系,那么系統(tǒng)會(huì)主動(dòng)選擇觀察他們互動(dòng)最頻繁的時(shí)間段,每次最多再獲取8個(gè)額外的畫面進(jìn)行深入分析。
這種逐步深入的過程可以重復(fù)進(jìn)行,最多進(jìn)行三輪。每一輪都讓AI獲得更精確的信息,就像偵探逐步縮小調(diào)查范圍,最終鎖定關(guān)鍵證據(jù)一樣。系統(tǒng)會(huì)在覺得證據(jù)充分時(shí)主動(dòng)結(jié)束調(diào)查并給出最終結(jié)論。
二、雙層獎(jiǎng)勵(lì)機(jī)制:確保每一步都走在正確道路上
任何學(xué)習(xí)過程都需要反饋機(jī)制來糾正錯(cuò)誤并強(qiáng)化正確行為。對于Video-MTR這樣的復(fù)雜系統(tǒng)來說,設(shè)計(jì)合適的獎(jiǎng)勵(lì)機(jī)制就像為一位新手偵探制定考核標(biāo)準(zhǔn)一樣重要。
傳統(tǒng)的AI訓(xùn)練只會(huì)在最后檢查答案是否正確,這就像只在破案后才評判偵探的表現(xiàn),卻不關(guān)心他在調(diào)查過程中是否走了彎路。這種方式對于多輪推理來說顯然不夠,因?yàn)橄到y(tǒng)可能會(huì)在中間步驟中做出錯(cuò)誤選擇,即使最終僥幸答對了,這種錯(cuò)誤的調(diào)查路徑也不應(yīng)該被鼓勵(lì)。
研究團(tuán)隊(duì)創(chuàng)新性地設(shè)計(jì)了"雙層獎(jiǎng)勵(lì)系統(tǒng)",這就像為偵探設(shè)立了兩套考核標(biāo)準(zhǔn)。第一層是"軌跡級獎(jiǎng)勵(lì)",專門評判最終破案是否成功,答案正確得1分,錯(cuò)誤得0分,這保證了系統(tǒng)始終以解決問題為最終目標(biāo)。
第二層是"回合級獎(jiǎng)勵(lì)",專門評判每一輪調(diào)查是否選擇了正確的方向。具體來說,系統(tǒng)會(huì)檢查AI在每輪中選擇觀察的視頻片段是否真的包含了回答問題所需的關(guān)鍵信息。如果選擇的片段比初始的隨機(jī)片段更相關(guān),系統(tǒng)就會(huì)獲得0.5分的獎(jiǎng)勵(lì)。這種設(shè)計(jì)鼓勵(lì)A(yù)I在每一步都朝著更有希望的方向前進(jìn)。
更巧妙的是,研究團(tuán)隊(duì)還加入了"目標(biāo)導(dǎo)向機(jī)制"。這意味著只有在最終答案正確的前提下,中間步驟的獎(jiǎng)勵(lì)才會(huì)生效。這就像告訴偵探"只有破案成功,你的調(diào)查過程才算有價(jià)值",避免了系統(tǒng)為了獲得中間獎(jiǎng)勵(lì)而偏離主要目標(biāo)的問題。
三、訓(xùn)練數(shù)據(jù)的精心策劃:少而精勝過多而雜
在AI訓(xùn)練領(lǐng)域,很多人認(rèn)為數(shù)據(jù)越多越好,但Video-MTR的研究團(tuán)隊(duì)卻選擇了截然不同的路徑。他們沒有收集數(shù)百萬個(gè)訓(xùn)練樣本,而是精心篩選了僅僅8000個(gè)高質(zhì)量的訓(xùn)練案例。這種做法就像培訓(xùn)一名偵探時(shí),與其讓他處理無數(shù)個(gè)簡單案件,不如讓他深入研究幾個(gè)經(jīng)典的復(fù)雜案例。
這8000個(gè)案例來源于兩個(gè)精心選擇的數(shù)據(jù)集。第一部分來自NExT-GQA數(shù)據(jù)集,這個(gè)數(shù)據(jù)集的特別之處在于它明確標(biāo)注了回答每個(gè)問題需要觀看視頻的哪些具體時(shí)間段。研究團(tuán)隊(duì)從中篩選出了大約5000個(gè)案例,選擇標(biāo)準(zhǔn)是相關(guān)片段不能超過整個(gè)視頻的一半長度,這樣才能真正考驗(yàn)系統(tǒng)的定位能力。
第二部分更有趣。研究團(tuán)隊(duì)利用QVHighlights數(shù)據(jù)集,這個(gè)數(shù)據(jù)集原本只是標(biāo)注了視頻中的"精彩片段",并沒有問答形式的標(biāo)注。為了將其轉(zhuǎn)化為適合訓(xùn)練的格式,研究團(tuán)隊(duì)讓GPT-4o扮演"改編專家"的角色,將每個(gè)關(guān)于精彩片段的描述轉(zhuǎn)換成標(biāo)準(zhǔn)的選擇題格式。經(jīng)過質(zhì)量篩選,最終獲得了約3000個(gè)高質(zhì)量的訓(xùn)練案例。
這種"少而精"的數(shù)據(jù)策略背后有深刻的道理。與其讓系統(tǒng)見識無數(shù)個(gè)簡單重復(fù)的案例,不如讓它深入學(xué)習(xí)每個(gè)復(fù)雜案例中的推理模式。實(shí)驗(yàn)結(jié)果證明,用這種方法訓(xùn)練出的系統(tǒng)在處理復(fù)雜長視頻時(shí)的表現(xiàn),竟然能夠媲美甚至超越那些用數(shù)十倍訓(xùn)練數(shù)據(jù)訓(xùn)練的系統(tǒng)。
四、克服懶惰天性:讓AI主動(dòng)探索的巧妙設(shè)計(jì)
研究團(tuán)隊(duì)在訓(xùn)練過程中發(fā)現(xiàn)了一個(gè)有趣現(xiàn)象:就像很多人天生傾向于選擇最省力的方式一樣,AI系統(tǒng)也表現(xiàn)出了某種"懶惰"傾向。在訓(xùn)練初期,系統(tǒng)更愿意基于第一輪的粗略觀察就匆忙給出答案,而不愿意進(jìn)行費(fèi)時(shí)費(fèi)力的深入調(diào)查。
為了克服這種傾向,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)巧妙的"探索激勵(lì)機(jī)制"。這個(gè)機(jī)制的工作原理就像給一個(gè)不愛運(yùn)動(dòng)的孩子設(shè)立運(yùn)動(dòng)獎(jiǎng)勵(lì)一樣:在訓(xùn)練早期,如果發(fā)現(xiàn)一個(gè)訓(xùn)練批次中主動(dòng)進(jìn)行多輪調(diào)查的比例過低,系統(tǒng)就會(huì)對所有的"調(diào)查行為"給予額外獎(jiǎng)勵(lì),不管這次調(diào)查的質(zhì)量如何。
這種激勵(lì)分為兩個(gè)階段。在"冷啟動(dòng)"階段,如果主動(dòng)調(diào)查的比例低于10%,每次調(diào)查行為都能獲得1.0分的額外獎(jiǎng)勵(lì)。在"自助階段",標(biāo)準(zhǔn)提高到50%,額外獎(jiǎng)勵(lì)降低到0.5分。一旦系統(tǒng)養(yǎng)成了主動(dòng)調(diào)查的習(xí)慣,這種額外獎(jiǎng)勵(lì)就會(huì)自動(dòng)取消,讓系統(tǒng)完全依靠調(diào)查質(zhì)量來獲得獎(jiǎng)勵(lì)。
這種設(shè)計(jì)的效果非常明顯。實(shí)驗(yàn)數(shù)據(jù)顯示,沒有這種激勵(lì)機(jī)制的系統(tǒng)很快就會(huì)固化在單輪推理的模式中,而有了激勵(lì)機(jī)制的系統(tǒng)則能夠穩(wěn)定地保持多輪探索的行為模式,并且隨著訓(xùn)練的進(jìn)行,探索的質(zhì)量也在不斷提高。
五、實(shí)戰(zhàn)表現(xiàn):在三大權(quán)威測試中的卓越成績
為了驗(yàn)證Video-MTR系統(tǒng)的實(shí)際效果,研究團(tuán)隊(duì)在三個(gè)最權(quán)威的長視頻理解測試平臺上進(jìn)行了全面評估,結(jié)果令人驚喜。
在VideoMME測試中,這個(gè)平臺涵蓋了從2分鐘到1小時(shí)不等的各類視頻,總共包含2700個(gè)手工標(biāo)注的問答對。Video-MTR在整體準(zhǔn)確率上達(dá)到了59.0%,在所有開源系統(tǒng)中排名第一。更值得注意的是,系統(tǒng)在處理長視頻(30-60分鐘)時(shí)表現(xiàn)尤為出色,準(zhǔn)確率達(dá)到51.0%,比基礎(chǔ)模型提升了6.3個(gè)百分點(diǎn)。
MLVU測試被公認(rèn)為最具挑戰(zhàn)性的長視頻理解基準(zhǔn),其視頻長度從3分鐘到2小時(shí)不等,平均15分鐘。即使是最先進(jìn)的GPT-4o模型在這個(gè)測試中也只能達(dá)到54.9%的準(zhǔn)確率。Video-MTR雖然只使用了32幀圖像(相比GPT-4o的300多幀),卻取得了48.4%的優(yōu)秀成績,證明了精準(zhǔn)選擇關(guān)鍵信息比簡單增加信息量更為有效。
在EgoSchema測試中,這個(gè)專門測試第一人稱視角視頻理解的平臺上,Video-MTR達(dá)到了62.4%的準(zhǔn)確率,僅次于GPT-4o和Gemini-1.5-Pro等商業(yè)系統(tǒng)。值得強(qiáng)調(diào)的是,這個(gè)優(yōu)異成績是在沒有專門針對第一人稱視頻進(jìn)行訓(xùn)練的情況下取得的,體現(xiàn)了系統(tǒng)出色的通用化能力。
六、深度分析:多輪推理的獨(dú)特優(yōu)勢
為了更好地理解多輪推理機(jī)制的價(jià)值,研究團(tuán)隊(duì)進(jìn)行了詳細(xì)的對比分析。他們發(fā)現(xiàn),多輪推理的優(yōu)勢在不同類型的任務(wù)中表現(xiàn)得截然不同。
對于那些需要整體把握視頻內(nèi)容的"全局理解"任務(wù),比如判斷視頻的總體主題或情感基調(diào),多輪推理的提升相對有限,大約只有3.8%。這是因?yàn)檫@類任務(wù)本身就不需要過于精細(xì)的局部分析。
但是當(dāng)面對需要識別特定細(xì)節(jié)的"單細(xì)節(jié)"任務(wù)時(shí),比如識別視頻中某個(gè)特定物體或動(dòng)作,多輪推理的優(yōu)勢就顯現(xiàn)出來了,準(zhǔn)確率提升了7.5%。而對于最復(fù)雜的"多細(xì)節(jié)"任務(wù),需要同時(shí)關(guān)注視頻中的多個(gè)要素并進(jìn)行綜合分析時(shí),多輪推理的提升更是達(dá)到了8.1%。
視頻長度對多輪推理效果的影響同樣明顯。在短視頻(2分鐘以內(nèi))中,多輪推理帶來4.6%的提升;在中等長度視頻(4-15分鐘)中,提升達(dá)到5.3%;而在長視頻(30-60分鐘)中,提升高達(dá)6.3%。這個(gè)趨勢清楚地表明,視頻越長、任務(wù)越復(fù)雜,多輪推理的價(jià)值就越大。
七、成功案例:AI偵探的精彩推理過程
研究團(tuán)隊(duì)分享了一個(gè)典型的成功案例,生動(dòng)展示了Video-MTR的工作過程。這是一個(gè)關(guān)于54分鐘籃球比賽視頻的問題:視頻中的2v2籃球小游戲遵循什么規(guī)則?
在第一輪觀察中,系統(tǒng)均勻地從整個(gè)54分鐘視頻中抽取了16個(gè)畫面。通過這些畫面,系統(tǒng)意識到需要重點(diǎn)關(guān)注比賽規(guī)則的介紹和執(zhí)行過程。于是它決定深入觀察第29分鐘到第39分鐘這個(gè)時(shí)間段。
在第二輪觀察中,系統(tǒng)獲得了這10分鐘內(nèi)的8個(gè)關(guān)鍵畫面。通過仔細(xì)分析這些畫面中的細(xì)節(jié),系統(tǒng)發(fā)現(xiàn)這個(gè)游戲的規(guī)則是:如果有人投籃失誤,他之前連續(xù)命中的次數(shù)就會(huì)被加到他的得分上,得分達(dá)到7就出局?;谶@個(gè)發(fā)現(xiàn),系統(tǒng)最終選擇了正確答案B:"如果一個(gè)人投籃失誤,他之前連續(xù)命中的次數(shù)會(huì)被加到得分上,得分達(dá)到7就出局。"
這個(gè)案例完美展示了多輪推理的威力:第一輪的粗略觀察讓系統(tǒng)鎖定了關(guān)鍵時(shí)間段,第二輪的精確觀察讓系統(tǒng)捕獲了決定性的細(xì)節(jié)信息。如果只進(jìn)行一輪觀察,系統(tǒng)很可能會(huì)錯(cuò)過這些散布在長視頻中的關(guān)鍵信息。
八、技術(shù)創(chuàng)新的深層意義
Video-MTR系統(tǒng)的成功不僅僅在于它在測試中取得的優(yōu)異成績,更重要的是它代表了AI視頻理解領(lǐng)域的一個(gè)重要轉(zhuǎn)折點(diǎn)。這個(gè)轉(zhuǎn)折可以用"從廣撒網(wǎng)到精準(zhǔn)打擊"來形容。
傳統(tǒng)方法就像用大網(wǎng)捕魚,希望通過處理更多的視頻幀來提高理解準(zhǔn)確性。但這種方法存在兩個(gè)根本問題:一是計(jì)算資源消耗巨大,二是大量無關(guān)信息會(huì)干擾系統(tǒng)的判斷。Video-MTR則采用了"精準(zhǔn)打擊"的策略,通過智能選擇關(guān)鍵信息來提高理解質(zhì)量。
這種創(chuàng)新的意義遠(yuǎn)不止技術(shù)層面。在實(shí)際應(yīng)用中,這意味著同樣的計(jì)算資源可以處理更長的視頻,或者在相同的視頻長度下獲得更準(zhǔn)確的理解結(jié)果。對于安防監(jiān)控、內(nèi)容審核、視頻搜索等實(shí)際應(yīng)用場景來說,這種效率提升具有重要的商業(yè)價(jià)值。
更重要的是,Video-MTR證明了"質(zhì)量勝過數(shù)量"這一原則在AI訓(xùn)練中的有效性。系統(tǒng)僅使用8000個(gè)精心策劃的訓(xùn)練樣本就達(dá)到了其他系統(tǒng)用數(shù)十萬樣本才能達(dá)到的效果水平,這為資源有限的研究團(tuán)隊(duì)和企業(yè)提供了新的發(fā)展路徑。
九、局限性與未來展望
盡管Video-MTR在多個(gè)方面都表現(xiàn)出色,但研究團(tuán)隊(duì)也誠實(shí)地指出了系統(tǒng)目前的局限性。通過分析失敗案例,他們發(fā)現(xiàn)了兩個(gè)主要的不足之處。
第一個(gè)局限是在處理需要多個(gè)分離事件的復(fù)雜推理任務(wù)時(shí),系統(tǒng)有時(shí)會(huì)因?yàn)樽C據(jù)不足就匆忙下結(jié)論。比如在判斷一系列動(dòng)作的先后順序時(shí),如果這些動(dòng)作分散在視頻的不同部分,系統(tǒng)可能無法在有限的推理輪次中收集到所有必要信息。解決這個(gè)問題需要擴(kuò)展系統(tǒng)的推理深度,允許進(jìn)行四到六輪的深度調(diào)查。
第二個(gè)局限是在處理需要精細(xì)觀察的微動(dòng)作識別任務(wù)時(shí),系統(tǒng)的表現(xiàn)不夠理想。這主要是因?yàn)楫?dāng)前的處理流程為了適應(yīng)長視頻而降低了圖像分辨率,導(dǎo)致一些關(guān)鍵的細(xì)微動(dòng)作變得模糊不清。未來的改進(jìn)方向是開發(fā)層次化的視覺處理機(jī)制:先進(jìn)行粗粒度的時(shí)間定位,再在關(guān)鍵區(qū)域進(jìn)行高分辨率的精細(xì)分析。
展望未來,研究團(tuán)隊(duì)認(rèn)為多輪推理框架還有巨大的發(fā)展空間。一個(gè)重要方向是將推理輪次擴(kuò)展到更深層次,支持處理需要多步驟邏輯推理的復(fù)雜任務(wù)。另一個(gè)方向是開發(fā)"時(shí)空層次化"的分析機(jī)制,能夠在時(shí)間維度上精確定位,同時(shí)在空間維度上進(jìn)行局部放大分析。
十、對AI發(fā)展的啟發(fā)
Video-MTR的成功給整個(gè)AI領(lǐng)域帶來了重要啟發(fā)。首先,它證明了"模擬人類認(rèn)知過程"是提升AI系統(tǒng)性能的有效策略。人類在理解復(fù)雜信息時(shí)本能地會(huì)進(jìn)行多輪觀察和思考,將這種認(rèn)知模式引入AI系統(tǒng)設(shè)計(jì)是一個(gè)值得深入探索的方向。
其次,這項(xiàng)研究展示了強(qiáng)化學(xué)習(xí)在復(fù)雜推理任務(wù)中的潛力。通過精心設(shè)計(jì)的獎(jiǎng)勵(lì)機(jī)制,系統(tǒng)能夠自主學(xué)習(xí)如何進(jìn)行有效的信息搜索和推理,而不需要人工預(yù)設(shè)復(fù)雜的規(guī)則。這種自主學(xué)習(xí)能力對于處理現(xiàn)實(shí)世界中的不確定性和復(fù)雜性具有重要價(jià)值。
最后,Video-MTR的成功挑戰(zhàn)了"數(shù)據(jù)越多越好"的傳統(tǒng)觀念。通過重視訓(xùn)練數(shù)據(jù)的質(zhì)量而非數(shù)量,研究團(tuán)隊(duì)用相對少量的高質(zhì)量數(shù)據(jù)取得了卓越成果。這為那些無法獲得海量數(shù)據(jù)的研究者和開發(fā)者提供了新的思路。
說到底,Video-MTR不僅僅是一個(gè)技術(shù)突破,更是AI發(fā)展理念的一次重要更新。它告訴我們,讓AI變得更聰明的關(guān)鍵不在于讓它處理更多信息,而在于教會(huì)它如何像人類一樣進(jìn)行深入思考。當(dāng)我們看電影時(shí)會(huì)在關(guān)鍵情節(jié)處暫停思考,當(dāng)我們閱讀復(fù)雜文章時(shí)會(huì)反復(fù)閱讀重要段落,Video-MTR讓AI也學(xué)會(huì)了這種"深度理解"的能力。
這項(xiàng)研究的成功意味著,未來的AI系統(tǒng)將能夠更好地理解我們生活中產(chǎn)生的海量視頻內(nèi)容,無論是安防監(jiān)控中的異常事件檢測,還是教育視頻中的知識點(diǎn)提取,或是醫(yī)療影像中的病癥識別,都將因?yàn)檫@種"會(huì)思考的AI"而變得更加準(zhǔn)確和可靠。對于普通用戶來說,這意味著視頻搜索將變得更加智能,內(nèi)容推薦將更加精準(zhǔn),而各種基于視頻的智能服務(wù)也將更加貼近我們的實(shí)際需求。
Q&A
Q1:Video-MTR系統(tǒng)是什么?它和傳統(tǒng)視頻AI有什么區(qū)別?
A:Video-MTR是由香港科技大學(xué)團(tuán)隊(duì)開發(fā)的AI視頻理解系統(tǒng),它的最大特色是能進(jìn)行"多輪推理"。傳統(tǒng)視頻AI就像匆忙的觀察者,只能粗略掃視整個(gè)視頻然后給出判斷,而Video-MTR更像經(jīng)驗(yàn)豐富的偵探,會(huì)先大致了解視頻內(nèi)容,然后反復(fù)深入關(guān)鍵片段進(jìn)行分析,最多進(jìn)行三輪調(diào)查才給出最終結(jié)論。
Q2:為什么Video-MTR只用8000個(gè)訓(xùn)練樣本就能超越用幾十萬樣本訓(xùn)練的系統(tǒng)?
A:關(guān)鍵在于"質(zhì)量勝過數(shù)量"的策略。研究團(tuán)隊(duì)沒有收集大量普通樣本,而是精心篩選了8000個(gè)高質(zhì)量案例,每個(gè)案例都明確標(biāo)注了回答問題需要觀看的具體時(shí)間段。這就像培訓(xùn)偵探時(shí),與其讓他處理無數(shù)簡單案件,不如讓他深入研究幾個(gè)經(jīng)典復(fù)雜案例,學(xué)習(xí)效果反而更好。
Q3:Video-MTR在實(shí)際應(yīng)用中表現(xiàn)如何?普通人能用到嗎?
A:在三大權(quán)威測試中,Video-MTR都取得了開源系統(tǒng)中的最佳成績,特別是在處理30-60分鐘長視頻時(shí)準(zhǔn)確率達(dá)到51%,比基礎(chǔ)模型提升了6.3%。目前這還是研究階段的技術(shù),但未來可能應(yīng)用到視頻搜索、內(nèi)容審核、安防監(jiān)控等領(lǐng)域,讓這些服務(wù)變得更準(zhǔn)確智能。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價(jià)值。