北卡羅來納大學(xué)教堂山分校的研究團(tuán)隊(duì)——Daeun Lee、Jaehong Yoon、Jaemin Cho和Mohit Bansal于2025年6月在arXiv上發(fā)表了一篇名為《VIDEO-SKILL-COT: Skill-based Chain-of-Thoughts for Domain-Adaptive Video Reasoning》的研究論文。這項(xiàng)研究提出了一種名為VIDEO-SKILL-COT(簡(jiǎn)稱VIDEO-SKOT)的全新視頻理解框架,有興趣的讀者可以通過研究團(tuán)隊(duì)的官方網(wǎng)站(https://video-skill-cot.github.io/)了解更多詳情。
想象一下,如果你讓一個(gè)人工智能系統(tǒng)觀看一段電影片段,然后問它:"電影中的情緒基調(diào)是如何變化的?"或者看一段廚房視頻后問:"冰箱離爐子最近嗎?"——這些看似簡(jiǎn)單的問題,對(duì)AI系統(tǒng)來說卻是巨大的挑戰(zhàn)。雖然最近的AI模型在"思維鏈"(Chain-of-Thought,簡(jiǎn)稱CoT)推理方面取得了不少進(jìn)展,但它們往往在面對(duì)不同類型的視頻內(nèi)容時(shí)表現(xiàn)不一。
為什么會(huì)這樣呢?研究人員發(fā)現(xiàn),處理電影片段需要的推理技能(比如理解情節(jié)發(fā)展和角色情緒)與分析廚房視頻需要的技能(如空間關(guān)系判斷)完全不同?,F(xiàn)有的模型通常使用通用的推理方法,無法針對(duì)特定領(lǐng)域的內(nèi)容進(jìn)行靈活調(diào)整。這就像讓一個(gè)只懂足球規(guī)則的裁判去執(zhí)法籃球比賽——規(guī)則完全不同,自然會(huì)手足無措。
北卡羅來納大學(xué)教堂山分校的研究團(tuán)隊(duì)正是看到了這一問題,提出了VIDEO-SKILL-COT解決方案。這個(gè)框架就像是為AI配備了一套"百寶箱",里面裝著各種專門的推理技能,讓AI可以根據(jù)不同的視頻內(nèi)容和問題類型,靈活地調(diào)用最合適的技能進(jìn)行推理。
一、技能化思維鏈標(biāo)注:自動(dòng)構(gòu)建技能驅(qū)動(dòng)的推理過程
VIDEO-SKILL-COT的第一個(gè)關(guān)鍵創(chuàng)新在于它如何構(gòu)建技能化的思維鏈標(biāo)注。傳統(tǒng)方法通常使用固定的、通用的推理路徑,就像給所有菜肴使用同一套烹飪步驟一樣,無法適應(yīng)不同菜系的特點(diǎn)。而VIDEO-SKILL-COT則為每個(gè)問題定制了專屬的推理"食譜"。
這個(gè)過程可以分為兩個(gè)主要步驟。首先,研究團(tuán)隊(duì)提取領(lǐng)域相關(guān)的推理技能。想象你在觀看一部電影時(shí),你可能會(huì)用到"從面部表情和肢體語(yǔ)言推斷情緒狀態(tài)"的技能;而在查看室內(nèi)場(chǎng)景時(shí),你可能需要"確定物體相對(duì)于人物的位置關(guān)系"的技能。研究團(tuán)隊(duì)使用大型語(yǔ)言模型從訓(xùn)練問題中提取出這些特定的技能描述,然后將它們聚類成一個(gè)共享的技能分類法。
舉個(gè)例子,當(dāng)系統(tǒng)面對(duì)"哪個(gè)物體離電腦主機(jī)最近?"這樣的問題時(shí),它首先識(shí)別出需要用到的技能可能包括"定位特定物體的位置"、"評(píng)估物體之間的空間接近度"和"使用視覺線索估計(jì)兩個(gè)物體之間的距離"。
第二步是基于這些技能生成詳細(xì)的多步驟思維鏈。系統(tǒng)會(huì)為每個(gè)視頻-問題對(duì)生成一個(gè)條件化的推理過程,明確地反映所需的推理技能。比如,系統(tǒng)可能會(huì)先提出一個(gè)子問題:"洗碗機(jī)、洗衣機(jī)和冰箱在廚房中的位置在哪里?",回答:"爐子位于同一面墻上,在冰箱和洗衣機(jī)之間。"然后進(jìn)一步提問:"哪個(gè)物體離爐子最近?"最終得出結(jié)論:"洗衣機(jī)離爐子最近。"
這種方法的優(yōu)勢(shì)在于它能生成多樣化且領(lǐng)域相關(guān)的推理路徑,而無需人工標(biāo)注。就像一位經(jīng)驗(yàn)豐富的導(dǎo)游,會(huì)根據(jù)游客的興趣和目的地的特點(diǎn),定制最合適的參觀路線,而不是對(duì)所有游客使用同一套固定的行程。
二、技能專家學(xué)習(xí):培養(yǎng)專業(yè)化的推理能力
有了技能化的思維鏈標(biāo)注后,研究團(tuán)隊(duì)還需要一種方法來有效地訓(xùn)練模型掌握這些技能。這就是VIDEO-SKILL-COT的第二個(gè)創(chuàng)新——技能專家學(xué)習(xí)框架。
想象一個(gè)學(xué)校里有不同學(xué)科的專家教師,每位教師專注于自己擅長(zhǎng)的領(lǐng)域。同樣,VIDEO-SKILL-COT框架中,每個(gè)專家模塊都專注于一套特定的推理技能,使用輕量級(jí)的適配器(LoRA)通過收集的思維鏈監(jiān)督進(jìn)行訓(xùn)練。
具體來說,系統(tǒng)首先將訓(xùn)練集中的所有問題投影到文本嵌入空間,并進(jìn)行k-means聚類(設(shè)置k=5)。這些聚類中心代表問題組,而不是技能描述組。每個(gè)訓(xùn)練樣本都被分配到最接近的問題組,然后系統(tǒng)使用相應(yīng)的專家LoRA模塊進(jìn)行參數(shù)高效的訓(xùn)練,確保任務(wù)特定的適應(yīng),同時(shí)最小化技能之間的干擾。
在測(cè)試時(shí),系統(tǒng)會(huì)為每個(gè)測(cè)試問題找到最接近的問題組,通過找到最接近的問題嵌入中心點(diǎn)來分配合適的專家。這就像學(xué)校的輔導(dǎo)系統(tǒng),根據(jù)學(xué)生的問題類型,將他們分配給最合適的專業(yè)教師進(jìn)行指導(dǎo)。
訓(xùn)練目標(biāo)方面,系統(tǒng)同時(shí)最小化答案預(yù)測(cè)(Lanswer)和思維鏈生成(LCoT)的交叉熵?fù)p失,權(quán)重比例為1:0.5。這種平衡確保模型既能給出正確的答案,又能提供合理的推理過程。
三、實(shí)驗(yàn)驗(yàn)證:在多種視頻理解任務(wù)中的出色表現(xiàn)
研究團(tuán)隊(duì)在三個(gè)具有不同領(lǐng)域的視頻問答基準(zhǔn)測(cè)試上評(píng)估了VIDEO-SKILL-COT的性能:E.T.-Bench(時(shí)間理解)、VSI-Bench(空間理解)和CinePile(電影敘事理解)。這些基準(zhǔn)測(cè)試涵蓋了各種視頻理解任務(wù),從判斷物體之間的空間關(guān)系,到理解電影中的情感變化,再到識(shí)別視頻中的時(shí)間事件順序。
實(shí)驗(yàn)結(jié)果令人振奮。VIDEO-SKILL-COT在所有三個(gè)基準(zhǔn)測(cè)試上都一致地優(yōu)于強(qiáng)大的基線模型,包括mPLUG-Owl、Video-ChatGPT、Video-LLaMA2、LLaVA-OneVision和LLaVA-Video。具體來說,與經(jīng)過微調(diào)的LLaVA-Video相比,VIDEO-SKILL-COT在E.T.-Bench上提高了4.10個(gè)百分點(diǎn),在VSI-Bench上提高了5.70個(gè)百分點(diǎn),在CinePile上提高了1.59個(gè)百分點(diǎn)。
這些結(jié)果突顯了該框架在不同視頻領(lǐng)域的適應(yīng)能力。就像一個(gè)多才多藝的學(xué)習(xí)者,能夠根據(jù)不同的學(xué)科調(diào)整自己的學(xué)習(xí)策略,VIDEO-SKILL-COT能夠根據(jù)不同的視頻內(nèi)容和問題類型,靈活地調(diào)用最合適的推理技能。
四、深入分析:技能化思維鏈的優(yōu)勢(shì)
為了更好地理解VIDEO-SKILL-COT的優(yōu)勢(shì),研究團(tuán)隊(duì)進(jìn)行了詳細(xì)的消融研究,比較了該框架的關(guān)鍵組件:技能化思維鏈和技能專家模塊。結(jié)果表明,完整的模型(同時(shí)包含這兩個(gè)組件)實(shí)現(xiàn)了最高的性能。移除任一組件——技能專家模塊或技能化思維鏈——都會(huì)導(dǎo)致性能下降,突顯它們的互補(bǔ)作用:技能化思維鏈啟用結(jié)構(gòu)化推理,而專家模塊帶來模塊化的專業(yè)化。
研究團(tuán)隊(duì)還比較了常規(guī)思維鏈和技能化思維鏈的質(zhì)量。以一個(gè)關(guān)于"哪個(gè)物體離爐子最近"的問題為例,常規(guī)思維鏈提供了一個(gè)線性的、基于場(chǎng)景的敘述,缺乏結(jié)構(gòu)并包含不相關(guān)的細(xì)節(jié)("相機(jī)首先聚焦在...然后向右平移..."),這使得提取關(guān)鍵空間信息變得更加困難。相比之下,技能化思維鏈?zhǔn)紫却_定相關(guān)技能(如空間接近度),然后將任務(wù)分解為重點(diǎn)子問題,如比較洗衣機(jī)和冰箱哪個(gè)更接近爐子。
這種方法的優(yōu)勢(shì)在于它能夠產(chǎn)生更有結(jié)構(gòu)、更有針對(duì)性的推理過程,就像一個(gè)經(jīng)驗(yàn)豐富的導(dǎo)游,不僅知道景點(diǎn)的位置,還能根據(jù)游客的興趣和時(shí)間,規(guī)劃最合適的參觀路線,提供最相關(guān)的解說。
在推理過程的可視化中,研究人員還發(fā)現(xiàn),使用技能化思維鏈訓(xùn)練的模型能夠生成時(shí)間上更加精確的推理,有效支持準(zhǔn)確的答案生成。這就像一個(gè)好的偵探,不僅能夠找到正確的嫌疑人,還能提供清晰、合理的證據(jù)鏈條,解釋為什么這個(gè)人是犯罪嫌疑人。
五、對(duì)比與創(chuàng)新:為什么VIDEO-SKILL-COT更勝一籌
與現(xiàn)有的視頻理解方法相比,VIDEO-SKILL-COT在幾個(gè)關(guān)鍵方面展現(xiàn)出了顯著的創(chuàng)新。首先,雖然有許多研究利用CoT推理提高了復(fù)雜視頻理解能力,但它們往往依賴固定的、通用的推理模板,無法適應(yīng)不同領(lǐng)域的特定技能需求。就像用同一把鑰匙開不同的鎖一樣,效果自然有限。
另一方面,專家和模塊化架構(gòu)雖然在多任務(wù)和多領(lǐng)域設(shè)置中被廣泛探索,但現(xiàn)有方法通常依賴預(yù)定義的專家角色、特定的架構(gòu)和手動(dòng)策劃的角色特定注釋。這些方法缺乏靈活性,無法自動(dòng)發(fā)現(xiàn)和利用相關(guān)的推理技能。
相比之下,VIDEO-SKILL-COT提供了一個(gè)更加靈活、自適應(yīng)的框架,能夠自動(dòng)發(fā)現(xiàn)和利用與任何視頻理解數(shù)據(jù)集相關(guān)的推理技能。這就像一個(gè)能夠自學(xué)各種技能的學(xué)習(xí)者,不需要事先告訴他需要學(xué)習(xí)什么,他能夠自己識(shí)別出需要的技能并有針對(duì)性地進(jìn)行學(xué)習(xí)。
六、未來方向與潛在應(yīng)用
盡管VIDEO-SKILL-COT展示了強(qiáng)大的視頻推理能力,生成基于所需技能的細(xì)粒度、領(lǐng)域自適應(yīng)的推理過程,但它仍有一些局限性。它可能偶爾會(huì)在文本輸出中產(chǎn)生不準(zhǔn)確或幻覺(即生成實(shí)際視頻中不存在的內(nèi)容)。此外,整體性能受到底層預(yù)訓(xùn)練模型的影響,包括使用的大型語(yǔ)言模型(LLM)和多模態(tài)大型語(yǔ)言模型(MLLM)。
未來的研究可以從幾個(gè)方向進(jìn)一步改進(jìn)VIDEO-SKILL-COT。首先,可以探索更多種類的視頻內(nèi)容和問題類型,測(cè)試該框架的泛化能力。其次,可以研究如何減少模型在推理過程中的幻覺,提高推理的可靠性。最后,隨著更強(qiáng)大的LLM和MLLM的出現(xiàn),VIDEO-SKILL-COT也可以從這些進(jìn)步中受益,進(jìn)一步提高其性能。
在實(shí)際應(yīng)用方面,VIDEO-SKILL-COT有著廣闊的前景。它可以用于增強(qiáng)視頻搜索系統(tǒng),使用戶能夠詢問更復(fù)雜、更具體的問題;也可以應(yīng)用于視頻監(jiān)控分析,自動(dòng)識(shí)別特定的事件或行為;還可以用于輔助視障人士理解視頻內(nèi)容,通過詳細(xì)的口頭描述幫助他們"看到"視頻中發(fā)生的事情。
總的來說,VIDEO-SKILL-COT代表了視頻理解領(lǐng)域的一個(gè)重要進(jìn)步,為構(gòu)建更智能、更適應(yīng)性強(qiáng)的視頻理解系統(tǒng)鋪平了道路。通過自動(dòng)構(gòu)建和利用技能感知的思維鏈監(jiān)督,它實(shí)現(xiàn)了領(lǐng)域自適應(yīng)的視頻推理,展示了在多種視頻理解任務(wù)上的卓越性能。隨著技術(shù)的不斷發(fā)展,我們可以期待看到更多基于這一框架的創(chuàng)新應(yīng)用,使人工智能系統(tǒng)更好地理解和解釋各種類型的視頻內(nèi)容。
好文章,需要你的鼓勵(lì)
這項(xiàng)研究提出了"高效探測(cè)"方法,解決了掩碼圖像建模AI難以有效評(píng)估的問題。通過創(chuàng)新的多查詢交叉注意力機(jī)制,該方法在減少90%參數(shù)的同時(shí)實(shí)現(xiàn)10倍速度提升,在七個(gè)基準(zhǔn)測(cè)試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強(qiáng)相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊(duì)承諾開源全部代碼,推動(dòng)技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊(duì)開發(fā)了CLAIMSPECT系統(tǒng),通過層次化分解復(fù)雜爭(zhēng)議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點(diǎn)的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動(dòng)構(gòu)建爭(zhēng)議話題的分析框架,識(shí)別不同觀點(diǎn)及其支撐證據(jù),為科學(xué)和政治爭(zhēng)議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國(guó)際關(guān)系領(lǐng)域驗(yàn)證有效性。
清華大學(xué)研究團(tuán)隊(duì)首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類一樣理解和表達(dá)情感。該系統(tǒng)通過多層次情感處理架構(gòu),在情感識(shí)別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實(shí)現(xiàn)了跨模態(tài)情感融合、動(dòng)態(tài)情感追蹤和個(gè)性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊(duì)通過創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會(huì)復(fù)雜推理。研究發(fā)現(xiàn)AI通過游戲競(jìng)爭(zhēng)能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項(xiàng)突破性成果為未來AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過模擬人類學(xué)習(xí)過程培養(yǎng)真正智能AI的新路徑。