av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 羅切斯特理工學(xué)院團(tuán)隊(duì)突破性成果:讓機(jī)器能夠"看懂"并"解釋"為什么選擇這個(gè)視頻

羅切斯特理工學(xué)院團(tuán)隊(duì)突破性成果:讓機(jī)器能夠"看懂"并"解釋"為什么選擇這個(gè)視頻

2025-10-20 13:27
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-10-20 13:27 ? 科技行者

這項(xiàng)由羅切斯特理工學(xué)院的Prasanna Reddy Pulakurthi、Jiamian Wang、Majid Rabbani、Sohail Dianat以及美國陸軍研究實(shí)驗(yàn)室的Raghuveer Rao和羅切斯特理工學(xué)院的Zhiqiang Tao共同完成的突破性研究,發(fā)表于2025年9月的計(jì)算機(jī)視覺頂級(jí)會(huì)議arXiv,編號(hào)為2509.21559v1。對(duì)于那些希望深入了解技術(shù)細(xì)節(jié)的讀者,可以通過論文編號(hào)arXiv:2509.21559v1查找完整的學(xué)術(shù)論文。

當(dāng)你在視頻網(wǎng)站搜索"如何制作比薩"時(shí),系統(tǒng)會(huì)從數(shù)百萬個(gè)視頻中挑選出最符合你需求的幾個(gè)。但你有沒有想過,這些推薦系統(tǒng)是如何做出選擇的?為什么它認(rèn)為這個(gè)視頻比那個(gè)視頻更適合你?傳統(tǒng)的視頻推薦系統(tǒng)就像一個(gè)沉默的圖書管理員,它會(huì)找到你要的書,但永遠(yuǎn)不會(huì)告訴你為什么選擇了這本而不是那本。

這種"黑箱"式的推薦方式在現(xiàn)實(shí)中會(huì)帶來很多問題。比如,當(dāng)系統(tǒng)推薦了一個(gè)質(zhì)量不佳的視頻時(shí),我們無法知道是系統(tǒng)本身有問題,還是原始數(shù)據(jù)有缺陷。更重要的是,在醫(yī)療診斷、法律援助或教育等關(guān)鍵領(lǐng)域,我們需要知道AI為什么做出某個(gè)決定,這關(guān)系到信任和責(zé)任的問題。

傳統(tǒng)的視頻檢索系統(tǒng)就像一臺(tái)精密但不會(huì)說話的計(jì)算器。它接收文字描述和視頻內(nèi)容,將它們轉(zhuǎn)換成復(fù)雜的數(shù)學(xué)表示,然后計(jì)算相似度分?jǐn)?shù)來排序。這個(gè)過程雖然高效,但存在兩個(gè)關(guān)鍵問題。首先,系統(tǒng)容易被低質(zhì)量的數(shù)據(jù)"誤導(dǎo)"——如果訓(xùn)練數(shù)據(jù)中包含模糊的視頻或錯(cuò)誤的描述,系統(tǒng)就會(huì)學(xué)會(huì)錯(cuò)誤的匹配模式,但我們很難發(fā)現(xiàn)這些問題。其次,相似度分?jǐn)?shù)只能告訴我們"這個(gè)視頻得了85分,那個(gè)得了78分",卻無法解釋為什么一個(gè)比另一個(gè)更好。

研究團(tuán)隊(duì)提出了一個(gè)名為X-CoT的革命性解決方案,它的全稱是"基于大語言模型鏈?zhǔn)剿季S推理的可解釋文本到視頻檢索"。如果把傳統(tǒng)系統(tǒng)比作一個(gè)只會(huì)計(jì)算的機(jī)器,那么X-CoT就像一個(gè)既會(huì)分析又會(huì)表達(dá)的智能助手。它不僅能找到最相關(guān)的視頻,還能詳細(xì)解釋每一個(gè)選擇的理由,就像一個(gè)經(jīng)驗(yàn)豐富的老師不僅會(huì)給出答案,還會(huì)耐心解釋解題過程。

這個(gè)系統(tǒng)的核心創(chuàng)新在于用大語言模型的推理能力替代了傳統(tǒng)的數(shù)學(xué)計(jì)算方法。當(dāng)你搜索"一個(gè)人在巴西抗議活動(dòng)中接受采訪"時(shí),X-CoT不會(huì)簡(jiǎn)單地計(jì)算相似度分?jǐn)?shù),而是會(huì)像人類專家一樣進(jìn)行逐步分析:它會(huì)比較候選視頻,思考哪個(gè)視頻更準(zhǔn)確地展現(xiàn)了"抗議"、"巴西"、"采訪"這些關(guān)鍵要素,然后用自然語言解釋為什么選擇了某個(gè)特定的視頻。

為了讓這個(gè)系統(tǒng)工作得更好,研究團(tuán)隊(duì)還解決了一個(gè)基礎(chǔ)性問題:如何為視頻提供更豐富、更準(zhǔn)確的描述信息。他們開發(fā)了一套智能的視頻注釋收集系統(tǒng),就像給每個(gè)視頻配備了一個(gè)細(xì)心的解說員。這個(gè)系統(tǒng)會(huì)仔細(xì)觀察視頻的每一幀,識(shí)別其中的物體、動(dòng)作和場(chǎng)景,然后生成包含物體列表、動(dòng)作描述、場(chǎng)景特征和整體摘要的結(jié)構(gòu)化注釋。

這種結(jié)構(gòu)化注釋的價(jià)值可以用一個(gè)簡(jiǎn)單的例子來說明。傳統(tǒng)系統(tǒng)可能只有一個(gè)簡(jiǎn)單的標(biāo)題"人們?cè)诤┥铣?,但新的注釋系統(tǒng)會(huì)提供更詳細(xì)的信息:物體包括"海灘、人群、文字",動(dòng)作包括"展示、領(lǐng)導(dǎo)、享受、圍繞、跳舞、拍攝、奔跑、舉起、玩耍",場(chǎng)景特征包括"群體、樂趣、活潑、領(lǐng)導(dǎo)、慶祝、頑皮、派對(duì)、襯衫、年輕、充滿活力、黃色、快樂",摘要是"一群人在沙灘上跳舞并享受樂趣"。這種詳細(xì)信息讓AI能夠進(jìn)行更準(zhǔn)確和細(xì)致的推理。

X-CoT的工作流程就像一個(gè)經(jīng)驗(yàn)豐富的評(píng)委在進(jìn)行比賽評(píng)選。首先,傳統(tǒng)的檢索系統(tǒng)會(huì)從海量視頻中篩選出一個(gè)候選清單,通常包含20個(gè)最有希望的視頻。然后,X-CoT接管這個(gè)過程,開始進(jìn)行更精細(xì)的分析。它不會(huì)一次性對(duì)所有視頻進(jìn)行排序,而是采用兩兩比較的方式,就像體育比賽中的淘汰賽制度。

在每次兩兩比較中,系統(tǒng)會(huì)仔細(xì)分析兩個(gè)視頻候選者,考慮它們與搜索查詢的匹配程度。比如,當(dāng)比較兩個(gè)關(guān)于制作比薩的視頻時(shí),系統(tǒng)可能會(huì)分析:"視頻A展示了完整的制作過程,包括揉面、添加配料和烘烤,而視頻B只展示了最后的烘烤步驟?;诓樵?如何制作比薩'需要完整流程的要求,視頻A更符合用戶需求。"每次比較后,系統(tǒng)不僅會(huì)給出選擇結(jié)果,還會(huì)詳細(xì)記錄選擇的理由。

為了確保最終排序的準(zhǔn)確性,研究團(tuán)隊(duì)還引入了一個(gè)名為Bradley-Terry模型的數(shù)學(xué)工具來處理所有的兩兩比較結(jié)果。這就像體育比賽中,即使個(gè)別比賽結(jié)果可能有爭(zhēng)議,但通過統(tǒng)計(jì)所有比賽數(shù)據(jù),我們?nèi)匀豢梢缘贸鱿鄬?duì)公平的最終排名。這種方法能夠糾正可能存在的噪音或不一致的判斷,確保最終結(jié)果的可靠性。

研究團(tuán)隊(duì)在四個(gè)重要的視頻檢索數(shù)據(jù)集上測(cè)試了X-CoT的性能,這些數(shù)據(jù)集包括MSR-VTT、MSVD、LSMDC和DiDeMo,就像在不同類型的考試中測(cè)試學(xué)生的能力。結(jié)果表明,X-CoT在幾乎所有評(píng)估指標(biāo)上都顯著優(yōu)于傳統(tǒng)方法。以MSVD數(shù)據(jù)集為例,當(dāng)使用CLIP作為基礎(chǔ)模型時(shí),X-CoT將最重要的R@1指標(biāo)(即第一個(gè)推薦結(jié)果的準(zhǔn)確率)從36.5%提升到42.1%,這相當(dāng)于提升了5.6個(gè)百分點(diǎn)。

更令人印象深刻的是,這種改進(jìn)在不同類型的基礎(chǔ)模型上都得到了驗(yàn)證。無論是使用零樣本模型CLIP和VLM2Vec,還是經(jīng)過專門訓(xùn)練的X-Pool模型,X-CoT都能帶來一致的性能提升。這說明這種方法具有很好的通用性,不依賴于特定的底層技術(shù)。

為了驗(yàn)證系統(tǒng)各個(gè)組件的重要性,研究團(tuán)隊(duì)進(jìn)行了詳細(xì)的消融實(shí)驗(yàn),就像汽車工程師逐個(gè)測(cè)試每個(gè)零件的作用。他們發(fā)現(xiàn),如果去掉鏈?zhǔn)剿季S推理過程,直接讓大語言模型對(duì)候選視頻進(jìn)行排序,性能會(huì)顯著下降。這證明了逐步推理的重要性——就像解決復(fù)雜數(shù)學(xué)題時(shí),step-by-step的方法比直接給出答案更可靠。

Bradley-Terry模型的作用也得到了驗(yàn)證。當(dāng)研究團(tuán)隊(duì)移除這個(gè)組件時(shí),系統(tǒng)性能有所下降,說明這種全局優(yōu)化方法確實(shí)能夠改善最終的排序質(zhì)量。這就像在體育排名中,僅僅根據(jù)個(gè)別比賽結(jié)果排名可能不夠準(zhǔn)確,需要綜合考慮所有比賽數(shù)據(jù)才能得出更公平的排序。

X-CoT的一個(gè)突出優(yōu)勢(shì)是它提供的可解釋性。當(dāng)系統(tǒng)推薦某個(gè)視頻時(shí),它會(huì)給出詳細(xì)的解釋,比如:"視頻4被選為最佳匹配,因?yàn)樗鞔_滿足了查詢中指定的所有標(biāo)準(zhǔn)。它展現(xiàn)了一位女性直接談?wù)撍诎臀骺棺h活動(dòng)中的角色,這正是查詢所尋找的內(nèi)容。這使得視頻4成為所提供選項(xiàng)中最相關(guān)的選擇。"

這種解釋能力在實(shí)際應(yīng)用中具有重要價(jià)值。對(duì)于內(nèi)容創(chuàng)作者來說,他們可以了解什么樣的視頻內(nèi)容更容易被發(fā)現(xiàn),從而優(yōu)化自己的創(chuàng)作策略。對(duì)于平臺(tái)管理者來說,他們可以識(shí)別數(shù)據(jù)質(zhì)量問題,比如當(dāng)系統(tǒng)解釋顯示某個(gè)視頻因?yàn)?標(biāo)題描述不準(zhǔn)確"而未被選中時(shí),管理者就知道需要改進(jìn)數(shù)據(jù)標(biāo)注質(zhì)量。

研究團(tuán)隊(duì)還展示了X-CoT在數(shù)據(jù)質(zhì)量評(píng)估方面的能力。在一個(gè)例子中,系統(tǒng)檢索失敗了,但通過分析解釋,研究人員發(fā)現(xiàn)問題出在原始文本描述的質(zhì)量上。原始描述聲稱視頻中有"停車標(biāo)志",但實(shí)際視頻中的標(biāo)志并不是停車標(biāo)志。這種細(xì)致的分析能力使得X-CoT不僅是一個(gè)檢索工具,更是一個(gè)數(shù)據(jù)質(zhì)量監(jiān)控工具。

從技術(shù)實(shí)現(xiàn)角度來看,X-CoT具有良好的可擴(kuò)展性和實(shí)用性。研究團(tuán)隊(duì)通過多種工程優(yōu)化手段大大降低了計(jì)算成本。他們采用了滑動(dòng)窗口策略,只比較相鄰的視頻對(duì),而不是進(jìn)行所有可能的兩兩比較。同時(shí),他們使用緩存技術(shù)避免重復(fù)計(jì)算,并通過GPU并行化處理大大減少了處理時(shí)間。

實(shí)驗(yàn)結(jié)果顯示,當(dāng)使用32個(gè)GPU時(shí),處理每個(gè)查詢的時(shí)間可以降低到0.1秒,這與傳統(tǒng)嵌入模型的處理速度相當(dāng)。這證明了X-CoT不僅在性能上優(yōu)越,在實(shí)際部署方面也是可行的。更重要的是,由于使用的是開源的大語言模型,整個(gè)系統(tǒng)無需額外的API調(diào)用費(fèi)用。

研究團(tuán)隊(duì)還進(jìn)行了大量的定量和定性分析來驗(yàn)證系統(tǒng)的有效性。他們?cè)O(shè)計(jì)了一個(gè)巧妙的評(píng)估方法來衡量解釋的語義準(zhǔn)確性:通過比較解釋文本與重排序后視頻的相似度,證明解釋確實(shí)反映了系統(tǒng)的真實(shí)決策過程。結(jié)果顯示,解釋與重排序結(jié)果的相似度比與原始排序的相似度高出0.077,這表明解釋是真實(shí)可信的,而不是隨意生成的。

在魯棒性測(cè)試中,研究團(tuán)隊(duì)故意在20%的視頻注釋中引入噪音,發(fā)現(xiàn)X-CoT仍然保持了相對(duì)穩(wěn)定的性能,這說明系統(tǒng)對(duì)數(shù)據(jù)質(zhì)量變化具有一定的容忍度。這種魯棒性在實(shí)際應(yīng)用中非常重要,因?yàn)檎鎸?shí)世界的數(shù)據(jù)往往存在各種不完美之處。

為了讓X-CoT更好地處理不同規(guī)模的候選集合,研究團(tuán)隊(duì)還測(cè)試了不同K值(候選視頻數(shù)量)對(duì)性能的影響。結(jié)果顯示,X-CoT能夠很好地適應(yīng)不同規(guī)模的候選集合,隨著K值增加,性能穩(wěn)步提升,這表明系統(tǒng)具有良好的可擴(kuò)展性。

這項(xiàng)研究的創(chuàng)新之處不僅在于技術(shù)方法,更在于它開創(chuàng)了可解釋人工智能在多媒體檢索領(lǐng)域的新方向。傳統(tǒng)的機(jī)器學(xué)習(xí)方法雖然在性能上不斷提升,但其"黑箱"特性越來越成為實(shí)際應(yīng)用的障礙。X-CoT通過引入大語言模型的推理能力,成功地在保持甚至提升性能的同時(shí),大大增強(qiáng)了系統(tǒng)的可解釋性。

從更廣泛的視角來看,這項(xiàng)研究反映了人工智能發(fā)展的一個(gè)重要趨勢(shì):從單純追求性能轉(zhuǎn)向性能與可解釋性并重。隨著AI系統(tǒng)在越來越多的關(guān)鍵領(lǐng)域得到應(yīng)用,用戶和監(jiān)管機(jī)構(gòu)都要求系統(tǒng)能夠解釋其決策過程。X-CoT為這一需求提供了一個(gè)有前景的解決方案。

當(dāng)然,這項(xiàng)研究也存在一些局限性。首先,系統(tǒng)的性能很大程度上依賴于底層大語言模型的能力。雖然現(xiàn)代大語言模型展現(xiàn)出了強(qiáng)大的泛化能力,但在處理特定領(lǐng)域或高度噪音的文本-視頻數(shù)據(jù)時(shí),可能仍然會(huì)遇到困難。其次,Bradley-Terry模型雖然提供了一種原則性的聚合方法,但它依賴于二元?jiǎng)儇?fù)結(jié)果,無法捕捉大語言模型可能提供的更細(xì)致的置信度信息。

研究團(tuán)隊(duì)也坦誠地討論了這些局限性,并指出了未來的改進(jìn)方向。他們建議探索軟置信度分?jǐn)?shù)或可學(xué)習(xí)的聚合策略,以更好地利用大語言模型推理的豐富性。同時(shí),他們也認(rèn)識(shí)到需要在更具挑戰(zhàn)性的場(chǎng)景(如超長視頻理解)中進(jìn)一步測(cè)試系統(tǒng)的能力。

這項(xiàng)研究的影響可能會(huì)延伸到多個(gè)應(yīng)用領(lǐng)域。在教育技術(shù)中,可解釋的視頻推薦系統(tǒng)可以幫助學(xué)生理解為什么某個(gè)教學(xué)視頻被推薦,從而提高學(xué)習(xí)效果。在醫(yī)療培訓(xùn)中,系統(tǒng)可以解釋為什么某個(gè)手術(shù)視頻比其他視頻更適合特定的學(xué)習(xí)目標(biāo)。在法律領(lǐng)域,可解釋的證據(jù)檢索系統(tǒng)可以幫助律師理解為什么某段監(jiān)控視頻被認(rèn)為與案件相關(guān)。

從商業(yè)角度來看,這種技術(shù)可能會(huì)改變內(nèi)容平臺(tái)的競(jìng)爭(zhēng)格局。那些能夠提供透明、可解釋推薦的平臺(tái)可能會(huì)獲得用戶更多的信任,特別是在信息素養(yǎng)越來越受到重視的今天。同時(shí),這種技術(shù)也為內(nèi)容創(chuàng)作者提供了新的機(jī)會(huì),他們可以通過理解推薦算法的邏輯來優(yōu)化自己的內(nèi)容策略。

說到底,X-CoT代表的不僅僅是一個(gè)技術(shù)進(jìn)步,更是人工智能發(fā)展理念的轉(zhuǎn)變。它告訴我們,AI系統(tǒng)不應(yīng)該是不可理解的"黑箱",而應(yīng)該是能夠與人類進(jìn)行有效溝通的智能伙伴。當(dāng)機(jī)器能夠解釋自己的決策時(shí),人類就能更好地信任、監(jiān)督和改進(jìn)這些系統(tǒng)。

這項(xiàng)研究的發(fā)布時(shí)機(jī)也很有意義。在大語言模型快速發(fā)展的今天,如何將這些強(qiáng)大的通用智能工具應(yīng)用到具體的專業(yè)任務(wù)中,是整個(gè)AI社區(qū)面臨的重要課題。X-CoT提供了一個(gè)成功的案例,展示了如何巧妙地結(jié)合傳統(tǒng)機(jī)器學(xué)習(xí)方法和現(xiàn)代大語言模型的優(yōu)勢(shì)。

對(duì)于那些關(guān)心AI發(fā)展方向的人來說,這項(xiàng)研究傳達(dá)了一個(gè)重要信息:未來的AI系統(tǒng)不僅要"做得好",還要"解釋得清"。隨著AI技術(shù)在社會(huì)各個(gè)層面的深入應(yīng)用,可解釋性將成為技術(shù)采納的關(guān)鍵因素。X-CoT在這個(gè)方向上邁出了重要的一步,為構(gòu)建更加透明、可信的AI系統(tǒng)提供了有價(jià)值的思路和方法。

最終,這項(xiàng)研究的價(jià)值不僅在于它解決了視頻檢索中的具體問題,更在于它為整個(gè)可解釋AI領(lǐng)域貢獻(xiàn)了新的思想和方法。它證明了在保持甚至提升系統(tǒng)性能的同時(shí)實(shí)現(xiàn)可解釋性是完全可能的,這為未來更多類似的研究奠定了基礎(chǔ)。對(duì)于有興趣了解更多技術(shù)細(xì)節(jié)的讀者,可以通過論文編號(hào)arXiv:2509.21559v1查找完整的研究報(bào)告。

Q&A

Q1:X-CoT系統(tǒng)與傳統(tǒng)視頻推薦系統(tǒng)有什么根本區(qū)別?

A:傳統(tǒng)系統(tǒng)只能計(jì)算相似度分?jǐn)?shù)進(jìn)行排序,就像一個(gè)只會(huì)算數(shù)的機(jī)器,而X-CoT能夠像人類專家一樣進(jìn)行逐步分析和推理,不僅給出推薦結(jié)果,還詳細(xì)解釋為什么選擇某個(gè)視頻,比如會(huì)說明"視頻A展示了完整的制作過程而視頻B只有部分步驟,所以A更符合需求"。

Q2:使用X-CoT系統(tǒng)會(huì)不會(huì)很慢很貴?

A:研究團(tuán)隊(duì)通過多種優(yōu)化手段大大降低了成本。使用32個(gè)GPU時(shí)處理每個(gè)查詢僅需0.1秒,與傳統(tǒng)方法速度相當(dāng)。而且使用開源大語言模型,無需額外API費(fèi)用,同時(shí)通過緩存技術(shù)避免重復(fù)計(jì)算,平均每個(gè)查詢只需約40次LLM調(diào)用。

Q3:X-CoT的解釋結(jié)果可靠嗎,會(huì)不會(huì)是隨意生成的?

A:研究團(tuán)隊(duì)設(shè)計(jì)了專門的評(píng)估方法驗(yàn)證解釋的真實(shí)性。通過比較解釋文本與重排序結(jié)果的相似度,發(fā)現(xiàn)解釋與最終選擇的相似度比與原始排序高出0.077,證明解釋確實(shí)反映了系統(tǒng)的真實(shí)決策過程,而且在20%噪音數(shù)據(jù)測(cè)試中仍保持穩(wěn)定性能。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-