這項由清華大學(xué)徐鵬、武漢理工大學(xué)熊圣武等領(lǐng)導(dǎo)的大規(guī)模研究于2025年9月發(fā)表在國際計算機視覺大會(ICCV 2025)的MARS2研討會上。研究涉及80多位來自清華大學(xué)、武漢理工大學(xué)、中科院自動化所、牛津大學(xué)、首爾國立大學(xué)等知名機構(gòu)的學(xué)者,論文可通過arXiv:2509.14142獲取完整內(nèi)容。
當(dāng)我們看到一張復(fù)雜的照片時,比如一個繁忙的街頭場景,我們的大腦會瞬間處理無數(shù)信息:識別不同的物體、理解它們之間的空間關(guān)系、推斷發(fā)生的事情,甚至預(yù)測接下來可能發(fā)生什么。這種看似簡單的能力,實際上涉及了從基礎(chǔ)感知到高級推理的完整認知過程。如今,人工智能已經(jīng)在很多單一任務(wù)上表現(xiàn)出色,但要讓機器像人類一樣進行復(fù)雜的多模態(tài)推理,仍然是一個巨大挑戰(zhàn)。
現(xiàn)在的大型語言模型雖然在文字處理上已經(jīng)相當(dāng)出色,但當(dāng)需要同時處理圖像、視頻和文字,并進行深層推理時,它們往往力不從心。這就好比一個只會看書的學(xué)霸突然被要求同時觀看電影、聽音樂并寫評論一樣困難。更具挑戰(zhàn)性的是,現(xiàn)實世界的推理往往不是簡單的"如果A那么B"這種直線式思維,而是需要綜合多種信息、考慮各種可能性的復(fù)雜過程。
為了推動人工智能在這個關(guān)鍵領(lǐng)域的發(fā)展,研究團隊組織了一場名為MARS2的大型挑戰(zhàn)賽,就像是為AI設(shè)計的"奧林匹克競賽"。這次比賽不同于以往那些相對簡單的測試,而是專門針對現(xiàn)實世界中的復(fù)雜場景和專業(yè)領(lǐng)域設(shè)計的。研究團隊發(fā)布了兩個全新的數(shù)據(jù)集:Lens和AdsQA,前者包含了12種日常生活場景中的復(fù)雜推理任務(wù),后者則專門針對廣告視頻中的創(chuàng)意理解和推理。
這次挑戰(zhàn)賽歷時兩個多月,吸引了76支來自知名學(xué)術(shù)機構(gòu)和工業(yè)界的團隊參與,包括字節(jié)跳動、美團、英偉達、三星等公司的研究團隊。參賽者們提交了超過1200份方案,最終有40多份有效提交被納入最終排名。比賽設(shè)置了三個不同的賽道,分別考察AI在真實場景中的視覺定位、空間感知問答以及創(chuàng)意廣告視頻理解等能力。
一、突破傳統(tǒng)的數(shù)據(jù)集設(shè)計理念
傳統(tǒng)的AI測試往往像是給學(xué)生出一套標(biāo)準化考試題目,每道題都有明確的答案,測試的也多是孤立的技能。但現(xiàn)實世界的推理遠比這復(fù)雜得多。研究團隊意識到,如果我們想讓AI真正智能化,就必須讓它面對更接近人類日常體驗的挑戰(zhàn)。
Lens數(shù)據(jù)集的設(shè)計就體現(xiàn)了這種全新思路。這個數(shù)據(jù)集包含了3400張圖像和超過6萬個人工編寫的問題,覆蓋了從基礎(chǔ)感知到復(fù)雜推理的三個層次。更重要的是,每張圖像都配備了八種不同類型的任務(wù)標(biāo)注,這意味著AI需要對同一張圖片進行多角度、多層次的理解。這就好比讓一個學(xué)生不僅要看懂一幅畫,還要能描述畫中的物體、分析它們的關(guān)系、推斷畫家的意圖等等。
特別值得注意的是,Lens數(shù)據(jù)集中53%的圖像都是2025年1月之后發(fā)布的最新內(nèi)容,這確保了測試的時效性和挑戰(zhàn)性。這種設(shè)計避免了AI簡單地"背答案"的可能性,因為這些圖像在訓(xùn)練階段是不存在的。數(shù)據(jù)集涵蓋了街道、車站、學(xué)校、家庭等12種日常生活場景,每個場景都包含了豐富的物體類別和復(fù)雜的空間關(guān)系。
AdsQA數(shù)據(jù)集則開辟了一個全新的研究方向。這個數(shù)據(jù)集包含了1544個廣告視頻,總時長達22.7小時,提供了超過1萬個視頻片段。與一般的視頻理解任務(wù)不同,廣告視頻的理解需要AI能夠把握隱含的情感表達、營銷策略和目標(biāo)受眾分析。這就像是要求AI不僅能看懂一部電影,還要能分析導(dǎo)演的拍攝手法、理解其想要傳達的深層含義。
廣告視頻之所以特別具有挑戰(zhàn)性,是因為它們包含了大量非顯性的信息。一個簡單的畫面可能蘊含著復(fù)雜的文化符號、情感暗示和說服策略。比如,一個家庭聚餐的場景不僅僅是在展示食物,更是在傳達家庭溫暖、傳統(tǒng)價值觀等抽象概念。AI需要學(xué)會識別這些微妙的暗示,并理解它們是如何服務(wù)于整體的營銷目標(biāo)的。
二、三大賽道全面考察AI推理能力
為了全面評估AI的多模態(tài)推理能力,研究團隊設(shè)計了三個相互補充的比賽賽道,每個賽道都針對特定的能力維度進行深入考察。
第一個賽道"真實場景中的視覺定位"主要考察AI在復(fù)雜環(huán)境中準確定位目標(biāo)物體的能力。這聽起來可能很簡單,但實際上充滿挑戰(zhàn)。在真實世界中,物體經(jīng)常被部分遮擋,光線條件變化多樣,背景也可能非常復(fù)雜。這就好比在一個擁擠的集市里找一個特定的攤位,不僅要能識別攤位本身,還要理解它與周圍環(huán)境的關(guān)系。
參賽的AI系統(tǒng)需要根據(jù)文字描述在圖像中準確框出目標(biāo)區(qū)域,評判標(biāo)準是預(yù)測框與真實答案的重疊度必須超過50%才算正確。這個看似簡單的要求實際上考驗著AI對語言的理解、對視覺特征的提取以及二者之間的精確對應(yīng)關(guān)系。很多在實驗室環(huán)境下表現(xiàn)優(yōu)秀的模型,在面對這些來自真實社交媒體的復(fù)雜圖像時,準確率大幅下降。
第二個賽道"空間感知視覺問答"則進一步提升了難度。這個賽道不僅要求AI能夠識別物體,還要理解它們之間的空間關(guān)系,并能進行基于空間推理的問答。比如,當(dāng)被問到"如果我坐在白色椅子上,門在我的哪個方向"時,AI需要理解人的視角、空間方位概念以及相對位置關(guān)系。
這種空間推理能力對人類來說是如此自然,以至于我們很少意識到它的復(fù)雜性。但對AI來說,這需要將二維圖像信息轉(zhuǎn)換為三維空間理解,建立坐標(biāo)系統(tǒng),計算相對位置,并將結(jié)果轉(zhuǎn)換為人類可理解的方向描述。更具挑戰(zhàn)性的是,許多問題涉及多輪對話,AI需要保持上下文的一致性,記住之前確立的視角和參考系。
第三個賽道"創(chuàng)意廣告視頻推理"可能是最具挑戰(zhàn)性的。這個賽道要求AI理解廣告視頻中的創(chuàng)意元素、情感表達、說服策略和目標(biāo)受眾等抽象概念。與前兩個賽道不同,這里的"正確答案"往往不是客觀的事實,而是需要深層理解和主觀判斷的結(jié)論。
廣告視頻的推理涉及多個層面的理解。首先是表面層面的視覺和聽覺信息提取,然后是對這些信息背后文化含義的理解,最后是對整體營銷策略和傳播效果的分析。這就像是要求AI不僅能看懂一首詩的字面意思,還要理解其中的比喻、象征和情感表達。
三、參賽團隊的創(chuàng)新解決方案
在這次挑戰(zhàn)賽中,各個參賽團隊展現(xiàn)了令人印象深刻的創(chuàng)新能力,他們的解決方案不僅在技術(shù)上有所突破,更重要的是展現(xiàn)了解決復(fù)雜AI問題的不同思路。
在視覺定位賽道中,獲得冠軍的ActiveAlphaAgent團隊提出了一個多階段訓(xùn)練策略。他們的方法就像是培養(yǎng)一個專業(yè)偵探的過程:首先讓AI學(xué)習(xí)基礎(chǔ)的觀察技能,然后通過強化學(xué)習(xí)讓它學(xué)會從錯誤中改進,最后通過知識蒸餾技術(shù)將大模型的能力傳授給小模型,實現(xiàn)效率和性能的平衡。
這個團隊特別注重數(shù)據(jù)質(zhì)量的提升。他們開發(fā)了一個信噪比篩選機制,就像是給訓(xùn)練數(shù)據(jù)設(shè)置了一個質(zhì)量檢測器,只保留那些真正有助于提升AI能力的高質(zhì)量樣本。他們還根據(jù)不同場景的特點進行了針對性的數(shù)據(jù)增強,比如針對交通場景中的小物體遮擋問題,專門收集和標(biāo)注了更多此類樣本。
Star_s團隊則采用了一種"通才與專家結(jié)合"的策略。他們讓通用的多模態(tài)大模型負責(zé)初步的物體檢測,然后使用專門的定位模型進行精確校驗和優(yōu)化。這種方法就像是讓一個博學(xué)的通才先做初步判斷,然后由領(lǐng)域?qū)<疫M行最終確認,既保證了覆蓋面又確保了精確度。
在空間感知問答賽道中,Echoch團隊的獲勝方案展現(xiàn)了數(shù)據(jù)處理的重要性。他們構(gòu)建了一個包含17萬樣本的多語言訓(xùn)練集,并通過自一致性策略生成多個候選答案,然后使用投票機制選擇最可靠的結(jié)果。這種方法類似于讓多個專家獨立分析同一個問題,然后綜合所有意見得出最終答案。
更有趣的是,這個團隊還使用了視角轉(zhuǎn)換技術(shù)來增強AI的空間理解能力。他們通過模擬不同觀察角度來訓(xùn)練模型,讓AI能夠像人類一樣從不同視角理解同一個場景。這種訓(xùn)練方法顯著提升了模型在處理"從我的角度看"這類問題時的準確性。
在廣告視頻推理賽道中,gogogo_truefaler團隊提出了分層推理架構(gòu)。他們的方法分為四個步驟:首先進行全局的音視頻整合分析,然后進行片段級的細節(jié)推理,接著進行分層的因果推理,最后整合所有信息生成答案。這個過程就像是專業(yè)的廣告分析師的工作流程:先把握整體印象,再分析具體細節(jié),然后理解深層邏輯,最后形成綜合判斷。
四、突破性的評估體系設(shè)計
傳統(tǒng)的AI評估往往只看最終的準確率數(shù)字,但這次挑戰(zhàn)賽在評估方式上也有重要創(chuàng)新。研究團隊意識到,復(fù)雜推理任務(wù)的評估不能簡單地用對錯來衡量,而需要更加細致和全面的評估標(biāo)準。
對于視覺定位任務(wù),評估不僅看定位的準確性,還考慮了不同IoU閾值下的表現(xiàn)。這就像是評價一個射箭手,不僅要看是否命中靶心,還要看在不同距離和條件下的穩(wěn)定性。研究團隊發(fā)現(xiàn),即使是表現(xiàn)最好的模型,在面對小物體定位和復(fù)雜背景時仍然存在明顯困難。
空間感知問答的評估采用了大語言模型輔助評分的方法。由于很多空間推理問題的答案可能有多種正確表達方式,傳統(tǒng)的精確匹配評估方法會過于嚴格。因此,研究團隊使用GLM4-flash模型作為評估助手,通過多輪生成和投票機制來判斷答案的正確性,這種方法更接近人類的評判方式。
廣告視頻推理的評估最為復(fù)雜,需要同時考慮答案的準確性和完整性。評估系統(tǒng)會檢查生成的答案是否包含了參考答案中的關(guān)鍵要素,同時也會懲罰那些包含錯誤信息的回答。這種評估方式就像是給一篇創(chuàng)意分析文章打分,既要看觀點是否正確,也要看分析是否全面。
五、令人深思的實驗發(fā)現(xiàn)
通過對40多個基線模型和參賽方案的全面評估,研究團隊獲得了一系列令人深思的發(fā)現(xiàn),這些發(fā)現(xiàn)揭示了當(dāng)前AI技術(shù)的真實水平和發(fā)展方向。
首先,即使是最先進的商業(yè)模型,在復(fù)雜推理任務(wù)上的表現(xiàn)也遠未達到令人滿意的水平。在Lens數(shù)據(jù)集上,沒有任何模型在推理任務(wù)上達到60%以上的準確率。這個結(jié)果特別值得關(guān)注,因為這些模型在很多其他任務(wù)上都表現(xiàn)出色,但面對需要多步推理和空間理解的任務(wù)時,它們的局限性就暴露出來了。
更具體地說,在視覺定位任務(wù)中,即使是目前最好的開源模型Qwen2.5-VL-32B,準確率也只有48.47%。這意味著在一半以上的情況下,AI無法準確理解和定位人類用自然語言描述的目標(biāo)物體。這種差距在處理小物體、復(fù)雜背景或者需要精確空間推理的情況下更加明顯。
在空間感知任務(wù)中,研究團隊發(fā)現(xiàn)了一個有趣的現(xiàn)象:AI模型往往在處理"距離"概念時表現(xiàn)不佳,經(jīng)?;煜鄬ξ恢藐P(guān)系。比如,當(dāng)被問及兩個物體之間的距離時,模型可能能正確識別物體,但對它們的空間關(guān)系卻判斷錯誤。這表明當(dāng)前的AI在將視覺信息轉(zhuǎn)換為空間概念方面還有很大改進空間。
廣告視頻理解任務(wù)的結(jié)果更是發(fā)人深省。即使是表現(xiàn)最好的模型,準確率也只有56%左右,而人類評估者在相同任務(wù)上的平均準確率達到71.4%。這個差距反映了AI在理解抽象概念、文化內(nèi)涵和創(chuàng)意表達方面的不足。
研究團隊還發(fā)現(xiàn)了一些有趣的技術(shù)規(guī)律。比如,集成多個模型的方法普遍比單一模型表現(xiàn)更好,這表明不同模型可能會捕捉到不同方面的信息。強化學(xué)習(xí)訓(xùn)練對于復(fù)雜推理任務(wù)特別有效,很多獲勝團隊都使用了這種方法。此外,精心設(shè)計的提示詞工程也能顯著提升模型性能,這說明人機交互的方式對AI表現(xiàn)有重要影響。
六、技術(shù)方案的深度解析
參賽團隊的技術(shù)方案展現(xiàn)了當(dāng)前AI領(lǐng)域的最新進展和創(chuàng)新思路。這些方案不僅在具體技術(shù)上有突破,更重要的是體現(xiàn)了解決復(fù)雜AI問題的系統(tǒng)性思維。
在數(shù)據(jù)處理方面,幾乎所有成功的團隊都投入了大量精力進行數(shù)據(jù)增強和質(zhì)量控制。ActiveAlphaAgent團隊開發(fā)了一套基于信噪比的數(shù)據(jù)篩選機制,他們首先使用多個先進模型的集成結(jié)果來生成初始數(shù)據(jù)集,然后通過計算合成數(shù)據(jù)與基準數(shù)據(jù)的性能比值來評估數(shù)據(jù)質(zhì)量。只有那些能夠提升模型性能的高質(zhì)量樣本才會被保留用于訓(xùn)練。
這種數(shù)據(jù)處理方法的創(chuàng)新之處在于,它不是簡單地增加數(shù)據(jù)量,而是專注于提升數(shù)據(jù)的有效性。團隊還根據(jù)不同場景的特點進行了針對性的數(shù)據(jù)收集,比如針對交通樞紐場景中小物體識別困難的問題,他們專門收集了更多包含此類挑戰(zhàn)的樣本。
在模型訓(xùn)練方面,多階段訓(xùn)練策略成為了一個重要趨勢。大多數(shù)獲勝團隊都采用了"冷啟動監(jiān)督微調(diào)+強化學(xué)習(xí)"的組合方案。冷啟動階段主要是讓模型適應(yīng)特定任務(wù)的數(shù)據(jù)分布和輸出格式,而強化學(xué)習(xí)階段則是通過獎勵機制來優(yōu)化模型的推理質(zhì)量。
Tele_AI團隊的SMART框架展現(xiàn)了這種方法的精妙之處。他們首先構(gòu)建了一個多模態(tài)推理和思維數(shù)據(jù)集,然后使用位置感知的數(shù)據(jù)準備方法,讓模型學(xué)會生成包含明確推理鏈的回答。在強化學(xué)習(xí)階段,他們使用了DAPO算法,通過標(biāo)準化優(yōu)勢函數(shù)來計算獎勵信號,確保訓(xùn)練過程的穩(wěn)定性。
模型協(xié)作是另一個值得關(guān)注的創(chuàng)新方向。Star_s團隊的成功很大程度上歸功于他們將通用多模態(tài)模型與專門的定位模型結(jié)合使用。通用模型負責(zé)理解復(fù)雜的語言描述和生成候選區(qū)域,而專門的定位模型則對這些候選區(qū)域進行精確的驗證和篩選。這種分工協(xié)作的方式不僅提升了最終的準確性,還提高了系統(tǒng)的可解釋性。
在處理空間推理任務(wù)時,多個團隊都強調(diào)了多輪對話一致性的重要性。SRCN-AIVL團隊開發(fā)了一種指代消解和因果提示方法,專門用于處理多輪對話中的空間推理問題。他們發(fā)現(xiàn),當(dāng)問題被孤立處理時,往往會丟失重要的上下文信息,導(dǎo)致推理錯誤。通過將所有相關(guān)問題作為一個整體來處理,模型能夠更好地理解空間關(guān)系和視角轉(zhuǎn)換。
七、面向未來的技術(shù)展望
這次挑戰(zhàn)賽不僅展現(xiàn)了當(dāng)前AI技術(shù)的水平,更重要的是為未來的研究方向提供了寶貴的指引。通過對參賽方案的深入分析和實驗結(jié)果的全面總結(jié),研究團隊提出了幾個值得關(guān)注的發(fā)展方向。
首先是可信度和泛化能力的提升。當(dāng)前的AI模型雖然在特定任務(wù)上能夠達到不錯的性能,但在面對分布外數(shù)據(jù)時表現(xiàn)往往會大幅下降。研究團隊指出,很多參賽方案過度依賴于IoU分數(shù)這樣的任務(wù)特定獎勵,這可能會損害模型在其他能力維度上的表現(xiàn)。未來的研究需要找到平衡任務(wù)性能和整體能力保持的方法。
多模態(tài)融合的深度是另一個關(guān)鍵挑戰(zhàn)。雖然現(xiàn)在的模型能夠處理圖像、文本和音頻等多種模態(tài)的信息,但這種處理往往還是相對淺層的。真正的多模態(tài)推理需要能夠在不同模態(tài)之間建立深層的語義對應(yīng)關(guān)系,理解它們之間的相互作用和依賴關(guān)系。廣告視頻理解任務(wù)的結(jié)果表明,當(dāng)前的AI在這方面還有很大的改進空間。
推理鏈的可解釋性也是一個重要的發(fā)展方向。雖然很多模型能夠產(chǎn)生正確的答案,但它們的推理過程往往是不透明的。在復(fù)雜的多步推理任務(wù)中,能夠提供清晰、可驗證的推理鏈不僅有助于調(diào)試和改進模型,也是構(gòu)建可信AI系統(tǒng)的重要基礎(chǔ)。
領(lǐng)域適應(yīng)性是另一個值得關(guān)注的問題。這次挑戰(zhàn)賽的結(jié)果顯示,通用模型和專門模型各有優(yōu)勢,如何在保持通用性的同時提升在特定領(lǐng)域的表現(xiàn),是一個需要深入研究的問題。一些團隊采用的混合專家模型架構(gòu)為這個方向提供了有價值的探索。
計算效率也是不可忽視的現(xiàn)實考量。雖然大規(guī)模模型在性能上有優(yōu)勢,但它們的計算成本和能耗也相當(dāng)可觀。如何通過知識蒸餾、模型壓縮等技術(shù)在保持性能的同時降低計算需求,是推動AI技術(shù)實用化的關(guān)鍵因素。
八、對AI發(fā)展的深層思考
這次挑戰(zhàn)賽的結(jié)果引發(fā)了對AI發(fā)展現(xiàn)狀和未來方向的深層思考。當(dāng)我們看到即使是最先進的AI模型在復(fù)雜推理任務(wù)上仍然表現(xiàn)不佳時,這提醒我們AI的真正智能化之路還很漫長。
現(xiàn)有的AI系統(tǒng)主要擅長模式識別和統(tǒng)計學(xué)習(xí),但在需要真正理解和推理的任務(wù)上仍然力不從心。這種局限性在需要空間推理、常識推理和創(chuàng)意理解的任務(wù)中表現(xiàn)得尤為明顯。比如,當(dāng)AI被要求理解廣告中的隱喻表達或文化符號時,它往往只能抓住表面的視覺特征,而無法深入理解其背后的深層含義。
這種差距的根本原因可能在于當(dāng)前AI系統(tǒng)缺乏真正的世界模型和因果理解能力。人類的推理建立在對物理世界和社會世界的深層理解之上,我們知道物體如何運動、人們?nèi)绾嗡伎肌⑸鐣绾芜\作。而當(dāng)前的AI系統(tǒng)主要是通過大量數(shù)據(jù)學(xué)習(xí)統(tǒng)計規(guī)律,缺乏這種基礎(chǔ)性的世界理解。
另一個值得思考的問題是AI系統(tǒng)的魯棒性。這次挑戰(zhàn)賽中使用的很多圖像都是來自社交媒體的真實數(shù)據(jù),包含了各種噪聲、遮擋和異常情況。結(jié)果顯示,即使是在實驗室環(huán)境下表現(xiàn)優(yōu)秀的模型,在面對這些真實世界的復(fù)雜性時也會出現(xiàn)明顯的性能下降。這提醒我們,在追求高性能的同時,也需要關(guān)注模型的魯棒性和實用性。
從更廣的角度來看,這次挑戰(zhàn)賽也反映了AI研究范式的變化。傳統(tǒng)的AI研究往往專注于在特定任務(wù)上達到最高性能,但現(xiàn)在越來越多的研究者意識到,真正的智能需要的是綜合性的推理能力和適應(yīng)性。這要求我們不僅要關(guān)注單一任務(wù)的性能,更要關(guān)注不同能力之間的協(xié)同效應(yīng)和遷移能力。
這次挑戰(zhàn)賽的組織方式本身也體現(xiàn)了AI研究的新趨勢。通過設(shè)置多個相互關(guān)聯(lián)的賽道,研究團隊不僅評估了AI在不同任務(wù)上的表現(xiàn),還考察了這些能力之間的協(xié)同效應(yīng)。這種綜合性的評估方法為AI能力的全面評價提供了新的思路。
說到底,這次MARS2挑戰(zhàn)賽給我們帶來的不僅僅是技術(shù)上的進步,更是對AI發(fā)展方向的深入思考。它讓我們看到了當(dāng)前AI技術(shù)的真實水平,也為未來的研究指明了方向。雖然離真正的人工智能還有很長的路要走,但通過這樣的挑戰(zhàn)和探索,我們正在一步步接近那個目標(biāo)。
對于關(guān)注AI發(fā)展的讀者來說,這項研究提供了一個很好的觀察窗口,讓我們能夠了解AI技術(shù)的前沿進展和面臨的挑戰(zhàn)。同時,這也提醒我們在享受AI技術(shù)帶來便利的同時,也要保持理性的態(tài)度,認識到AI技術(shù)的局限性和發(fā)展空間。隨著研究的不斷深入和技術(shù)的持續(xù)進步,我們有理由相信,更加智能、更加可靠的AI系統(tǒng)終將到來。
有興趣深入了解這項研究的讀者可以通過arXiv:2509.14142訪問完整論文,或者訪問MARS2挑戰(zhàn)賽的官方網(wǎng)站和GitHub頁面獲取更多詳細信息和最新進展。
Q&A
Q1:MARS2挑戰(zhàn)賽具體考察AI的哪些能力?
A:MARS2挑戰(zhàn)賽設(shè)置了三個賽道來全面考察AI的多模態(tài)推理能力。第一個賽道考察AI在復(fù)雜真實場景中準確定位目標(biāo)物體的能力,第二個賽道測試AI對空間關(guān)系的理解和基于空間的問答推理,第三個賽道則挑戰(zhàn)AI理解廣告視頻中的創(chuàng)意元素、情感表達和營銷策略等抽象概念的能力。
Q2:當(dāng)前最先進的AI模型在這些復(fù)雜推理任務(wù)上表現(xiàn)如何?
A:結(jié)果顯示即使是最先進的AI模型表現(xiàn)也不理想。在Lens數(shù)據(jù)集的推理任務(wù)上,沒有模型達到60%以上準確率,最好的開源模型Qwen2.5-VL-32B在視覺定位任務(wù)上準確率僅48.47%。在廣告視頻理解任務(wù)中,最佳模型準確率約56%,而人類評估者平均達到71.4%,顯示AI與人類還有明顯差距。
Q3:這次挑戰(zhàn)賽對AI發(fā)展有什么重要意義?
A:這次挑戰(zhàn)賽首次提供了針對復(fù)雜多模態(tài)推理的綜合評估基準,揭示了當(dāng)前AI技術(shù)在處理真實世界復(fù)雜推理任務(wù)時的局限性。通過76支團隊的1200多份提交方案,展現(xiàn)了解決復(fù)雜AI問題的創(chuàng)新思路,為未來AI發(fā)展指明了方向,特別是在提升AI的空間推理、常識理解和抽象概念把握能力方面。
好文章,需要你的鼓勵
浙江大學(xué)團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學(xué)競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓(xùn)練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團隊發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學(xué)習(xí)方法訓(xùn)練多個AI模型。實驗結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。