對(duì)于想要理解人工智能如何進(jìn)行數(shù)學(xué)推理的讀者來說,這是一個(gè)激動(dòng)人心的時(shí)刻。由阿聯(lián)酋穆罕默德·本·扎耶德人工智能大學(xué)(MBZUAI)的Hanoona Rasheed、Abdelrahman Shaker、Anqi Tang、Muhammad Maaz,加州大學(xué)默塞德分校和谷歌研究院的Ming-Hsuan Yang,以及澳大利亞國立大學(xué)和瑞典林雪平大學(xué)的Salman Khan和Fahad Shahbaz Khan共同開發(fā)的一項(xiàng)創(chuàng)新研究于2025年6月發(fā)表在arXiv預(yù)印本平臺(tái)(arXiv:2506.05349v1)。這項(xiàng)研究推出了一個(gè)名為"VideoMathQA"的基準(zhǔn)測試,用于評(píng)估人工智能模型在視頻環(huán)境中的數(shù)學(xué)推理能力。有興趣深入了解的讀者可以訪問項(xiàng)目官網(wǎng):https://mbzuai-oryx.github.io/VideoMathQA。
想象一下,你正在觀看一段數(shù)學(xué)教學(xué)視頻。教授一邊講解,一邊在白板上寫下公式,還不時(shí)地指向圖表或動(dòng)畫演示。作為人類,我們能夠輕松地將所看到的圖像、聽到的解釋以及屏幕上出現(xiàn)的文字信息整合起來,理解整個(gè)數(shù)學(xué)概念。但對(duì)于人工智能來說,這是一項(xiàng)極其復(fù)雜的挑戰(zhàn)——這正是VideoMathQA要解決的問題。
在真實(shí)世界的視頻環(huán)境中進(jìn)行數(shù)學(xué)推理,與在靜態(tài)圖像或純文本中相比有著本質(zhì)的不同。視頻中的數(shù)學(xué)推理要求模型能夠解讀精細(xì)的視覺信息,準(zhǔn)確閱讀手寫或數(shù)字文本,并整合口頭解釋,而這些信息常常以非線性方式分散在時(shí)間軸上。在這種多模態(tài)環(huán)境中,成功不僅僅依賴于感知能力,還取決于能否從豐富而嘈雜的內(nèi)容流中選擇性地識(shí)別和整合正確的上下文細(xì)節(jié)。
一、基準(zhǔn)測試的獨(dú)特設(shè)計(jì)
VideoMathQA基準(zhǔn)測試覆蓋了10個(gè)不同的數(shù)學(xué)領(lǐng)域,視頻長度從10秒到超過1小時(shí)不等。它要求模型解釋結(jié)構(gòu)化的視覺內(nèi)容,理解教學(xué)敘述,并在視覺、音頻和文本模態(tài)之間建立概念聯(lián)系。研究團(tuán)隊(duì)聘請(qǐng)了研究生級(jí)別的專家進(jìn)行高質(zhì)量標(biāo)注,總計(jì)超過920人時(shí)的標(biāo)注工作。
為了反映真實(shí)場景,問題圍繞三個(gè)核心推理挑戰(zhàn)設(shè)計(jì):直接問題解決,答案基于呈現(xiàn)的問題;概念遷移,需要將學(xué)習(xí)到的方法應(yīng)用于新問題;以及深度教學(xué)理解,涉及對(duì)長時(shí)間解釋和部分解答的多步推理。每個(gè)問題都包含多步推理標(biāo)注,使得對(duì)模型能力進(jìn)行精細(xì)診斷成為可能。
想象一下"大海撈針"的難度——只不過這里的"針"是分散在視頻、文本和音頻三種模態(tài)中的關(guān)鍵信息。研究人員將這種挑戰(zhàn)稱為"多模態(tài)大海撈針"問題,這正是VideoMathQA基準(zhǔn)測試的核心難點(diǎn)。
二、構(gòu)建高質(zhì)量的數(shù)據(jù)集
VideoMathQA包含420個(gè)精心策劃的視頻-問題對(duì),涵蓋從結(jié)構(gòu)化問題演練到概念演示,再到完整的白板或數(shù)字講座以及涉及圖表推理的動(dòng)畫紀(jì)錄片等多種教學(xué)內(nèi)容。每個(gè)問題都包含多步推理步驟,整個(gè)數(shù)據(jù)集總共有2,945個(gè)專家標(biāo)注的步驟。
每個(gè)問題都從四個(gè)維度進(jìn)行特征化:數(shù)學(xué)概念、推理類型、視頻時(shí)長和難度級(jí)別。在數(shù)學(xué)概念方面,基準(zhǔn)測試覆蓋了幾何、算術(shù)與微積分、統(tǒng)計(jì)與概率、計(jì)數(shù)、圖論、拼圖、拓?fù)鋵W(xué)和圖表閱讀等10個(gè)領(lǐng)域。推理類型分為"問題聚焦型"、"概念遷移型"和"深度理解型"三類。視頻時(shí)長從10秒到1小時(shí)以上,分為短、中、長三組。難度級(jí)別則分為簡單、中等和困難,其中困難問題占到了57%。
標(biāo)注過程包括三個(gè)階段:視頻選擇、問題-答案標(biāo)注和逐步推理。這需要相當(dāng)大的專家努力:平均花費(fèi)30分鐘找到合適的視頻,40分鐘制作高質(zhì)量的問題-答案對(duì),以及1小時(shí)撰寫詳細(xì)的逐步推理,每個(gè)樣本總計(jì)約2到2.5小時(shí)。整個(gè)數(shù)據(jù)集的標(biāo)注工作大約相當(dāng)于115個(gè)人天的工作量。不同的標(biāo)注者處理每個(gè)樣本的各個(gè)階段,以確保獨(dú)立驗(yàn)證。
三、多模態(tài)理解的深度挑戰(zhàn)
VideoMathQA基準(zhǔn)測試的一個(gè)關(guān)鍵特點(diǎn)是它要求模型進(jìn)行深度的跨模態(tài)推理。以"概念遷移"類型的問題為例,模型可能需要觀看教師在視頻中演示如何計(jì)算三角形的個(gè)數(shù),然后將學(xué)到的方法應(yīng)用到一個(gè)新的、相似但不完全相同的問題上。這就像是學(xué)生需要從課堂講解中理解一個(gè)方法,然后運(yùn)用到家庭作業(yè)中一樣。
再如,"深度理解"類型的問題可能涉及跟蹤一個(gè)長達(dá)20分鐘的講解視頻,其中教授正在解釋一個(gè)復(fù)雜的微積分問題,并且只完成了部分解答。模型需要理解講解內(nèi)容,識(shí)別問題要求,解讀部分完成的解答,然后完成剩余的解答步驟。這模擬了學(xué)生需要跟上教授講課節(jié)奏并填補(bǔ)空白的真實(shí)學(xué)習(xí)場景。
四、全面的模型評(píng)估
研究團(tuán)隊(duì)對(duì)30個(gè)專有和開源的多模態(tài)模型進(jìn)行了全面評(píng)估,包括5個(gè)專有模型(Claude-3.7-sonnet、GPT-4o、GPT-o4-mini、Gemini 2.0 Flash和Gemini 1.5 Flash)以及25個(gè)開源模型,覆蓋了5B、9B、40B和80B四個(gè)參數(shù)規(guī)模類別。
評(píng)估采用了四種策略:多項(xiàng)選擇評(píng)估(MCQ)、多二元評(píng)估(MBin)、思維鏈(CoT)與直接回答的比較,以及逐步推理評(píng)估。這些方法相互補(bǔ)充,提供了對(duì)模型能力的全面視角。
結(jié)果顯示,模型性能通常隨著規(guī)模增大而提高,但架構(gòu)和訓(xùn)練質(zhì)量往往更具決定性——較新的、較小的模型經(jīng)常優(yōu)于較舊的、較大的模型。例如,InternVL-3-38B在CoT和直接回答中都超過了多個(gè)72B模型。這表明,更強(qiáng)的架構(gòu)、改進(jìn)的視覺理解和更好的推理能力使這些模型能夠勝過較大的、以前的最先進(jìn)模型。
有趣的是,專有模型和開源模型之間的差距正在縮小。經(jīng)過優(yōu)化的開源模型,如Qwen2.5-VL-72B和InternVL-3-78B,表現(xiàn)超過了幾個(gè)專有競爭對(duì)手,包括Claude-3.7-Sonnet、Gemini-2.0-Flash和GPT-4o。
五、字幕和多模態(tài)推理的影響
研究發(fā)現(xiàn),字幕一致地提高了模型性能,尤其是對(duì)于更大的開源和專有模型。然而,字幕的影響并不均勻:較小的模型(<5B和<9B)通常顯示最小或不一致的增益。相比之下,具有推理能力的模型,如GPT-o4-mini,在使用字幕時(shí)性能從42.1%提高到44.8%,而Qwen2.5-VL則從24.5%提高到28.6%。
這些改進(jìn)反映了模型將細(xì)粒度音頻線索與視覺幀集成的能力——這正是"多模態(tài)大海撈針"挑戰(zhàn)的核心,其中關(guān)鍵信息分布在各種模態(tài)中。具有更強(qiáng)推理能力的模型更能夠?qū)⑦@些分散的線索整合為連貫的解決方案,而其他模型可能會(huì)忽略關(guān)鍵的語言線索。
六、視頻長度和幀采樣的影響
研究團(tuán)隊(duì)評(píng)估了模型在短(<30秒)、中(30秒-2分鐘)和長(2分鐘-1小時(shí))三種視頻類別上的表現(xiàn),觀察到兩個(gè)明顯的趨勢。
首先,雖然大多數(shù)模型在短視頻上表現(xiàn)相對(duì)較好,但在中等長度的視頻上準(zhǔn)確率通常會(huì)提高,在更長時(shí)間的視頻上則會(huì)下降。這些趨勢與基準(zhǔn)測試所針對(duì)的三種推理挑戰(zhàn)相一致。短視頻通常對(duì)應(yīng)于"問題聚焦"型問題,成功取決于一般數(shù)學(xué)能力和提取關(guān)鍵視覺或語言線索的能力。中等長度的視頻通常涉及"概念遷移"問題,有利于能夠有效理解指示的模型。相比之下,長視頻對(duì)應(yīng)于"深度理解"問題,這些問題要求跟隨擴(kuò)展的、通常是非線性的教學(xué)序列來解釋上下文。
其次,研究團(tuán)隊(duì)通過評(píng)估Qwen2.5-VL在16、64、256和768幀設(shè)置下的表現(xiàn),研究了幀采樣如何影響性能。結(jié)果發(fā)現(xiàn),增加幀數(shù)提供了持續(xù)的改進(jìn),特別是對(duì)于較長的視頻:短視頻提高5點(diǎn),長視頻提高8點(diǎn),這表明能夠處理擴(kuò)展幀序列并保持長期時(shí)間連貫性的模型更適合基于視頻的數(shù)學(xué)推理。
七、不同數(shù)學(xué)概念的表現(xiàn)差異
研究團(tuán)隊(duì)分析了模型在基準(zhǔn)測試涵蓋的十個(gè)數(shù)學(xué)類別中的表現(xiàn),發(fā)現(xiàn)了明顯的變化。當(dāng)前模型在涉及算術(shù)和微積分的問題上表現(xiàn)較好,平均準(zhǔn)確率約為32%,GPT-o4-mini在CoT評(píng)估中取得了最佳表現(xiàn)63.5%。大多數(shù)模型在幾何推理和拼圖等類別上表現(xiàn)中等,平均表現(xiàn)在24%到30%之間。相比之下,圖表閱讀、拓?fù)鋵W(xué)、圖論以及統(tǒng)計(jì)與概率對(duì)所有模型來說都更具挑戰(zhàn)性,這些類別的平均準(zhǔn)確率通常在16%到21%之間。
八、推理過程中的常見失敗模式
VideoMathQA的一個(gè)重要貢獻(xiàn)是對(duì)模型錯(cuò)誤的詳細(xì)分析。研究人員將模型錯(cuò)誤分為七類:理解問題錯(cuò)誤、未能檢索相關(guān)信息、視覺解讀錯(cuò)誤、概念應(yīng)用錯(cuò)誤、策略選擇錯(cuò)誤、記憶/上下文錯(cuò)誤和計(jì)算錯(cuò)誤。
在這些錯(cuò)誤中,最常見的是理解問題錯(cuò)誤,模型誤解了問題要求或忽略了視頻中的關(guān)鍵多模態(tài)線索。這反映了基準(zhǔn)測試的核心挑戰(zhàn)——即使缺少一個(gè)小的語言或視覺細(xì)節(jié)也會(huì)完全破壞推理過程。專有模型如GPT-o4-mini和Gemini-2.0-Flash在概念應(yīng)用和策略選擇方面的錯(cuò)誤較少(分別為12%和6%),表明它們有更強(qiáng)的領(lǐng)域基礎(chǔ)和更好的問題解決執(zhí)行能力。相比之下,開源模型如InternVL-3展示了更廣泛分布的錯(cuò)誤,概念應(yīng)用和策略選擇錯(cuò)誤共占總錯(cuò)誤的23%,同時(shí)在計(jì)算方面也有明顯的錯(cuò)誤。同時(shí),GPT-o4-mini在視覺解讀錯(cuò)誤方面的比例較高,表明它在處理精細(xì)的視覺線索(如圖表和圖表)方面存在困難。
九、研究結(jié)論與未來方向
VideoMathQA展示了當(dāng)前多模態(tài)模型在處理視頻中的數(shù)學(xué)推理時(shí)面臨的顯著挑戰(zhàn)。盡管專有模型如GPT-o4-mini在某些數(shù)學(xué)領(lǐng)域表現(xiàn)出色,但即使是最先進(jìn)的模型也難以在更復(fù)雜的推理任務(wù)上取得高準(zhǔn)確率,特別是在需要長期關(guān)注和跨模態(tài)整合的任務(wù)上。
研究的關(guān)鍵發(fā)現(xiàn)包括: - 成功不僅取決于視覺感知,還取決于對(duì)分散在時(shí)間、模態(tài)和上下文中的細(xì)微線索的持續(xù)關(guān)注 - 模型往往在關(guān)鍵幀、符號(hào)或口頭細(xì)節(jié)被遺漏時(shí)失敗,揭示了整合長期多模態(tài)信息的能力有限 - 雖然性能通常隨著規(guī)模增加而提高,但架構(gòu)和訓(xùn)練質(zhì)量往往更具決定性 - 專有和開源系統(tǒng)之間的差距正在縮小,最新的開源模型現(xiàn)在可以匹配或超過專有模型
通過建立這個(gè)基準(zhǔn)測試,研究團(tuán)隊(duì)為未來的模型發(fā)展提供了系統(tǒng)評(píng)估框架,強(qiáng)調(diào)了現(xiàn)有方法的局限性,并為在時(shí)間擴(kuò)展和模態(tài)豐富的數(shù)學(xué)問題環(huán)境中進(jìn)行推理(而不僅僅是感知)的模型設(shè)定了標(biāo)準(zhǔn)。
這項(xiàng)研究不僅推動(dòng)了AI在教育領(lǐng)域的應(yīng)用,還為開發(fā)能夠在復(fù)雜、多模態(tài)環(huán)境中進(jìn)行深度推理的更強(qiáng)大系統(tǒng)鋪平了道路,這將對(duì)從在線教育到科學(xué)研究的各種領(lǐng)域產(chǎn)生深遠(yuǎn)影響。
好文章,需要你的鼓勵(lì)
這項(xiàng)研究提出了"高效探測"方法,解決了掩碼圖像建模AI難以有效評(píng)估的問題。通過創(chuàng)新的多查詢交叉注意力機(jī)制,該方法在減少90%參數(shù)的同時(shí)實(shí)現(xiàn)10倍速度提升,在七個(gè)基準(zhǔn)測試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強(qiáng)相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊(duì)承諾開源全部代碼,推動(dòng)技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊(duì)開發(fā)了CLAIMSPECT系統(tǒng),通過層次化分解復(fù)雜爭議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點(diǎn)的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動(dòng)構(gòu)建爭議話題的分析框架,識(shí)別不同觀點(diǎn)及其支撐證據(jù),為科學(xué)和政治爭議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國際關(guān)系領(lǐng)域驗(yàn)證有效性。
清華大學(xué)研究團(tuán)隊(duì)首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類一樣理解和表達(dá)情感。該系統(tǒng)通過多層次情感處理架構(gòu),在情感識(shí)別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實(shí)現(xiàn)了跨模態(tài)情感融合、動(dòng)態(tài)情感追蹤和個(gè)性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊(duì)通過創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會(huì)復(fù)雜推理。研究發(fā)現(xiàn)AI通過游戲競爭能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項(xiàng)突破性成果為未來AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過模擬人類學(xué)習(xí)過程培養(yǎng)真正智能AI的新路徑。