這項由百度公司、南洋理工大學(xué)、小鵬汽車、中國人民大學(xué)和北京航空航天大學(xué)聯(lián)合開展的研究,發(fā)表于2025年8月,相關(guān)數(shù)據(jù)和代碼已在GitHub平臺公開(https://github.com/junfeng0288/MathReal)。有興趣深入了解的讀者可以通過論文預(yù)印本網(wǎng)站訪問完整研究內(nèi)容。
當(dāng)我們談?wù)撊斯ぶ悄苡卸嗦斆鲿r,經(jīng)常會聽到一些令人印象深刻的數(shù)字:某個AI模型在數(shù)學(xué)競賽中獲得了接近人類水平的成績,或者在標(biāo)準化測試中表現(xiàn)優(yōu)異。然而,當(dāng)你真的拿起手機拍下孩子的數(shù)學(xué)作業(yè),向AI求助時,結(jié)果往往讓人失望。這就像是一位在實驗室里表現(xiàn)完美的廚師,一旦走進真實的家庭廚房,面對各種不完美的食材和工具時,卻手忙腳亂起來。
這種差距的根本原因在于,現(xiàn)有的AI數(shù)學(xué)能力測試大多基于清晰、標(biāo)準化的圖片和文本,就像是在理想環(huán)境下進行的考試。而現(xiàn)實生活中,當(dāng)學(xué)生用手機拍攝作業(yè)題目時,照片往往是傾斜的、模糊的,或者有陰影遮擋。教科書頁面可能有折痕,習(xí)題冊上可能有手寫的答案和涂抹痕跡。這些"不完美"的真實條件,恰恰是AI在實際應(yīng)用中必須面對的挑戰(zhàn)。
研究團隊意識到了這個問題的重要性。他們發(fā)現(xiàn),盡管多模態(tài)大語言模型在各種數(shù)學(xué)推理基準測試中表現(xiàn)出色,但這些測試都基于經(jīng)過清理和處理的圖像輸入,很少考慮真實世界K-12教育用戶提供的圖像情況。當(dāng)學(xué)生們用手持移動設(shè)備拍攝教科書頁面或作業(yè)問題尋求幫助時,AI模型的表現(xiàn)往往大打折扣。
為了填補這一空白,研究團隊創(chuàng)建了MATHREAL數(shù)據(jù)集,這是一個包含2000道數(shù)學(xué)題的綜合測試平臺。這些題目全部來自真實的教育場景,每一張圖片都是用手機在自然條件下拍攝的。研究人員將這些真實世界的挑戰(zhàn)系統(tǒng)地分為三大類:圖像質(zhì)量退化、視角變化和無關(guān)內(nèi)容干擾,并進一步細化為14個子類別。
圖像質(zhì)量退化就像是在不同光線條件下拍照產(chǎn)生的問題。當(dāng)光線不足時,照片會變得模糊不清,就像在昏暗的房間里拍攝作業(yè)一樣。過度曝光會讓部分內(nèi)容看不清楚,就像在強烈陽光下拍照時產(chǎn)生的炫光。陰影覆蓋則像是有人的手或其他物體擋住了部分題目,造成內(nèi)容缺失。這些都是學(xué)生在日常拍攝作業(yè)時經(jīng)常遇到的情況。
視角變化涉及拍攝角度和方向的問題。旋轉(zhuǎn)是最常見的情況,學(xué)生可能無意中將手機傾斜了90度或180度來拍攝。平面內(nèi)傾斜指的是輕微的角度偏差,就像書本沒有完全放平時的效果。非平面拍攝則是當(dāng)書頁有彎曲或折疊時產(chǎn)生的透視扭曲。背景扭曲可能來自于紙張本身的彎曲變形,這些都會影響AI對內(nèi)容的準確識別。
無關(guān)內(nèi)容干擾則包含了各種可能出現(xiàn)在真實作業(yè)環(huán)境中的額外信息。手寫題目是指學(xué)生或老師用手寫形式添加的問題文字,這些手寫內(nèi)容的識別難度通常比印刷體要大得多。反面內(nèi)容是指紙張背面的文字或圖形透過來產(chǎn)生的干擾。題目標(biāo)記包括學(xué)生用筆圈出重要部分或做的各種記號。圖形標(biāo)記是在幾何圖形上添加的輔助線或注釋。對于選擇題,可能會有學(xué)生已經(jīng)填寫的手寫答案,而對于解答題,頁面上可能顯示完整的手寫解答過程。
這個數(shù)據(jù)集不僅僅是圖片的集合,更是一個完整的評估體系。每道題目都經(jīng)過專業(yè)標(biāo)注,包含五個核心知識和能力類別:平面幾何、立體幾何、邏輯推理、函數(shù)圖像和統(tǒng)計圖表。題目類型涵蓋了三種常見形式:選擇題、填空題和解答題。難度分為小學(xué)、初中和高中三個層次,確保能夠全面評估AI模型在不同教育階段的表現(xiàn)。
為了確保數(shù)據(jù)質(zhì)量,研究團隊建立了嚴格的三階段人工標(biāo)注流程。第一階段是重新篩選,確保每個樣本都包含單個完整的問題,且圖形對于解題是必需的。第二階段是對圖像條件進行詳細標(biāo)注,按照預(yù)定義的分類體系對每種真實世界場景類型進行分級。第三階段是問題級元數(shù)據(jù)標(biāo)注,包括問題內(nèi)容、類型、教育階段、知識類別、圖形描述和正確答案。所有標(biāo)注工作都經(jīng)過完全的人工驗證,確保最終數(shù)據(jù)集既反映了多樣化的真實世界條件,又保持了高質(zhì)量的語義和結(jié)構(gòu)標(biāo)準。
一、真實世界與理想測試的巨大差距
當(dāng)研究團隊使用MATHREAL對當(dāng)前最先進的AI模型進行測試時,結(jié)果令人震驚。即使是表現(xiàn)最好的模型Doubao-1.5-thinking-vision-pro,在相對簡單的K-12場景中也只達到了53.9%的準確率。這與這些模型在傳統(tǒng)數(shù)學(xué)基準測試中接近人類甚至競賽級別的表現(xiàn)形成了鮮明對比,凸顯了實際應(yīng)用能力的巨大差距。
這種差距就像是一個在標(biāo)準化考場中表現(xiàn)優(yōu)異的學(xué)生,突然被要求在嘈雜的環(huán)境中、使用不完整的材料來解決同樣的問題時,表現(xiàn)大幅下降。研究結(jié)果表明,現(xiàn)有的多模態(tài)大語言模型在面對真實教育場景時仍然遠未達到可靠應(yīng)用的水平。
更深入的分析顯示,這種性能下降主要源于三個方面的挑戰(zhàn)。首先是視覺感知能力的脆弱性。當(dāng)圖像出現(xiàn)模糊、傾斜或光線不均時,模型往往無法準確提取文字和識別幾何圖形。這就像是一個人戴著有度數(shù)偏差的眼鏡看書,基礎(chǔ)信息的獲取就出現(xiàn)了問題。
其次是多步推理的不穩(wěn)定性。研究發(fā)現(xiàn),即使模型能夠正確識別圖像內(nèi)容,在進行復(fù)雜的數(shù)學(xué)推理時也容易出錯。特別是對于需要多個步驟才能得出答案的問題,任何一個中間環(huán)節(jié)的小錯誤都可能導(dǎo)致最終結(jié)果的完全錯誤。
最后是對真實世界噪音的適應(yīng)性不足。傳統(tǒng)訓(xùn)練數(shù)據(jù)中的圖像大多經(jīng)過清理和標(biāo)準化處理,缺乏對各種真實世界干擾因素的充分訓(xùn)練。當(dāng)面對手寫標(biāo)記、陰影遮擋或背景干擾時,模型往往表現(xiàn)出明顯的不適應(yīng)。
二、不同類型問題的表現(xiàn)差異
研究團隊對不同類型問題的分析揭示了AI模型能力的微妙差異。在統(tǒng)計圖表類問題上,模型表現(xiàn)相對最好,最高準確率可達48.5%。這類問題通常具有結(jié)構(gòu)化的布局和相對清晰的幾何形狀,使得信息提取相對容易。就像是閱讀一份設(shè)計良好的信息圖表,即使在不完美的條件下也能獲取到主要信息。
相比之下,邏輯推理和函數(shù)圖像是最具挑戰(zhàn)性的類別。邏輯推理需要抽象的符號推斷能力,即使是頂級模型也只能達到39.1%的嚴格準確率。函數(shù)圖像問題則需要精確的空間對齊,將視覺特征與數(shù)學(xué)表達式準確匹配,這對當(dāng)前的AI技術(shù)來說仍然非常困難。
平面幾何和立體幾何的表現(xiàn)處于中等水平,但也暴露了模型在處理幾何關(guān)系時的局限性。特別是當(dāng)幾何圖形出現(xiàn)扭曲、部分遮擋或手繪標(biāo)記時,模型往往難以準確理解空間關(guān)系和角度信息。
在問題類型方面,填空題的整體表現(xiàn)最好,最高可達67.7%的準確率。這類問題通常有明確的數(shù)值答案,較少涉及復(fù)雜的文字表述。解答題的表現(xiàn)適中,頂級模型可達51.8%,但這類問題需要完整的推理鏈條和結(jié)構(gòu)化的答案組織。選擇題的表現(xiàn)最差,只有大約42%的上限,這可能是因為選擇題更依賴于精確的視覺識別來區(qū)分不同選項。
三、封閉源碼與開源模型的性能鴻溝
研究結(jié)果顯示,封閉源碼模型在所有評估指標(biāo)和任務(wù)類型上都顯著優(yōu)于開源模型,而這種性能差距在嘈雜的視覺輸入條件下進一步放大。在嚴格準確率指標(biāo)下,表現(xiàn)最好的封閉源碼模型Doubao-1.5-thinking-vision-pro達到了41.0%的平均準確率,而表現(xiàn)最好的開源模型ERNIE-4.5-Turbo-VL-Preview只達到17.1%,差距超過20個百分點。
這種差距背后反映了不同類型模型在設(shè)計理念和訓(xùn)練資源上的根本差異。封閉源碼模型通常擁有更大的計算資源、更精細的數(shù)據(jù)策展和更深度的工程優(yōu)化。它們在處理真實世界的視覺挑戰(zhàn)時表現(xiàn)出更強的魯棒性,能夠在一定程度上應(yīng)對圖像質(zhì)量下降、視角變化等問題。
開源模型雖然在透明度和可訪問性方面有優(yōu)勢,但在處理復(fù)雜的多模態(tài)任務(wù)時仍顯不足。特別是專門的推理模型,表現(xiàn)更加落后,最強的推理模型MiMo-VL-7B-RL在嚴格準確率下只達到13.5%,大多數(shù)其他推理模型都低于10%。這突出了將推理管道與魯棒視覺感知相結(jié)合的困難,也強調(diào)了封閉源碼模型中端到端、良好對齊架構(gòu)在處理真實世界視覺挑戰(zhàn)時的優(yōu)勢。
然而,研究也發(fā)現(xiàn)了一些有趣的例外情況。某些開源模型在特定類別上表現(xiàn)出色,比如InternVL-3-78B在邏輯推理方面達到了15.2%的成績,這在開源模型中是相當(dāng)不錯的表現(xiàn)。這表明通過針對性的優(yōu)化和訓(xùn)練,開源模型仍有進一步提升的空間。
四、OCR準確性與數(shù)學(xué)推理的關(guān)系
研究團隊設(shè)計了六種不同的實驗設(shè)置來系統(tǒng)分析模型的感知和推理能力。這些設(shè)置從純圖像輸入逐步過渡到提供人工標(biāo)注的問題文本和圖形描述,就像是為模型提供了不同程度的"輔助工具"。
結(jié)果顯示,模型性能在這些設(shè)置下表現(xiàn)出明顯的層次化提升。當(dāng)從純圖像輸入(I)切換到提供準確文本和圖形描述的設(shè)置(I+QG+DG)時,大多數(shù)模型的準確率都有顯著提升。例如,Grok-4模型從5.4%提升到57.7%,這種巨大的性能躍升表明該模型在純文本推理方面能力很強,但視覺感知環(huán)節(jié)存在嚴重瓶頸。
有趣的是,不同模型表現(xiàn)出了不同的能力特征。Claude-sonnet-4-thinking在OCR和圖形理解方面表現(xiàn)較弱,從I設(shè)置下的16.5%只提升到I+QM(模型自生成文本)下的15.6%,甚至在I+QM+DM(添加模型自生成圖形描述)下降至13.5%。只有在提供準確的人工標(biāo)注輸入時,性能才顯著提升,這表明該模型的視覺-文本提取能力較弱。
相比之下,Gemini-2.5-pro-thinking展現(xiàn)出更強的內(nèi)部感知能力。它從I設(shè)置下的51.1%穩(wěn)步提升到I+QM下的59.3%,再到I+QM+DM下的61.9%。即使在提供準確輸入的情況下,提升幅度相對較小,這表明該模型已經(jīng)具備了相對強大的內(nèi)部感知和理解能力。
這些發(fā)現(xiàn)揭示了當(dāng)前多模態(tài)模型的一個關(guān)鍵問題:大多數(shù)模型在處理清晰文本時表現(xiàn)良好,但從真實視覺輸入中進行魯棒提取和結(jié)構(gòu)化仍然是一個重大挑戰(zhàn)。這就像是一個優(yōu)秀的數(shù)學(xué)家,如果給他完整準確的題目描述,他能很好地解決問題,但如果讓他從模糊不清的照片中提取題目信息,就會遇到困難。
五、真實圖像與清潔圖像的對比實驗
為了量化圖像質(zhì)量對模型性能的具體影響,研究團隊選擇了175個問題,同時獲取了這些問題的真實拍攝版本和清潔版本進行對比測試。結(jié)果顯示,大多數(shù)模型在清潔圖像上的表現(xiàn)都有顯著提升,但不同模型的提升幅度差異很大。
Llama-4-Maverick模型表現(xiàn)出最大的性能差距,在清潔圖像上比真實圖像高出12.0個百分點。Claude-sonnet-4-thinking的差距也達到了11.8%,這表明視覺噪聲嚴重限制了這些模型在真實圖像上的性能。這種現(xiàn)象類似于某些人在安靜環(huán)境中能夠?qū)W⑺伎迹卩须s環(huán)境中就難以集中注意力。
然而,也有一些令人意外的發(fā)現(xiàn)。Doubao-1.5-thinking-vision-pro在真實圖像上的表現(xiàn)實際上比清潔圖像還要好0.21個百分點。這可能是因為該模型的視覺主干網(wǎng)絡(luò)在大量真實移動設(shè)備拍攝的數(shù)據(jù)上進行了充分訓(xùn)練,使其能夠利用真實世界的光照、陰影和紋理線索來更好地理解內(nèi)容。
具體的噪聲類型分析揭示了不同干擾因素的影響程度。模糊是最嚴重的問題,因為它會削弱OCR文本提取和精細視覺特征識別所需的高頻細節(jié)。旋轉(zhuǎn)會破壞空間對齊,迫使模型依賴隱式的幾何變換能力。有趣的是,圖形標(biāo)記和手寫答案干擾有時反而能帶來輕微的性能提升,這可能是因為這些標(biāo)記突出了關(guān)鍵區(qū)域或提供了解題線索。
六、錯誤模式的深入分析
研究團隊對兩個頂級模型Doubao-1.5-thinking-vision-pro和Gemini-2.5-pro-thinking各隨機抽取100個失敗案例進行詳細的錯誤分析,發(fā)現(xiàn)了一致的錯誤分布模式。推理錯誤占據(jù)了最大比例,超過三分之一,這表明即使在感知大致正確的情況下,模型仍經(jīng)常無法構(gòu)建有效的邏輯鏈條或應(yīng)用正確的數(shù)學(xué)原理。
視覺理解問題是另一個主要失敗來源。圖形感知錯誤和OCR錯誤合計占到40-50%的失敗案例,這反映了多模態(tài)數(shù)學(xué)任務(wù)對準確視覺解碼的強烈依賴。當(dāng)模型誤讀數(shù)字、錯誤解釋幾何結(jié)構(gòu)或忽略關(guān)鍵的視覺信息時,后續(xù)的推理過程即使完全正確也無法得出正確答案。
計算錯誤、幻覺錯誤和拒絕錯誤的出現(xiàn)頻率相對較低,但仍然值得關(guān)注?;糜X錯誤通常發(fā)生在模型編造不存在的數(shù)值或假設(shè)時,而拒絕錯誤反映了模型在面對不確定性時未能產(chǎn)生有意義答案的情況。
這種錯誤分布揭示了多模態(tài)數(shù)學(xué)推理的兩個主要挑戰(zhàn):在不完美輸入條件下的魯棒視覺理解,以及在嘈雜或模糊內(nèi)容上的一致多步推理。僅僅解決其中一個方面是不夠的,未來多模態(tài)大語言模型的進步需要在感知、解析和推理組件之間實現(xiàn)緊密集成的改進。
七、不同模型家族的特色表現(xiàn)
深入分析各個模型家族的表現(xiàn)特點,可以發(fā)現(xiàn)不同的技術(shù)路線和設(shè)計理念帶來的差異。Doubao家族在幾何和結(jié)構(gòu)化推理任務(wù)上表現(xiàn)出強大的能力,Doubao-1.5-thinking-vision-pro在平面幾何(43.3%)、立體幾何(43.2%)和統(tǒng)計圖表(48.5%)上都取得了最高的嚴格準確率,這表明其在需要空間理解和正式視覺解析的任務(wù)上具有優(yōu)勢。
在Doubao家族內(nèi)部,非思維版本Doubao-seed-1.6在某些抽象推理任務(wù)上反而超越了思維版本。在邏輯推理類別中,非思維版本達到32.6%,而思維版本只有17.4%,這表明更長的推理鏈條在視覺噪聲環(huán)境下可能反而會影響性能。這種現(xiàn)象類似于在嘈雜環(huán)境中,簡單直接的思考方式有時比復(fù)雜的分析更有效。
Gemini家族展現(xiàn)出一致強勁且平衡的性能。Gemini-2.5-pro-thinking在各項任務(wù)中都排名前列,在統(tǒng)計圖表上達到48.5%,在平面幾何和立體幾何上都超過40%。即使在最具挑戰(zhàn)性的邏輯推理類別中,它也達到了39.1%,顯示出穩(wěn)定的多模態(tài)推理能力。這種平衡性表明Gemini在不同類型的視覺-數(shù)學(xué)任務(wù)上都有良好的適應(yīng)性。
InternVL模型表現(xiàn)出了有趣的逆向擴展模式。InternVL-3-78B在邏輯推理方面取得了開源模型中的最佳成績(15.2%),但在統(tǒng)計圖表任務(wù)上卻不如InternVL-3-38B,這可能是由于過擬合或在更大規(guī)模下視覺泛化能力的退化。
Qwen2.5VL家族在結(jié)構(gòu)化視覺任務(wù)上表現(xiàn)出色。32B模型在函數(shù)圖像(18.6%)和統(tǒng)計圖表(30.3%)上領(lǐng)先,顯示出在視覺-文本對齊方面的優(yōu)勢。然而,擴展到72B時,特別是在復(fù)雜推理任務(wù)上,性能提升有限,這表明單純的模型規(guī)模擴大在處理真實世界視覺挑戰(zhàn)時可能存在收益遞減的問題。
八、嚴格評估揭示的推理穩(wěn)定性問題
研究采用了兩種評估標(biāo)準來全面衡量模型性能。寬松準確率允許部分正確,按照每個問題中正確回答的子問題比例計算。嚴格準確率則要求問題中的所有子答案都必須正確才能得分,任何一個子答案錯誤都會導(dǎo)致整個問題被標(biāo)記為錯誤。
這兩種評估方式之間的差距揭示了模型在多步推理中的穩(wěn)定性問題。許多在寬松評估下表現(xiàn)不錯的模型,在嚴格評估下出現(xiàn)顯著下降。例如,Gemini-2.5-pro-thinking在寬松準確率下達到48.1%,但在嚴格評估下下降到42.9%,反映出小的推理失誤或不完整的邏輯鏈條。
更明顯的例子是InternVL-3-14B,它在寬松準確率下達到19.0%,但嚴格準確率只有10.9%,差距超過8個百分點。這突出表明該模型在完整任務(wù)一致性方面存在困難,經(jīng)常能夠部分解決問題但無法完全正確。
嚴格評估標(biāo)準更好地反映了模型是否能夠完全解決多步驟問題的能力,這與教育標(biāo)準更加一致。在真實的教育場景中,部分正確的答案往往不能滿足學(xué)習(xí)需求,學(xué)生和教師需要的是完整、準確的解題過程。因此,嚴格評估揭示的推理穩(wěn)定性問題是現(xiàn)有模型需要重點改進的方向。
這種評估方式的對比也為模型改進提供了方向。那些在兩種評估方式下差距較小的模型,通常具有更穩(wěn)定的推理能力和更好的錯誤容忍性。而差距較大的模型,則需要重點提升推理鏈條的完整性和一致性。
研究結(jié)果表明,MATHREAL不僅提供了一個更真實的評估環(huán)境,也為多模態(tài)大語言模型在實際教育應(yīng)用中的部署指出了明確的改進方向。當(dāng)前的模型雖然在標(biāo)準化測試中表現(xiàn)出色,但在面對真實世界的復(fù)雜性和不確定性時,仍有很大的提升空間。
說到底,這項研究就像是給AI模型安排了一次"實戰(zhàn)考試",結(jié)果發(fā)現(xiàn)這些在"標(biāo)準考場"中表現(xiàn)優(yōu)異的模型,在面對真實世界的"野外環(huán)境"時還有很多不足。不過,這正是科學(xué)進步的價值所在,通過發(fā)現(xiàn)問題來推動技術(shù)的不斷改進。對于普通用戶來說,這意味著在使用AI輔導(dǎo)工具時,可能還需要一些耐心,同時也提醒我們,技術(shù)的發(fā)展是一個漸進的過程,真正實用的AI教育助手還需要更多的技術(shù)突破和優(yōu)化。
這項研究的意義不僅在于揭示了當(dāng)前AI技術(shù)的局限性,更在于為未來的改進方向提供了清晰的路線圖。相信隨著更多研究者關(guān)注這些實際應(yīng)用中的挑戰(zhàn),我們將看到更加實用和可靠的AI教育工具的出現(xiàn)。對于有興趣深入了解技術(shù)細節(jié)的讀者,可以通過GitHub平臺訪問完整的數(shù)據(jù)集和代碼,為這個重要的研究領(lǐng)域貢獻自己的力量。
Q&A
Q1:MATHREAL數(shù)據(jù)集和普通的AI數(shù)學(xué)測試有什么不同?
A:MATHREAL使用的是真實學(xué)生用手機拍攝的作業(yè)照片,包含模糊、傾斜、陰影等真實情況,而不是清晰的標(biāo)準化圖片。就像是讓AI在真實的"野外環(huán)境"而不是"標(biāo)準考場"中答題,更能反映實際使用中的表現(xiàn)。
Q2:為什么AI在真實拍攝的數(shù)學(xué)題上表現(xiàn)這么差?
A:主要有三個原因:首先是圖像質(zhì)量問題,模糊、傾斜的照片讓AI難以準確識別文字和圖形;其次是多步推理不穩(wěn)定,任何一個環(huán)節(jié)出錯都可能導(dǎo)致最終答案錯誤;最后是缺乏對真實世界噪音的適應(yīng)訓(xùn)練,AI習(xí)慣了清晰標(biāo)準的輸入。
Q3:這項研究對普通用戶使用AI學(xué)習(xí)工具有什么啟示?
A:研究表明目前的AI教育工具在處理手機拍攝的作業(yè)時還不夠可靠,準確率只有50%左右。用戶在使用時需要保持耐心,盡量提供清晰、正面拍攝的圖片,同時不要完全依賴AI答案,最好結(jié)合人工檢查。
好文章,需要你的鼓勵
浙江大學(xué)團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學(xué)競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓(xùn)練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團隊發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學(xué)習(xí)方法訓(xùn)練多個AI模型。實驗結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。