在人工智能快速發(fā)展的今天,評(píng)估視頻大語(yǔ)言模型(Video LLMs)的能力變得越來越重要。然而,當(dāng)我們看到某個(gè)模型在視頻理解測(cè)試中獲得了高分時(shí),這真的意味著它理解了視頻中的動(dòng)態(tài)內(nèi)容嗎?2025年5月,蘋果公司的研究團(tuán)隊(duì)發(fā)表了一篇引人深思的論文,對(duì)現(xiàn)有的視頻評(píng)測(cè)基準(zhǔn)進(jìn)行了深入分析,揭示了許多令人意外的發(fā)現(xiàn)。
這項(xiàng)由蘋果公司的Bo Feng、Zhengfeng Lai、Shiyu Li、Zizhen Wang、Simon Wang、Ping Huang和Meng Cao共同完成的研究,發(fā)表于arXiv預(yù)印本平臺(tái)(arXiv:2505.14321v1)。他們指出,現(xiàn)有的視頻理解評(píng)測(cè)往往將知識(shí)型問題和純圖像型問題混為一談,而沒有明確地測(cè)試模型對(duì)視頻獨(dú)有的時(shí)序理解能力。
想象一下,如果你看一部電影,只看幾個(gè)靜止畫面和看完整的動(dòng)態(tài)影片是完全不同的體驗(yàn)。同樣,真正的視頻理解應(yīng)該依賴于對(duì)畫面序列變化的理解,而不僅僅是識(shí)別幾個(gè)關(guān)鍵幀中的內(nèi)容。然而,研究團(tuán)隊(duì)發(fā)現(xiàn),許多所謂的"視頻理解測(cè)試"實(shí)際上可以在不看視頻的情況下回答,或者即使打亂視頻幀的順序也能得到正確答案!
這就像是給學(xué)生一個(gè)關(guān)于歷史事件順序的考試,卻發(fā)現(xiàn)不管歷史事件如何排列,學(xué)生都能答對(duì)——這顯然無法測(cè)試學(xué)生對(duì)歷史發(fā)展脈絡(luò)的理解。研究團(tuán)隊(duì)針對(duì)這一問題,提出了一個(gè)名為VBenchComp的分析框架,它能自動(dòng)將視頻理解問題分為四類:語(yǔ)言模型可回答型(不需要看視頻)、語(yǔ)義型(即使打亂視頻幀也能回答)、時(shí)序型(必須理解正確的時(shí)間順序)以及其他類型。
研究團(tuán)隊(duì)用這個(gè)框架分析了市面上流行的視頻評(píng)測(cè)基準(zhǔn),發(fā)現(xiàn)了許多令人吃驚的結(jié)果。例如,在一些知名的視頻問答基準(zhǔn)中,高達(dá)30%的問題可以完全不看視頻就能回答正確!這就像是一場(chǎng)"開卷考試"被當(dāng)作了測(cè)試實(shí)際能力的"閉卷考試",自然無法真實(shí)反映模型的視頻理解能力。
讓我們一起深入探索這項(xiàng)研究的發(fā)現(xiàn),看看它如何幫助我們重新思考視頻人工智能的評(píng)估方式,以及未來應(yīng)該如何設(shè)計(jì)更好的評(píng)測(cè)基準(zhǔn)。
一、視頻大語(yǔ)言模型評(píng)測(cè)的現(xiàn)狀與挑戰(zhàn)
當(dāng)前的視頻大語(yǔ)言模型評(píng)測(cè)面臨著兩大關(guān)鍵挑戰(zhàn):計(jì)算資源消耗巨大和評(píng)測(cè)內(nèi)容存在偏差。
想象一下,如果你需要測(cè)試一款新手機(jī)的性能,卻發(fā)現(xiàn)測(cè)試過程要耗費(fèi)數(shù)百小時(shí)并占用大量電力,這顯然是不可持續(xù)的。視頻模型評(píng)測(cè)也面臨類似問題。研究團(tuán)隊(duì)統(tǒng)計(jì)發(fā)現(xiàn),要在七個(gè)常用的視頻問答基準(zhǔn)上評(píng)測(cè)一個(gè)參數(shù)量為2B的Qwen2-VL模型,需要消耗190.6個(gè)A100 GPU小時(shí)!如果是更大的72B模型,這個(gè)數(shù)字會(huì)飆升至491.9小時(shí)。這相當(dāng)于一臺(tái)高性能計(jì)算機(jī)不間斷工作20多天,消耗的電力足以供一個(gè)小型社區(qū)使用一天。
更令人擔(dān)憂的是評(píng)測(cè)內(nèi)容本身的問題。研究團(tuán)隊(duì)發(fā)現(xiàn)了兩個(gè)主要缺陷:一是強(qiáng)語(yǔ)言先驗(yàn)偏差,二是對(duì)順序打亂的不敏感性。
強(qiáng)語(yǔ)言先驗(yàn)偏差指的是模型可以不看視頻,僅依靠問題中的文字信息就能回答正確。比如,當(dāng)問到"奧運(yùn)會(huì)游泳比賽中,哪個(gè)項(xiàng)目最年長(zhǎng)的運(yùn)動(dòng)員獲得了金牌?"這類問題,模型可能根據(jù)自身訓(xùn)練時(shí)獲得的知識(shí)就能推測(cè)答案,根本不需要分析視頻內(nèi)容。這就像是在測(cè)試學(xué)生的歷史知識(shí),卻沒有檢查他們是否真的看了指定的歷史紀(jì)錄片。
對(duì)順序打亂的不敏感性則更加有趣。研究團(tuán)隊(duì)做了一個(gè)巧妙的實(shí)驗(yàn):他們將視頻的幀順序完全打亂,然后再讓模型回答問題。令人驚訝的是,對(duì)于很多問題,模型的表現(xiàn)幾乎不受影響!這表明這些問題主要測(cè)試的是對(duì)靜態(tài)內(nèi)容的理解,而非視頻獨(dú)有的時(shí)序信息。就像給你看一部電影的所有場(chǎng)景截圖,但完全打亂順序,你仍然能說出電影中有什么人物和物體,但很難理解故事情節(jié)的發(fā)展脈絡(luò)。
這些問題導(dǎo)致了一個(gè)嚴(yán)重的后果:現(xiàn)有的評(píng)測(cè)基準(zhǔn)可能顯著高估了模型的視頻理解能力。一個(gè)在這些基準(zhǔn)上得分很高的模型,可能實(shí)際上只是擅長(zhǎng)靜態(tài)圖像識(shí)別和利用語(yǔ)言知識(shí),而非真正理解視頻的動(dòng)態(tài)內(nèi)容。這就像是評(píng)價(jià)一個(gè)人的游泳能力,卻只測(cè)試他的理論知識(shí)和岸上動(dòng)作,而不是真正讓他下水游泳。
二、VBenchComp:一個(gè)新的分析框架
為了解決上述問題,研究團(tuán)隊(duì)提出了VBenchComp,這是一個(gè)自動(dòng)化的分析框架,可以將視頻問答基準(zhǔn)中的問題分為四個(gè)不同類別。這個(gè)框架就像是一個(gè)分類系統(tǒng),能夠揭示每個(gè)問題真正在測(cè)試什么能力。
首先是"語(yǔ)言模型可回答型"問題。想象你問一個(gè)人"太陽(yáng)系中最大的行星是什么?",即使不看任何視頻或圖片,只要有基本知識(shí),就能回答是"木星"。VBenchComp通過向GPT-4o和Gemini-1.5-Pro這樣的大型語(yǔ)言模型提問(不提供視頻)來識(shí)別這類問題。如果兩個(gè)模型都能正確回答,那么這個(gè)問題就被歸類為語(yǔ)言模型可回答型,意味著它主要測(cè)試的是語(yǔ)言知識(shí)而非視頻理解能力。
第二類是"語(yǔ)義型"問題。這類問題即使視頻幀順序被打亂也能回答正確。比如"視頻中的汽車儀表盤顯示的速度是多少?"只需要看清某一幀中的速度顯示,而不需要理解前后幀的關(guān)系。VBenchComp通過對(duì)視頻幀進(jìn)行隨機(jī)打亂,然后觀察模型回答是否保持一致來識(shí)別這類問題。
第三類是"時(shí)序型"問題,這才是真正測(cè)試視頻理解的核心部分。例如"視頻中物體是按什么順序出現(xiàn)的?"或"人物先做了什么動(dòng)作,然后做了什么?"。這類問題在視頻幀被打亂后,模型的回答會(huì)顯著改變。就像看一部劇情片,如果場(chǎng)景順序被打亂,你就無法理解故事的發(fā)展。
最后,那些不屬于前三類的問題被歸為"其他"類別。這可能包括需要音頻信息的問題,或者對(duì)當(dāng)前技術(shù)而言過于復(fù)雜的問題。
研究團(tuán)隊(duì)用這個(gè)框架分析了七個(gè)廣泛使用的視頻問答基準(zhǔn),包括LongVideoBench、Egoschema、NextQA、VideoMME、MLVU、LVBench和PerceptionTest。結(jié)果令人震驚:在NextQA基準(zhǔn)中,34.79%的問題屬于語(yǔ)言模型可回答型,37.63%屬于語(yǔ)義型,只有8.75%的問題真正測(cè)試了時(shí)序理解能力!這意味著超過70%的問題實(shí)際上沒有測(cè)試真正的視頻理解能力。
這就像是我們以為在評(píng)測(cè)一個(gè)人的游泳技術(shù),但實(shí)際上70%的測(cè)試項(xiàng)目是關(guān)于服裝選擇和游泳池邊站姿的知識(shí),只有不到10%真正測(cè)試了水中的游泳能力。這顯然不能全面反映一個(gè)人的游泳水平,同樣,這些基準(zhǔn)也不能真實(shí)反映模型的視頻理解能力。
三、驚人的實(shí)驗(yàn)發(fā)現(xiàn):沒看視頻也能答對(duì)?
研究團(tuán)隊(duì)進(jìn)行了一系列實(shí)驗(yàn),揭示了當(dāng)前視頻評(píng)測(cè)基準(zhǔn)的局限性。這些實(shí)驗(yàn)結(jié)果就像是魔術(shù)師揭秘表演的秘密,讓我們看到了臺(tái)面下的真相。
在第一個(gè)實(shí)驗(yàn)中,研究人員嘗試讓語(yǔ)言模型(如GPT-4o和Gemini-1.5-Pro)在完全沒有視頻輸入的情況下回答問題。結(jié)果發(fā)現(xiàn),這些模型在VideoMME和NExT-QA這樣的基準(zhǔn)上,竟然能達(dá)到高達(dá)50%的準(zhǔn)確率!這就像是一個(gè)從未看過足球比賽的人,卻能猜對(duì)一半關(guān)于比賽細(xì)節(jié)的問題,顯然不正常。
更令人吃驚的是,即使是開源的模型如PLLaVA-34B,也能在不看視頻的情況下在VideoMME上達(dá)到37.0%的準(zhǔn)確率。對(duì)于專門設(shè)計(jì)用來測(cè)試長(zhǎng)視頻理解的LongVideoBench,這些模型不看視頻也能達(dá)到35%以上的準(zhǔn)確率。
這些結(jié)果清晰地表明,很多所謂的"視頻理解問題"實(shí)際上可以通過語(yǔ)言知識(shí)或常識(shí)推理來回答,根本不需要分析視頻內(nèi)容。就像問"足球場(chǎng)上有幾名球員?",即使不看比賽,有基本常識(shí)的人也知道是22名。
在第二個(gè)實(shí)驗(yàn)中,研究團(tuán)隊(duì)測(cè)試了視頻幀打亂對(duì)模型表現(xiàn)的影響。他們選擇了多種代表性的視頻大語(yǔ)言模型,包括GPT-4o和Gemini-1.5-Pro這樣的閉源模型,SlowFast-LLaVA這樣的訓(xùn)練自由模型,PLLaVA這樣的LoRA微調(diào)模型,以及LLaVA-OneVision這樣的視頻專門訓(xùn)練模型。
實(shí)驗(yàn)結(jié)果再次令人震驚:無論是大型閉源模型還是開源模型,它們的表現(xiàn)在視頻幀被打亂后幾乎沒有變化!有時(shí)候,打亂幀順序后模型的表現(xiàn)反而提高了。例如,Gemini-1.5-Pro在幀打亂后在EgoSchema上的得分更高,GPT-4o在NExT-QA上也是如此。
這就好比你把一部電影的場(chǎng)景完全打亂順序放映,觀眾卻仍然能準(zhǔn)確回答關(guān)于電影內(nèi)容的問題,甚至比正常放映時(shí)回答得更好——這顯然說明這些問題主要測(cè)試的是對(duì)靜態(tài)內(nèi)容的理解,而非對(duì)情節(jié)發(fā)展的理解。
這些實(shí)驗(yàn)結(jié)果共同表明,當(dāng)前的視頻評(píng)測(cè)基準(zhǔn)可能會(huì)產(chǎn)生誤導(dǎo)性的結(jié)論。一個(gè)在這些基準(zhǔn)上得分很高的模型,可能主要是因?yàn)樗袕?qiáng)大的語(yǔ)言知識(shí)和靜態(tài)圖像理解能力,而非真正掌握了視頻的時(shí)序理解能力。這就像用識(shí)別食材的能力來評(píng)價(jià)一個(gè)廚師,而不是看他實(shí)際烹飪出的菜肴品質(zhì)。
四、用VBenchComp評(píng)測(cè)現(xiàn)有模型:揭示真相
當(dāng)研究團(tuán)隊(duì)使用VBenchComp框架對(duì)現(xiàn)有的視頻大語(yǔ)言模型進(jìn)行評(píng)測(cè)時(shí),他們發(fā)現(xiàn)了傳統(tǒng)評(píng)分無法反映的細(xì)微差異。這就像是用高精度儀器重新測(cè)量運(yùn)動(dòng)員的成績(jī),揭示出了計(jì)時(shí)表無法捕捉的微小差距。
以Qwen2-VL-7B和LLaVA-Video-7B兩個(gè)模型在Egoschema基準(zhǔn)上的表現(xiàn)為例。從傳統(tǒng)的總體得分來看,Qwen2-VL-7B略微領(lǐng)先(65.8%對(duì)61.8%)。但是,當(dāng)我們使用VBenchComp分類后查看詳細(xì)得分,真相浮出水面:Qwen2-VL-7B在語(yǔ)言模型可回答型問題上的表現(xiàn)明顯優(yōu)于LLaVA-Video-7B(85.0%對(duì)72.2%),而在語(yǔ)義問題上兩者表現(xiàn)相似。然而,在最關(guān)鍵的時(shí)序型問題上,Qwen2-VL-7B反而落后于LLaVA-Video-7B(37.8%對(duì)46.7%)。
這表明Qwen2-VL-7B的總體優(yōu)勢(shì)主要來自其更強(qiáng)的語(yǔ)言模型能力,而非更好的視頻理解能力。這就像兩位運(yùn)動(dòng)員進(jìn)行全能比賽,一位因?yàn)樵诶碚撝R(shí)環(huán)節(jié)的出色表現(xiàn)而獲得總冠軍,但在實(shí)際運(yùn)動(dòng)技能環(huán)節(jié)卻表現(xiàn)不如對(duì)手。
在VideoMME基準(zhǔn)上,情況則完全相反。LLaVA-Video-7B不僅在總體得分上領(lǐng)先(63.9%對(duì)60.6%),而且在視覺相關(guān)的兩個(gè)維度上都表現(xiàn)更好:語(yǔ)義理解(82.0%對(duì)78.4%)和時(shí)序理解(42.6%對(duì)36.7%)。這表明LLaVA-Video-7B確實(shí)擁有更強(qiáng)的視覺和時(shí)序理解能力,而不僅僅是語(yǔ)言知識(shí)。
這些分析結(jié)果揭示了傳統(tǒng)單一總分評(píng)價(jià)方式的局限性。就像一個(gè)學(xué)生的總分可能掩蓋了他在某些關(guān)鍵科目上的不足,傳統(tǒng)的視頻理解評(píng)分也可能掩蓋模型在時(shí)序理解等核心能力上的差距。只有通過VBenchComp這樣的細(xì)粒度分析,我們才能發(fā)現(xiàn)這些關(guān)鍵差異,從而更好地指導(dǎo)下一代視頻大語(yǔ)言模型的開發(fā)。
研究團(tuán)隊(duì)還基于上述分析,提出了一個(gè)簡(jiǎn)化的評(píng)測(cè)方法:VBenchComp分?jǐn)?shù)。這個(gè)分?jǐn)?shù)只考慮語(yǔ)義型和時(shí)序型問題,忽略那些語(yǔ)言模型可回答型和其他類型的問題。盡管這樣減少了近50%的問題數(shù)量,但模型的排名與使用全部問題時(shí)幾乎保持一致。這表明這些精選的問題足以保留基準(zhǔn)的區(qū)分能力,同時(shí)大大減少了評(píng)測(cè)的計(jì)算成本。
這就像是從一套完整的考試中篩選出最具代表性的題目,既能準(zhǔn)確反映學(xué)生的能力水平,又能節(jié)省考試時(shí)間和資源。這對(duì)于資源有限的研究團(tuán)隊(duì)和企業(yè)來說,無疑是一個(gè)實(shí)用的解決方案。
五、對(duì)未來視頻理解評(píng)測(cè)的啟示
這項(xiàng)研究不僅揭示了當(dāng)前視頻評(píng)測(cè)基準(zhǔn)的問題,還為未來設(shè)計(jì)更好的評(píng)測(cè)提供了寶貴啟示。就像醫(yī)生不僅指出疾病,還提供治療方案一樣,研究團(tuán)隊(duì)不僅分析了問題,還提出了改進(jìn)建議。
首先,未來的視頻評(píng)測(cè)基準(zhǔn)應(yīng)該更加注重時(shí)序理解能力的測(cè)試。這意味著設(shè)計(jì)更多真正需要理解視頻動(dòng)態(tài)內(nèi)容的問題,例如事件順序、因果關(guān)系、狀態(tài)變化等。這就像測(cè)試一個(gè)人的閱讀理解能力,應(yīng)該問"故事情節(jié)如何發(fā)展",而不是"文章中提到了哪些人名"。
其次,評(píng)測(cè)基準(zhǔn)應(yīng)該減少對(duì)語(yǔ)言先驗(yàn)知識(shí)的依賴。問題應(yīng)該設(shè)計(jì)成無法僅憑常識(shí)或背景知識(shí)回答,必須依靠視頻內(nèi)容才能得出正確答案。這就像設(shè)計(jì)一個(gè)化學(xué)實(shí)驗(yàn)考試,問題應(yīng)該基于學(xué)生實(shí)際觀察到的實(shí)驗(yàn)現(xiàn)象,而不是能從教科書中直接找到答案的理論知識(shí)。
第三,評(píng)測(cè)結(jié)果應(yīng)該提供更細(xì)粒度的分析,而不僅僅是一個(gè)總分。像VBenchComp這樣的框架可以幫助研究人員了解模型在不同類型問題上的表現(xiàn),從而更有針對(duì)性地改進(jìn)模型設(shè)計(jì)。這就像一份詳細(xì)的健康報(bào)告,不僅告訴你整體健康狀況,還詳細(xì)列出各項(xiàng)指標(biāo),幫助你有針對(duì)性地改善。
最后,研究團(tuán)隊(duì)建議未來的視頻評(píng)測(cè)應(yīng)考慮計(jì)算效率。通過精心設(shè)計(jì)問題集,可以在減少計(jì)算資源消耗的同時(shí),保持評(píng)測(cè)的區(qū)分能力。這就像設(shè)計(jì)一個(gè)簡(jiǎn)短但高效的體能測(cè)試,能在短時(shí)間內(nèi)準(zhǔn)確評(píng)估一個(gè)人的整體體能水平。
值得注意的是,VBenchComp雖然是一個(gè)強(qiáng)大的分析工具,但也有其局限性。它嚴(yán)重依賴GPT-4o和Gemini等大型語(yǔ)言模型的判斷,這可能引入這些模型自身的偏見。此外,VBenchComp主要關(guān)注問答任務(wù),如何將這一框架擴(kuò)展到其他視頻理解任務(wù)(如視頻描述、檢索或標(biāo)注)仍是未來研究的重要方向。
六、結(jié)論:重新思考視頻AI的評(píng)測(cè)方式
這項(xiàng)由蘋果公司研究團(tuán)隊(duì)完成的工作,為我們重新思考視頻AI的評(píng)測(cè)方式提供了重要啟示。就像重新校準(zhǔn)測(cè)量?jī)x器一樣,這項(xiàng)研究幫助我們看清了當(dāng)前評(píng)測(cè)系統(tǒng)的盲點(diǎn)和偏差。
歸根結(jié)底,真正的視頻理解應(yīng)該包括對(duì)動(dòng)態(tài)內(nèi)容的理解,而不僅僅是靜態(tài)圖像的識(shí)別或基于語(yǔ)言知識(shí)的推理。當(dāng)前的評(píng)測(cè)基準(zhǔn)在這方面存在明顯不足,往往高估了模型的視頻理解能力。VBenchComp框架通過將問題分為語(yǔ)言模型可回答型、語(yǔ)義型、時(shí)序型和其他類型,幫助我們更清晰地了解模型的真實(shí)能力。
這項(xiàng)研究的意義不僅在于揭示問題,更在于推動(dòng)解決方案。通過提供一個(gè)更細(xì)致、更準(zhǔn)確的評(píng)測(cè)框架,研究團(tuán)隊(duì)為開發(fā)更強(qiáng)大的視頻理解模型鋪平了道路。未來的視頻大語(yǔ)言模型不應(yīng)只專注于提高總體得分,而應(yīng)該更加重視時(shí)序理解能力的提升。
對(duì)于普通用戶來說,這項(xiàng)研究提醒我們?cè)谑褂靡曨lAI工具時(shí)保持理性判斷。當(dāng)AI助手聲稱能"理解"視頻內(nèi)容時(shí),它可能主要是在識(shí)別視頻中的靜態(tài)元素和利用語(yǔ)言知識(shí)進(jìn)行推理,而非真正理解視頻的動(dòng)態(tài)內(nèi)容。
最后,這項(xiàng)研究也啟示我們,技術(shù)評(píng)估需要不斷進(jìn)化和完善。隨著AI技術(shù)的飛速發(fā)展,我們的評(píng)測(cè)方法也需要持續(xù)更新,才能準(zhǔn)確反映技術(shù)的真實(shí)水平。就像體育比賽規(guī)則會(huì)隨著運(yùn)動(dòng)員水平的提高而調(diào)整一樣,AI評(píng)測(cè)基準(zhǔn)也需要隨著技術(shù)進(jìn)步而升級(jí)。
未來,我們可以期待看到更多像VBenchComp這樣的創(chuàng)新評(píng)測(cè)框架,幫助我們更準(zhǔn)確地了解AI系統(tǒng)的能力和局限,從而推動(dòng)AI技術(shù)朝著更有意義的方向發(fā)展。
想深入了解這項(xiàng)研究的讀者,可以通過arXiv:2505.14321v1查閱完整論文。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。