現(xiàn)代人工智能發(fā)展迅猛,尤其是以GPT-4o、Claude 3.7等為代表的多模態(tài)大語(yǔ)言模型(MLLMs)似乎已經(jīng)能夠解決奧林匹克級(jí)別的數(shù)學(xué)問(wèn)題。但2025年5月,由香港大學(xué)、密歇根大學(xué)、多倫多大學(xué)、滑鐵盧大學(xué)和俄亥俄州立大學(xué)的研究團(tuán)隊(duì)在arXiv預(yù)印本平臺(tái)發(fā)布的一項(xiàng)研究卻揭示了一個(gè)驚人的事實(shí):即便是最先進(jìn)的AI模型,在物理推理能力上與人類(lèi)專(zhuān)家相比仍有巨大差距。這項(xiàng)由Hui Shen、Taiqiang Wu等研究者領(lǐng)導(dǎo)的研究發(fā)表于arXiv:2505.15929v1,為我們展示了AI在"看懂"物理世界方面的現(xiàn)狀。
想象一下,當(dāng)你看到一個(gè)蘋(píng)果從樹(shù)上掉下來(lái),你自然會(huì)理解這是重力作用的結(jié)果。對(duì)人類(lèi)來(lái)說(shuō),這種物理直覺(jué)是與生俱來(lái)的,我們不需要明確地思考公式就能預(yù)測(cè)物體的運(yùn)動(dòng)。然而,AI模型在這方面的表現(xiàn)如何呢?研究團(tuán)隊(duì)創(chuàng)建了名為PHYX的基準(zhǔn)測(cè)試,專(zhuān)門(mén)評(píng)估模型對(duì)物理場(chǎng)景的理解能力。
PHYX不是簡(jiǎn)單的知識(shí)問(wèn)答,而是一個(gè)包含3000個(gè)精心設(shè)計(jì)的多模態(tài)物理問(wèn)題的綜合測(cè)試。這些問(wèn)題涵蓋了熱力學(xué)、電磁學(xué)、力學(xué)、現(xiàn)代物理學(xué)、光學(xué)以及波與聲學(xué)六大核心物理領(lǐng)域,分布在25個(gè)細(xì)分領(lǐng)域中。每個(gè)問(wèn)題都配有視覺(jué)場(chǎng)景,要求模型不僅要理解物理公式,還要將這些抽象的知識(shí)應(yīng)用到具體的視覺(jué)情境中。
舉個(gè)例子,一個(gè)典型的PHYX問(wèn)題可能會(huì)展示一個(gè)斜坡上的物體,并詢(xún)問(wèn)在特定條件下物體將如何運(yùn)動(dòng)。為了正確回答,AI需要識(shí)別圖像中的關(guān)鍵元素(如斜坡角度、物體質(zhì)量),應(yīng)用適當(dāng)?shù)奈锢矶桑ㄈ缗nD第二定律),進(jìn)行必要的計(jì)算,并給出準(zhǔn)確答案。這種推理過(guò)程結(jié)合了領(lǐng)域知識(shí)、符號(hào)推理和對(duì)現(xiàn)實(shí)世界約束的理解,比單純的數(shù)學(xué)計(jì)算要復(fù)雜得多。
研究團(tuán)隊(duì)對(duì)16個(gè)基礎(chǔ)模型進(jìn)行了全面評(píng)估,結(jié)果令人驚訝。即便是目前最先進(jìn)的多模態(tài)模型如GPT-4o、Claude 3.7-Sonnet和GPT-o4-mini,分別只達(dá)到了32.5%、42.2%和45.8%的準(zhǔn)確率。相比之下,人類(lèi)專(zhuān)家的表現(xiàn)至少在75.6%以上,最高可達(dá)78.9%。這意味著AI與人類(lèi)之間存在著至少29%的能力差距!
這種差距在不同物理領(lǐng)域表現(xiàn)不一。在波與聲學(xué)和力學(xué)領(lǐng)域,模型表現(xiàn)相對(duì)較好,這可能是因?yàn)檫@些問(wèn)題通常包含自然圖像,需要的推理步驟相對(duì)較少。而在熱力學(xué)和現(xiàn)代物理學(xué)領(lǐng)域,模型的表現(xiàn)普遍較差,這些領(lǐng)域的問(wèn)題往往需要更復(fù)雜的視覺(jué)感知和多步推理。
通過(guò)對(duì)96個(gè)錯(cuò)誤案例的深入分析,研究團(tuán)隊(duì)發(fā)現(xiàn)了當(dāng)前模型的三個(gè)關(guān)鍵缺陷。首先,視覺(jué)推理錯(cuò)誤(占39.6%)表明模型常常誤解視覺(jué)上下文,無(wú)法準(zhǔn)確提取和理解實(shí)際物理場(chǎng)景中的信息。其次,模型過(guò)度依賴(lài)詳細(xì)的文本描述,當(dāng)輸入從完整文本降為簡(jiǎn)化文本再到最小文本時(shí),性能顯著下降,表明它們未能有效利用視覺(jué)輸入進(jìn)行推理。最后,與數(shù)學(xué)推理相比,物理推理對(duì)模型來(lái)說(shuō)是更大的挑戰(zhàn),需要更好地整合抽象概念和現(xiàn)實(shí)世界知識(shí)。
研究者還發(fā)現(xiàn),即使是沒(méi)有直接視覺(jué)輸入的大語(yǔ)言模型(LLMs)如DeepSeek-R1和GPT-o3-mini,在獲得圖像描述后也能取得與多模態(tài)模型相當(dāng)?shù)谋憩F(xiàn)。這一發(fā)現(xiàn)既展示了LLMs令人印象深刻的泛化能力,也暴露了當(dāng)前MLLMs在利用原始視覺(jué)信號(hào)進(jìn)行物理推理方面的局限性。
值得注意的是,這項(xiàng)研究不僅指出了問(wèn)題,還提供了解決方案。研究團(tuán)隊(duì)實(shí)施了一個(gè)基于廣泛使用的工具包(如VLMEvalKit)的評(píng)估協(xié)議,支持一鍵式評(píng)估,極大地方便了未來(lái)研究者復(fù)現(xiàn)實(shí)驗(yàn)結(jié)果。
總的來(lái)說(shuō),PHYX基準(zhǔn)測(cè)試不僅是對(duì)當(dāng)前AI模型物理推理能力的全面評(píng)估,也為未來(lái)發(fā)展物理感知AI系統(tǒng)提供了清晰的路線圖。它揭示了AI從"看到"到"理解"物理世界的漫長(zhǎng)之路,同時(shí)也激勵(lì)研究者開(kāi)發(fā)能夠真正理解物理規(guī)律而非僅依靠表面模式匹配的AI系統(tǒng)。
隨著AI技術(shù)不斷發(fā)展,或許未來(lái)的模型能夠像人類(lèi)一樣自然地理解物理世界,但目前看來(lái),這一目標(biāo)仍有相當(dāng)長(zhǎng)的路要走。正如物理學(xué)家理查德·費(fèi)曼所言:"物理學(xué)是最基礎(chǔ)和最包羅萬(wàn)象的科學(xué)。"同樣,對(duì)物理世界的深入理解也可能是AI邁向真正智能的基礎(chǔ)和關(guān)鍵。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專(zhuān)家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專(zhuān)家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類(lèi)型問(wèn)題偏愛(ài)不同專(zhuān)家配置,為AI推理優(yōu)化開(kāi)辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。