這項(xiàng)由北京大學(xué)物理學(xué)院師生團(tuán)隊(duì)聯(lián)合開發(fā)的研究成果于2025年5月發(fā)表,論文標(biāo)題為"PHYBench: Holistic Evaluation of Physical Perception and Reasoning in Large Language Models"。該研究構(gòu)建了首個(gè)專門評(píng)估AI大語(yǔ)言模型物理推理能力的基準(zhǔn)測(cè)試,有興趣深入了解的讀者可以通過https://www.phybench.cn/訪問完整數(shù)據(jù)集和研究成果。
當(dāng)我們談?wù)撊斯ぶ悄艿臅r(shí)候,經(jīng)常會(huì)聽到一些令人印象深刻的成就:AI能寫詩(shī)、能畫畫、能編程,甚至在某些考試中表現(xiàn)得比人類還要出色。然而,當(dāng)北京大學(xué)物理學(xué)院的研究團(tuán)隊(duì)讓目前最先進(jìn)的AI模型去解決一些物理問題時(shí),結(jié)果卻讓人大跌眼鏡。就連被譽(yù)為最強(qiáng)大的Gemini 2.5 Pro模型,在面對(duì)這些物理題目時(shí),準(zhǔn)確率也只有可憐的36.9%,而人類專家的平均準(zhǔn)確率卻達(dá)到了61.9%。
這個(gè)發(fā)現(xiàn)揭示了當(dāng)前AI技術(shù)一個(gè)重要的盲點(diǎn):盡管這些模型在很多任務(wù)上表現(xiàn)優(yōu)異,但在需要深度物理理解和復(fù)雜推理的場(chǎng)景中,它們的表現(xiàn)仍然遠(yuǎn)不如人類。這就好比一個(gè)背書很厲害的學(xué)生,在面對(duì)需要真正理解和應(yīng)用物理原理的綜合題時(shí),就露出了馬腳。
為了深入探究這個(gè)問題,北京大學(xué)的研究團(tuán)隊(duì)開發(fā)了一個(gè)名為PHYBench的評(píng)測(cè)基準(zhǔn)。這個(gè)基準(zhǔn)包含了500道精心設(shè)計(jì)的物理題目,難度從高中物理一直延伸到物理奧林匹克競(jìng)賽水平。更重要的是,這些題目都是全新創(chuàng)作的,確保AI模型在訓(xùn)練過程中從未見過這些內(nèi)容,從而避免了"題海戰(zhàn)術(shù)"帶來的虛假表現(xiàn)。
研究團(tuán)隊(duì)總共動(dòng)員了178名北京大學(xué)物理學(xué)院的學(xué)生參與題目的編寫、審核和完善工作。這個(gè)過程就像是精心打造一把測(cè)量AI真實(shí)能力的"尺子"。每道題目都經(jīng)過了多輪嚴(yán)格的質(zhì)量控制,確保問題表述清晰、答案唯一、可以通過物理原理求解。最終,從757道候選題目中篩選出了500道最高質(zhì)量的題目,篩選率達(dá)到66.1%。
更有趣的是,研究團(tuán)隊(duì)還發(fā)明了一種新的評(píng)分方法,叫做"表達(dá)式編輯距離分?jǐn)?shù)"(EED Score)。傳統(tǒng)的評(píng)測(cè)方法只看答案對(duì)錯(cuò),就像考試只給滿分或零分。而這種新方法能夠識(shí)別出答案中的部分正確性,就好比老師不僅看最終答案,還會(huì)根據(jù)解題過程給分。這種評(píng)分方法的效率比傳統(tǒng)方法提高了204%,能夠更精確地區(qū)分不同模型的能力差異。
一、當(dāng)AI遇到物理學(xué):一場(chǎng)意料之外的"滑鐵盧"
當(dāng)研究團(tuán)隊(duì)開始測(cè)試各種AI模型時(shí),結(jié)果確實(shí)令人意外。在這場(chǎng)"物理大考"中,即使是目前被認(rèn)為最強(qiáng)大的推理模型,表現(xiàn)也只能用"差強(qiáng)人意"來形容。Gemini 2.5 Pro作為最佳表現(xiàn)者,36.9%的準(zhǔn)確率聽起來不算太糟,但考慮到人類專家61.9%的表現(xiàn),這個(gè)差距就顯得相當(dāng)明顯了。
其他知名模型的表現(xiàn)更是讓人大跌眼鏡。比如OpenAI的o4-mini模型準(zhǔn)確率只有29.4%,而一些規(guī)模較小的32B參數(shù)模型,如QwQ-32B和DeepSeek-R1-Distill-Qwen-32B,準(zhǔn)確率甚至只有1.2%和2.6%。這就好比讓一群平時(shí)成績(jī)不錯(cuò)的學(xué)生去參加物理競(jìng)賽,結(jié)果發(fā)現(xiàn)大部分人連及格線都達(dá)不到。
這種表現(xiàn)差距并不是偶然的。研究發(fā)現(xiàn),PHYBench中的題目需要模型生成平均超過10,000個(gè)字符的推理過程,遠(yuǎn)遠(yuǎn)超過其他基準(zhǔn)測(cè)試的要求。這說明物理推理確實(shí)需要更長(zhǎng)的思維鏈條和更復(fù)雜的邏輯關(guān)系。
更加值得關(guān)注的是,這些AI模型在其他著名的推理基準(zhǔn)測(cè)試中表現(xiàn)都相當(dāng)不錯(cuò)。比如DeepSeek-R1在MATH-500數(shù)據(jù)集上能達(dá)到97.3%的準(zhǔn)確率,在AIME 2024上也有79.8%的表現(xiàn)。但一到PHYBench這里,成績(jī)就直線下滑。這種反差揭示了一個(gè)重要問題:目前的AI模型可能更擅長(zhǎng)解決那些有固定模式的數(shù)學(xué)題目,而在需要真正理解物理概念和靈活應(yīng)用物理原理的場(chǎng)景中,它們就顯得力不從心了。
研究團(tuán)隊(duì)通過對(duì)比不同基準(zhǔn)測(cè)試的特點(diǎn)發(fā)現(xiàn),PHYBench的獨(dú)特之處在于它要求模型具備真正的物理感知和推理能力。每道題目都描述了一個(gè)具體的物理場(chǎng)景,模型需要從文字描述中構(gòu)建出正確的物理圖像,然后選擇合適的物理定律,最后通過復(fù)雜的數(shù)學(xué)推導(dǎo)得出答案。這個(gè)過程就像是要求AI成為一個(gè)真正的物理學(xué)家,而不僅僅是一個(gè)會(huì)做題的機(jī)器。
二、深入解剖:AI在物理推理中的兩大"軟肋"
為了找出AI模型在物理推理中的具體問題所在,研究團(tuán)隊(duì)進(jìn)行了一次"解剖手術(shù)"式的詳細(xì)分析。他們發(fā)現(xiàn),AI的錯(cuò)誤主要集中在兩個(gè)關(guān)鍵環(huán)節(jié):物理感知(Physical Perception,簡(jiǎn)稱PP)和穩(wěn)健推理(Robust Reasoning,簡(jiǎn)稱RR)。
物理感知就像是人類看到一道物理題時(shí),首先要在腦海中構(gòu)建出這個(gè)物理場(chǎng)景的"心理模型"。比如看到"三個(gè)小球用繩子串聯(lián)懸掛"這樣的描述,人類會(huì)自然而然地想象出具體的空間布局、受力情況和運(yùn)動(dòng)狀態(tài)。而穩(wěn)健推理則是在正確理解物理場(chǎng)景的基礎(chǔ)上,能夠選擇合適的物理定律,建立正確的方程組,并且在漫長(zhǎng)的推導(dǎo)過程中保持邏輯的一致性。
有趣的是,研究發(fā)現(xiàn)大多數(shù)AI模型的問題并不出現(xiàn)在物理感知階段。數(shù)據(jù)顯示,超過90%的錯(cuò)誤都發(fā)生在穩(wěn)健推理環(huán)節(jié)。這意味著AI模型通常能夠正確理解題目描述的物理場(chǎng)景,但在隨后的推理過程中卻頻頻出錯(cuò)。這就好比一個(gè)學(xué)生能夠正確理解題目在問什么,但在解題過程中總是算錯(cuò)或者用錯(cuò)公式。
進(jìn)一步的分析顯示,在穩(wěn)健推理的錯(cuò)誤中,超過90%屬于"語(yǔ)義推理"錯(cuò)誤,而不是"符號(hào)推理"錯(cuò)誤。語(yǔ)義推理指的是從物理原理出發(fā)推導(dǎo)出新的方程,而符號(hào)推理則是對(duì)已有方程進(jìn)行數(shù)學(xué)變換。這個(gè)發(fā)現(xiàn)很有啟發(fā)性:AI模型在純數(shù)學(xué)運(yùn)算方面表現(xiàn)還不錯(cuò),但在需要物理直覺和概念理解的地方就容易犯錯(cuò)。
比如,在一道涉及角動(dòng)量守恒的題目中,AI模型可能會(huì)錯(cuò)誤地假設(shè)系統(tǒng)角動(dòng)量守恒,即使題目中明確存在外力矩。又比如在電磁學(xué)問題中,模型可能會(huì)錯(cuò)誤地應(yīng)用某個(gè)定律的適用條件。這些錯(cuò)誤表明,AI模型雖然"記住"了很多物理公式和定律,但對(duì)于這些定律的適用條件和物理意義的理解還很膚淺。
三、"表面功夫"還是"真才實(shí)學(xué)":AI推理能力的深度測(cè)試
研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)特別巧妙的實(shí)驗(yàn)來檢驗(yàn)AI模型的推理是否真的可靠,還是只是"表面功夫"。他們?cè)谡_的解題過程中故意植入一些錯(cuò)誤,然后看模型是否能夠發(fā)現(xiàn)并糾正這些錯(cuò)誤。這就像是在正確的菜譜中故意寫錯(cuò)一個(gè)步驟,然后看廚師是否能發(fā)現(xiàn)問題。
實(shí)驗(yàn)結(jié)果揭示了一個(gè)令人擔(dān)憂的現(xiàn)象:大部分AI模型都表現(xiàn)出了"表面推理"的特征。當(dāng)遇到已經(jīng)包含錯(cuò)誤的推理過程時(shí),它們往往會(huì)盲目地繼續(xù)錯(cuò)誤的路線,而不是發(fā)現(xiàn)并糾正錯(cuò)誤。這就好比一個(gè)學(xué)生看到前面有人解錯(cuò)了題,不僅沒有發(fā)現(xiàn)錯(cuò)誤,反而按照錯(cuò)誤的思路繼續(xù)往下推導(dǎo)。
研究團(tuán)隊(duì)將AI模型的表現(xiàn)分為三個(gè)層次。最低層次是"表面推理",模型會(huì)盲目地延續(xù)錯(cuò)誤的推理過程,對(duì)植入的錯(cuò)誤毫無察覺。中等層次是"偽真實(shí)推理",模型能夠通過一些機(jī)械的檢查方法(比如量綱分析)發(fā)現(xiàn)明顯的錯(cuò)誤,但對(duì)于更深層的概念性錯(cuò)誤仍然無能為力。最高層次是"真實(shí)推理",模型能夠通過物理直覺和概念理解發(fā)現(xiàn)并糾正各種類型的錯(cuò)誤。
測(cè)試結(jié)果顯示,即使是表現(xiàn)最好的模型,大部分情況下也只能達(dá)到"偽真實(shí)推理"的水平。它們雖然能發(fā)現(xiàn)一些明顯的錯(cuò)誤,但這種能力更多來自于機(jī)械的規(guī)則檢查,而不是真正的物理理解。當(dāng)面對(duì)更加微妙的概念性錯(cuò)誤時(shí),這些模型就顯得無能為力了。
這個(gè)發(fā)現(xiàn)對(duì)于AI的發(fā)展具有重要意義。它表明,當(dāng)前的AI模型雖然在許多任務(wù)上表現(xiàn)出色,但它們的"推理"很可能更多是模式匹配和規(guī)則應(yīng)用,而不是真正的理解和推理。這就像是一個(gè)人能夠背誦很多詩(shī)詞,但并不真正理解其中的意境和情感。
四、數(shù)字背后的故事:詳細(xì)的性能分析
在這場(chǎng)AI與物理的較量中,數(shù)字本身就講述了一個(gè)引人深思的故事。研究團(tuán)隊(duì)不僅測(cè)試了模型的準(zhǔn)確率,還深入分析了它們?cè)诓煌矫娴谋憩F(xiàn)差異。
首先是輸出長(zhǎng)度的對(duì)比。在PHYBench上,AI模型平均需要生成超過10,000個(gè)字符的推理過程,這遠(yuǎn)遠(yuǎn)超過了其他基準(zhǔn)測(cè)試的要求。相比之下,在MATH-500上只需要1,857個(gè)字符,在GPQA上需要6,308個(gè)字符。這個(gè)差異說明了物理推理的復(fù)雜性:它不僅需要正確的答案,更需要完整的推理鏈條。
更有趣的是推理模型和通用模型之間的表現(xiàn)差異。在PHYBench上,專門針對(duì)推理優(yōu)化的模型(如DeepSeek-R1、o3系列)明顯優(yōu)于通用模型(如GPT-4o、Claude),這種差異比在其他基準(zhǔn)測(cè)試上更加明顯。這說明物理推理確實(shí)需要更強(qiáng)的邏輯思維能力,而不僅僅是記憶和模式識(shí)別。
研究團(tuán)隊(duì)還進(jìn)行了"測(cè)試時(shí)擴(kuò)展"實(shí)驗(yàn),讓模型對(duì)同一道題目嘗試多次,然后取最好的結(jié)果。結(jié)果顯示,隨著嘗試次數(shù)的增加,模型的表現(xiàn)確實(shí)有所提升,但這種提升有明顯的上限。比如Gemini 2.5 Pro從單次嘗試的36.9%準(zhǔn)確率可以提升到多次嘗試后的大約75%,但仍然難以達(dá)到人類專家的水平。
這種現(xiàn)象類似于讓一個(gè)學(xué)生反復(fù)做同一道題,雖然可能會(huì)偶然做對(duì),但這并不代表真正掌握了解題方法。更重要的是,當(dāng)使用"多數(shù)投票"的方式(即選擇多次嘗試中出現(xiàn)頻率最高的答案)時(shí),模型的提升非常有限,這進(jìn)一步證明了它們?nèi)狈Ψ€(wěn)定的推理能力。
五、EED評(píng)分系統(tǒng):讓評(píng)價(jià)更加精準(zhǔn)和公平
傳統(tǒng)的評(píng)分方法就像是非黑即白的判斷:答案對(duì)了就是滿分,錯(cuò)了就是零分。但這種方法在評(píng)價(jià)復(fù)雜推理任務(wù)時(shí)顯得過于粗糙。北京大學(xué)的研究團(tuán)隊(duì)開發(fā)的EED評(píng)分系統(tǒng)就像是一個(gè)更加細(xì)致的老師,能夠識(shí)別出學(xué)生答案中的部分正確性。
EED的工作原理可以用修改文檔的過程來比喻。如果把正確答案和模型生成的答案都看作是數(shù)學(xué)表達(dá)式的"家族樹",那么EED就是計(jì)算把一棵樹改造成另一棵樹需要多少步操作。操作越少,說明兩個(gè)答案越相似,得分就越高。
比如,如果正確答案是"2mg + 4mv?/l",而模型給出的答案是"2mg + 2mv?/l",傳統(tǒng)方法會(huì)認(rèn)為這是完全錯(cuò)誤的,給零分。但EED系統(tǒng)會(huì)發(fā)現(xiàn)這個(gè)答案在結(jié)構(gòu)上基本正確,只是系數(shù)有誤,因此會(huì)給出一個(gè)中等分?jǐn)?shù),比如47分(滿分100分)。
這種評(píng)分方法的優(yōu)勢(shì)在數(shù)據(jù)上得到了充分體現(xiàn)。研究發(fā)現(xiàn),使用EED評(píng)分的500道題目能夠提供的區(qū)分度,相當(dāng)于使用傳統(tǒng)二元評(píng)分的1500道題目。換句話說,EED評(píng)分將評(píng)測(cè)效率提高了204%。這意味著研究人員可以用更少的題目獲得更可靠的評(píng)測(cè)結(jié)果。
EED系統(tǒng)還考慮了物理公式的特殊性。在物理學(xué)中,一個(gè)完整的表達(dá)式往往包含多個(gè)具有不同物理意義的項(xiàng)。比如電勢(shì)公式可能包含外電場(chǎng)項(xiàng)、電荷分布項(xiàng)和電偶極子項(xiàng)。如果模型只算對(duì)了其中一部分,EED系統(tǒng)會(huì)給予相應(yīng)的部分分?jǐn)?shù),而不是簡(jiǎn)單地判定為錯(cuò)誤。
六、人類專家vs AI:差距究竟在哪里
為了建立可靠的比較基準(zhǔn),研究團(tuán)隊(duì)邀請(qǐng)了81名北京大學(xué)物理學(xué)院的學(xué)生參與測(cè)試,其中50名是中國(guó)物理奧林匹克競(jìng)賽的金牌獲得者。這些人類專家的平均準(zhǔn)確率達(dá)到61.9%,EED分?jǐn)?shù)為70.4分,遠(yuǎn)超目前最好的AI模型。
更值得注意的是,人類專家成績(jī)的上四分位數(shù)達(dá)到了71.4%的準(zhǔn)確率和80.4的EED分?jǐn)?shù),這表明確實(shí)有相當(dāng)一部分人類專家能夠穩(wěn)定地解決這些問題。這與AI模型的表現(xiàn)形成了鮮明對(duì)比:即使是最好的AI模型,其表現(xiàn)也存在較大的不穩(wěn)定性。
通過分析人類專家和AI模型的解題過程,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)關(guān)鍵差異:人類在解題過程中會(huì)不斷進(jìn)行自我檢查和糾錯(cuò),而AI模型一旦走上錯(cuò)誤的道路,往往會(huì)一錯(cuò)到底。這就好比人類司機(jī)在開車時(shí)會(huì)不斷觀察路況并調(diào)整方向,而AI司機(jī)一旦選錯(cuò)了路線,就會(huì)堅(jiān)持錯(cuò)誤地走下去。
人類專家的另一個(gè)優(yōu)勢(shì)在于對(duì)物理概念的深度理解。當(dāng)遇到復(fù)雜的物理場(chǎng)景時(shí),人類能夠快速識(shí)別出關(guān)鍵的物理過程和主要矛盾,然后有針對(duì)性地應(yīng)用相關(guān)定律。而AI模型往往會(huì)被各種次要因素干擾,導(dǎo)致問題復(fù)雜化。
七、錯(cuò)誤分析:AI模型的典型"失誤模式"
通過對(duì)大量錯(cuò)誤案例的分析,研究團(tuán)隊(duì)發(fā)現(xiàn)了AI模型在物理推理中的幾種典型失誤模式。這些失誤就像是學(xué)生在考試中經(jīng)常犯的錯(cuò)誤類型,具有一定的規(guī)律性。
第一種失誤是"概念混淆"。AI模型有時(shí)會(huì)錯(cuò)誤地應(yīng)用物理定律的適用條件。比如在一個(gè)存在外力矩的系統(tǒng)中,模型可能仍然假設(shè)角動(dòng)量守恒。這就好比一個(gè)學(xué)生記住了"在沒有外力的情況下動(dòng)量守恒"這個(gè)結(jié)論,但卻忘記了"沒有外力"這個(gè)前提條件。
第二種失誤是"計(jì)算鏈斷裂"。在需要多步推導(dǎo)的問題中,AI模型往往在某個(gè)中間步驟出現(xiàn)錯(cuò)誤,然后這個(gè)錯(cuò)誤會(huì)傳播到最終答案。更糟糕的是,模型通常不會(huì)回頭檢查之前的步驟,導(dǎo)致錯(cuò)誤累積。
第三種失誤是"物理直覺缺失"。有些時(shí)候,AI模型會(huì)給出在數(shù)學(xué)上正確但在物理上不合理的答案。比如計(jì)算出負(fù)的溫度或者超光速的速度,而模型對(duì)這些明顯不合理的結(jié)果缺乏敏感性。
第四種失誤是"近似處理不當(dāng)"。物理問題中經(jīng)常需要在特定條件下進(jìn)行合理的近似,但AI模型往往不知道何時(shí)該使用近似,以及如何正確地進(jìn)行近似。這就像是不知道在什么時(shí)候可以忽略空氣阻力,什么時(shí)候必須考慮相對(duì)論效應(yīng)。
八、對(duì)未來的啟示:AI還需要走多遠(yuǎn)
這項(xiàng)研究揭示的問題不僅僅局限于物理學(xué),它實(shí)際上反映了當(dāng)前AI技術(shù)的一個(gè)根本性挑戰(zhàn):如何讓機(jī)器真正"理解"而不僅僅是"記憶"和"模仿"。
當(dāng)前的大語(yǔ)言模型主要通過學(xué)習(xí)大量文本數(shù)據(jù)中的模式來工作,這種方法在處理語(yǔ)言任務(wù)時(shí)表現(xiàn)出色,但在需要深度概念理解和復(fù)雜推理的科學(xué)問題上就顯得力不從心。這就好比一個(gè)人能夠流利地背誦莎士比亞的十四行詩(shī),但卻不能理解其中的情感和意境。
研究團(tuán)隊(duì)認(rèn)為,要讓AI在物理推理上達(dá)到人類水平,需要在幾個(gè)方面取得突破。首先是需要更好的物理概念表示方法,讓AI真正"理解"什么是力、能量、動(dòng)量等基本概念。其次是需要更強(qiáng)的因果推理能力,讓AI能夠理解物理現(xiàn)象之間的因果關(guān)系。最后是需要更好的自我監(jiān)控和糾錯(cuò)機(jī)制,讓AI能夠像人類一樣在推理過程中發(fā)現(xiàn)和糾正錯(cuò)誤。
這項(xiàng)研究還表明,僅僅通過增加模型參數(shù)或訓(xùn)練數(shù)據(jù)可能還不足以解決這些根本性問題。我們可能需要從架構(gòu)、訓(xùn)練方法和評(píng)價(jià)體系等多個(gè)方面進(jìn)行創(chuàng)新,才能讓AI獲得真正的推理能力。
九、實(shí)際應(yīng)用:這對(duì)我們的生活意味著什么
雖然這項(xiàng)研究主要關(guān)注的是AI在學(xué)術(shù)物理問題上的表現(xiàn),但其意義遠(yuǎn)遠(yuǎn)超出了學(xué)術(shù)范圍。在現(xiàn)實(shí)生活中,我們?cè)絹碓揭蕾嘇I來幫助我們解決各種復(fù)雜問題,從工程設(shè)計(jì)到醫(yī)療診斷,從金融分析到氣候預(yù)測(cè)。
這項(xiàng)研究的發(fā)現(xiàn)提醒我們,在涉及復(fù)雜推理和深度理解的領(lǐng)域,當(dāng)前的AI技術(shù)還存在明顯的局限性。這并不意味著AI無用,而是提醒我們需要更加謹(jǐn)慎地使用這些工具,特別是在關(guān)鍵決策場(chǎng)景中。
對(duì)于教育領(lǐng)域來說,這項(xiàng)研究也有重要啟示。它表明,盡管AI可以在很多方面協(xié)助教學(xué),但在培養(yǎng)學(xué)生的深度思維和推理能力方面,人類教師仍然不可替代。真正的學(xué)習(xí)不僅僅是記憶和模仿,更需要理解和創(chuàng)新。
對(duì)于AI研究者來說,PHYBench提供了一個(gè)新的挑戰(zhàn)和目標(biāo)。就像國(guó)際象棋和圍棋曾經(jīng)激勵(lì)了游戲AI的發(fā)展一樣,物理推理可能會(huì)成為推動(dòng)下一代AI技術(shù)發(fā)展的新戰(zhàn)場(chǎng)。
總的來說,這項(xiàng)研究讓我們對(duì)AI的能力和局限性有了更清醒的認(rèn)識(shí)。它告訴我們,通向真正智能的道路還很漫長(zhǎng),但這正是科學(xué)研究的魅力所在:每一個(gè)發(fā)現(xiàn)都讓我們更接近真理,每一個(gè)挑戰(zhàn)都推動(dòng)我們向前發(fā)展。
當(dāng)我們站在人工智能發(fā)展的這個(gè)關(guān)鍵節(jié)點(diǎn)上,北京大學(xué)的這項(xiàng)研究就像是一面鏡子,讓我們看清了AI技術(shù)的真實(shí)面貌。它既不是萬能的神器,也不是一無是處的工具,而是一個(gè)正在成長(zhǎng)中的"學(xué)生",需要在更多的挑戰(zhàn)中不斷學(xué)習(xí)和進(jìn)步。說到底,這項(xiàng)研究最大的價(jià)值可能不在于揭示了AI的不足,而在于為我們指明了前進(jìn)的方向。畢竟,只有知道自己的不足,才能找到改進(jìn)的方法。而對(duì)于我們普通人來說,這提醒我們?cè)谙硎蹵I便利的同時(shí),也要保持獨(dú)立思考的能力。因?yàn)樵谶@個(gè)智能化的時(shí)代,真正的智慧不是被機(jī)器替代,而是學(xué)會(huì)如何更好地與機(jī)器協(xié)作。
Q&A
Q1:PHYBench是什么?它和其他AI測(cè)試有什么不同? A:PHYBench是北京大學(xué)開發(fā)的專門測(cè)試AI物理推理能力的基準(zhǔn),包含500道原創(chuàng)物理題目。與其他測(cè)試不同,它要求AI真正理解物理概念并進(jìn)行復(fù)雜推理,而不是簡(jiǎn)單的模式匹配,因此能更準(zhǔn)確地反映AI的真實(shí)推理能力。
Q2:AI模型在物理問題上表現(xiàn)這么差,會(huì)不會(huì)影響實(shí)際應(yīng)用? A:確實(shí)需要謹(jǐn)慎。這項(xiàng)研究表明AI在需要深度推理的復(fù)雜問題上還有明顯局限,特別是在工程設(shè)計(jì)、科學(xué)研究等需要物理推理的領(lǐng)域。不過這不意味著AI無用,而是提醒我們要合理使用,在關(guān)鍵決策時(shí)仍需人類專家把關(guān)。
Q3:為什么連最先進(jìn)的AI模型準(zhǔn)確率都只有36.9%? A:主要問題在于AI缺乏真正的物理理解能力。雖然它們能記住很多公式和模式,但在面對(duì)需要靈活應(yīng)用物理原理、進(jìn)行多步推理的復(fù)雜問題時(shí),往往會(huì)在中間步驟出錯(cuò),而且缺乏自我糾錯(cuò)能力,導(dǎo)致錯(cuò)誤累積到最終答案。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。