這項(xiàng)由北卡羅來(lái)納大學(xué)教堂山分校的劉佳琪、上海人工智能實(shí)驗(yàn)室的王傲然等來(lái)自多個(gè)頂尖研究機(jī)構(gòu)的科學(xué)家共同完成的研究,于2025年8月24日發(fā)表在arXiv預(yù)印本平臺(tái)上,論文編號(hào)為arXiv:2508.17380v1。感興趣的讀者可以通過(guò)https://jiaaqiliu.github.io/VIPER-R1/訪問(wèn)項(xiàng)目主頁(yè)獲取更多詳細(xì)信息。
當(dāng)我們看到一個(gè)蕩秋千的孩子時(shí),物理學(xué)家的大腦會(huì)自動(dòng)運(yùn)轉(zhuǎn):這是一個(gè)簡(jiǎn)單諧振動(dòng),可能受到空氣阻力和重力的影響。但如果讓計(jì)算機(jī)也擁有這種"物理直覺(jué)"會(huì)怎樣?這正是這項(xiàng)突破性研究要解決的核心問(wèn)題。
過(guò)去,科學(xué)家們一直夢(mèng)想著能讓機(jī)器自動(dòng)發(fā)現(xiàn)自然界的物理定律。傳統(tǒng)的方法就像讓一個(gè)盲人在黑暗中摸索寶藏——它們只能處理數(shù)字?jǐn)?shù)據(jù),完全看不到運(yùn)動(dòng)的視覺(jué)模式,這就好比讓一個(gè)從未見(jiàn)過(guò)球類運(yùn)動(dòng)的人僅憑數(shù)據(jù)就要推導(dǎo)出足球的運(yùn)動(dòng)規(guī)律。這種"感官剝奪"嚴(yán)重限制了機(jī)器理解物理現(xiàn)象的能力。
為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)名為VIPER-R1的人工智能系統(tǒng)。這個(gè)系統(tǒng)就像是一位既有敏銳觀察力又具備深厚數(shù)學(xué)功底的物理學(xué)家。它不僅能"看"到物體的運(yùn)動(dòng)軌跡,還能像人類科學(xué)家一樣,將觀察到的現(xiàn)象轉(zhuǎn)化為精確的數(shù)學(xué)公式。
想象一下,當(dāng)你看到一個(gè)彈簧上下振動(dòng)時(shí),你的眼睛看到的是有規(guī)律的運(yùn)動(dòng)模式,大腦會(huì)自動(dòng)聯(lián)想到彈性力和慣性。VIPER-R1也是這樣工作的:它通過(guò)"眼睛"(視覺(jué)處理模塊)觀察運(yùn)動(dòng)圖像,通過(guò)"大腦"(語(yǔ)言模型)進(jìn)行推理,最終寫出描述這個(gè)系統(tǒng)的數(shù)學(xué)方程式。
這套系統(tǒng)最令人印象深刻的地方在于它的學(xué)習(xí)過(guò)程。就像訓(xùn)練一名醫(yī)學(xué)生先學(xué)基礎(chǔ)知識(shí)再做臨床實(shí)踐一樣,VIPER-R1也經(jīng)歷了兩個(gè)訓(xùn)練階段。第一階段叫做"運(yùn)動(dòng)結(jié)構(gòu)歸納",系統(tǒng)學(xué)習(xí)如何從視覺(jué)現(xiàn)象中識(shí)別物理模式,就像學(xué)生學(xué)習(xí)識(shí)別不同類型的心電圖一樣。第二階段是"獎(jiǎng)勵(lì)引導(dǎo)的符號(hào)校準(zhǔn)",系統(tǒng)通過(guò)不斷嘗試和改進(jìn)來(lái)提高生成物理公式的準(zhǔn)確性,就像醫(yī)生通過(guò)實(shí)踐逐步提高診斷技能。
更有趣的是,VIPER-R1還具備了"工具使用"的能力。當(dāng)它生成了一個(gè)初步的物理公式后,會(huì)主動(dòng)調(diào)用外部的符號(hào)回歸工具來(lái)進(jìn)一步優(yōu)化這個(gè)公式,就像一位科學(xué)家會(huì)使用計(jì)算器來(lái)驗(yàn)證和精化自己的計(jì)算結(jié)果。這種"符號(hào)殘差重對(duì)齊"技術(shù)讓系統(tǒng)能夠在理論預(yù)測(cè)和實(shí)際觀測(cè)之間找到最佳平衡。
為了訓(xùn)練和測(cè)試這個(gè)系統(tǒng),研究團(tuán)隊(duì)還創(chuàng)建了一個(gè)名為PhysSymbol的大型數(shù)據(jù)集,包含5000個(gè)不同的物理系統(tǒng)實(shí)例。這個(gè)數(shù)據(jù)集就像是一本超級(jí)豐富的物理教科書,每個(gè)例子都包含了運(yùn)動(dòng)的可視化圖像、詳細(xì)的數(shù)值數(shù)據(jù)、標(biāo)準(zhǔn)答案(真實(shí)的物理公式),以及專家級(jí)的推理過(guò)程解釋。
在實(shí)際測(cè)試中,VIPER-R1展現(xiàn)出了令人矚目的性能。與目前最先進(jìn)的大語(yǔ)言模型相比,包括GPT-4、Claude等知名系統(tǒng),VIPER-R1在識(shí)別物理公式結(jié)構(gòu)方面的準(zhǔn)確率達(dá)到了81.2%,遠(yuǎn)超其他系統(tǒng)的最高成績(jī)51.8%。更重要的是,在最終的物理定律發(fā)現(xiàn)準(zhǔn)確性上,VIPER-R1的誤差僅為0.032,而最好的基線系統(tǒng)誤差為0.091,相當(dāng)于提升了近三倍。
讓我們通過(guò)一個(gè)具體例子來(lái)理解VIPER-R1的工作原理。假設(shè)系統(tǒng)觀察到一個(gè)復(fù)雜的振動(dòng)系統(tǒng),包含線性恢復(fù)力、非線性阻尼和隨機(jī)噪聲。VIPER-R1首先"看"到運(yùn)動(dòng)圖像中的振蕩模式,識(shí)別出這表明存在恢復(fù)力。接著,它注意到相空間圖中的螺旋形吸引子結(jié)構(gòu),推斷出存在非線性阻尼項(xiàng)。最后,它發(fā)現(xiàn)軌跡中的不規(guī)則波動(dòng),判斷存在隨機(jī)噪聲成分?;谶@些觀察,系統(tǒng)生成了一個(gè)接近真實(shí)答案的數(shù)學(xué)公式:1.454 * x - 2.834 * v? + 0.447 * random.normal(0,1),而真實(shí)答案是1.542 * x - 2.766 * v? + 0.450 * random.normal(0,1)。
這種能力的意義遠(yuǎn)不止于學(xué)術(shù)研究。在工程領(lǐng)域,VIPER-R1可以幫助工程師從實(shí)驗(yàn)數(shù)據(jù)中快速發(fā)現(xiàn)系統(tǒng)的控制規(guī)律。在材料科學(xué)中,它能從材料的力學(xué)響應(yīng)中推導(dǎo)出本構(gòu)關(guān)系。在生物學(xué)研究中,它可能幫助科學(xué)家從生物系統(tǒng)的動(dòng)態(tài)行為中發(fā)現(xiàn)新的生物學(xué)定律。甚至在金融領(lǐng)域,類似的方法也可能用于從市場(chǎng)數(shù)據(jù)的視覺(jué)模式中發(fā)現(xiàn)交易規(guī)律。
當(dāng)然,這項(xiàng)研究也面臨一些挑戰(zhàn)和限制。目前的系統(tǒng)主要處理經(jīng)典力學(xué)問(wèn)題,對(duì)于量子力學(xué)、相對(duì)論等更復(fù)雜的物理領(lǐng)域還需要進(jìn)一步擴(kuò)展。此外,從計(jì)算機(jī)模擬的"理想"數(shù)據(jù)過(guò)渡到真實(shí)世界的"嘈雜"實(shí)驗(yàn)數(shù)據(jù),也需要更多的技術(shù)突破。
研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的消融研究,證明了系統(tǒng)各個(gè)組件的重要性。他們發(fā)現(xiàn),僅使用運(yùn)動(dòng)結(jié)構(gòu)歸納階段就能將結(jié)構(gòu)準(zhǔn)確率從基礎(chǔ)模型的9.6%提升到55.4%,而加上獎(jiǎng)勵(lì)引導(dǎo)的符號(hào)校準(zhǔn)后,準(zhǔn)確率進(jìn)一步提升到81.2%。這就像是證明了既需要好的"眼力"來(lái)觀察現(xiàn)象,也需要好的"推理能力"來(lái)形成正確的數(shù)學(xué)表達(dá)。
值得注意的是,VIPER-R1的推理過(guò)程具有很強(qiáng)的可解釋性。系統(tǒng)不是簡(jiǎn)單地輸出一個(gè)公式,而是會(huì)詳細(xì)解釋它是如何從視覺(jué)觀察得出結(jié)論的。例如,它會(huì)說(shuō):"從x(t)圖中的振蕩行為可以看出存在線性恢復(fù)力,從v(x)相空間圖中的螺旋吸引子結(jié)構(gòu)可以推斷出非線性阻尼項(xiàng)的存在。"這種透明的推理過(guò)程讓科學(xué)家能夠理解和驗(yàn)證AI的發(fā)現(xiàn)過(guò)程。
從技術(shù)角度看,VIPER-R1還展現(xiàn)了一種新的人工智能發(fā)展趨勢(shì)——多模態(tài)科學(xué)發(fā)現(xiàn)。傳統(tǒng)的AI要么專注于文本,要么專注于圖像,很少有系統(tǒng)能夠像人類科學(xué)家一樣,同時(shí)處理視覺(jué)觀察、數(shù)學(xué)推理和符號(hào)操作。VIPER-R1成功地將這些能力整合在一個(gè)統(tǒng)一的框架中,為未來(lái)的科學(xué)AI系統(tǒng)提供了重要啟發(fā)。
這項(xiàng)研究的另一個(gè)創(chuàng)新點(diǎn)是引入了"因果鏈?zhǔn)剿季S"訓(xùn)練方法。系統(tǒng)不僅學(xué)習(xí)正確的答案,更重要的是學(xué)習(xí)達(dá)到答案的推理過(guò)程。這就像教學(xué)生不僅要知道2+2=4,更要理解為什么等于4。這種訓(xùn)練方式讓VIPER-R1具備了更強(qiáng)的泛化能力和推理透明度。
在實(shí)際應(yīng)用層面,VIPER-R1采用了一種"代理式"的工作模式。當(dāng)系統(tǒng)對(duì)自己生成的公式有了初步信心后,它會(huì)主動(dòng)調(diào)用外部的符號(hào)回歸工具來(lái)進(jìn)一步優(yōu)化結(jié)果。這種設(shè)計(jì)理念體現(xiàn)了現(xiàn)代AI系統(tǒng)的一個(gè)重要趨勢(shì):不是要求單一系統(tǒng)解決所有問(wèn)題,而是讓不同的專業(yè)工具協(xié)同工作,發(fā)揮各自的優(yōu)勢(shì)。
從數(shù)據(jù)集建設(shè)角度,PhysSymbol數(shù)據(jù)集的構(gòu)建也頗具創(chuàng)新性。研究團(tuán)隊(duì)不是簡(jiǎn)單地收集現(xiàn)有數(shù)據(jù),而是系統(tǒng)性地設(shè)計(jì)了涵蓋各種物理現(xiàn)象的綜合數(shù)據(jù)集。數(shù)據(jù)集包含了線性和非線性恢復(fù)力、各種阻尼類型、外部驅(qū)動(dòng)力、隨機(jī)擾動(dòng)等11個(gè)類別的物理現(xiàn)象,確保了訓(xùn)練數(shù)據(jù)的豐富性和代表性。
特別值得一提的是,研究團(tuán)隊(duì)還為每個(gè)物理系統(tǒng)生成了兩種互補(bǔ)的可視化:相空間圖和時(shí)間序列圖。相空間圖揭示系統(tǒng)的動(dòng)力學(xué)結(jié)構(gòu)和穩(wěn)定性特征,而時(shí)間序列圖強(qiáng)調(diào)時(shí)域行為和周期模式。這種雙重視覺(jué)表示讓VIPER-R1能夠從不同角度理解物理現(xiàn)象,就像醫(yī)生既看X光片又看血液檢查報(bào)告一樣。
在模型架構(gòu)方面,VIPER-R1基于Qwen-VL-2.5系列模型構(gòu)建,提供了3B和7B兩個(gè)版本。較大的7B模型在各項(xiàng)指標(biāo)上都表現(xiàn)更優(yōu),但即使是較小的3B模型也能超越所有現(xiàn)有的基線系統(tǒng),這說(shuō)明了方法本身的有效性,而不僅僅是依賴模型規(guī)模的提升。
從評(píng)估方法學(xué)角度,研究團(tuán)隊(duì)設(shè)計(jì)了三個(gè)互補(bǔ)的評(píng)價(jià)指標(biāo):結(jié)構(gòu)得分評(píng)估公式的拓?fù)湔_性,準(zhǔn)確度得分評(píng)估精確匹配程度,而最終的均方誤差則評(píng)估端到端的物理定律發(fā)現(xiàn)性能。這種多維度評(píng)估確保了系統(tǒng)性能評(píng)價(jià)的全面性和可靠性。
研究團(tuán)隊(duì)還提供了豐富的案例分析,展示了VIPER-R1在處理不同類型物理系統(tǒng)時(shí)的推理過(guò)程。從簡(jiǎn)單的線性恢復(fù)力系統(tǒng)到包含隨機(jī)噪聲的復(fù)雜非線性系統(tǒng),VIPER-R1都能給出合理的分析和準(zhǔn)確的預(yù)測(cè)。這些案例不僅驗(yàn)證了方法的有效性,也為其他研究者提供了寶貴的參考。
展望未來(lái),這項(xiàng)研究為科學(xué)發(fā)現(xiàn)的自動(dòng)化開(kāi)辟了新的道路。隨著技術(shù)的進(jìn)一步發(fā)展,我們可能會(huì)看到更多能夠"看懂"實(shí)驗(yàn)現(xiàn)象的AI科學(xué)家助手,它們不僅能處理物理學(xué)問(wèn)題,還可能擴(kuò)展到化學(xué)、生物學(xué)、工程學(xué)等其他科學(xué)領(lǐng)域。這將極大地加速科學(xué)發(fā)現(xiàn)的過(guò)程,幫助人類更快地理解和掌握自然規(guī)律。
說(shuō)到底,VIPER-R1的成功在于它真正模擬了人類科學(xué)家的認(rèn)知過(guò)程:觀察現(xiàn)象、形成假設(shè)、驗(yàn)證理論。它不是簡(jiǎn)單的數(shù)據(jù)擬合工具,而是一個(gè)能夠進(jìn)行科學(xué)推理的智能系統(tǒng)。雖然我們距離真正的"AI科學(xué)家"還有很長(zhǎng)的路要走,但VIPER-R1無(wú)疑是這個(gè)方向上的重要一步。它向我們展示了人工智能在科學(xué)發(fā)現(xiàn)中的巨大潛力,也為未來(lái)的研究指明了方向。對(duì)于普通人來(lái)說(shuō),這意味著未來(lái)我們可能會(huì)看到更多由AI輔助完成的科學(xué)突破,從新材料的發(fā)現(xiàn)到藥物的研發(fā),人工智能將成為推動(dòng)科學(xué)進(jìn)步的重要力量。
Q&A
Q1:VIPER-R1是什么?它能做什么?
A:VIPER-R1是北卡羅來(lái)納大學(xué)等機(jī)構(gòu)開(kāi)發(fā)的AI系統(tǒng),能像物理學(xué)家一樣從運(yùn)動(dòng)圖像中發(fā)現(xiàn)物理定律。它不僅能"看"懂物體的運(yùn)動(dòng)模式,還能將觀察到的現(xiàn)象轉(zhuǎn)化為精確的數(shù)學(xué)公式,就像人類科學(xué)家分析實(shí)驗(yàn)數(shù)據(jù)一樣。
Q2:VIPER-R1比現(xiàn)有AI系統(tǒng)好在哪里?
A:與GPT-4、Claude等只能處理文字的AI不同,VIPER-R1能同時(shí)處理圖像和數(shù)據(jù)。在物理公式識(shí)別準(zhǔn)確率上達(dá)到81.2%,遠(yuǎn)超其他系統(tǒng)的51.8%,最終發(fā)現(xiàn)物理定律的誤差也比最好的基線系統(tǒng)低了近三倍。
Q3:這項(xiàng)技術(shù)有什么實(shí)際應(yīng)用價(jià)值?
A:VIPER-R1可以幫助工程師從實(shí)驗(yàn)數(shù)據(jù)中快速發(fā)現(xiàn)系統(tǒng)控制規(guī)律,協(xié)助材料科學(xué)家推導(dǎo)新材料的特性關(guān)系,甚至可能用于生物學(xué)研究中發(fā)現(xiàn)新的生物學(xué)定律,大大加速科學(xué)發(fā)現(xiàn)的過(guò)程。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛(ài)不同專家配置,為AI推理優(yōu)化開(kāi)辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。