這項由Meta公司的Bingchen Zhao、Despoina Magka、Minqi Jiang等眾多研究人員與愛丁堡大學合作完成的研究發(fā)表于2025年6月,論文編號為arXiv:2506.22419v1。有興趣深入了解的讀者可以通過https://github.com/facebookresearch/llm-speedrunner訪問完整的研究代碼和詳細內(nèi)容。
人工智能正在悄悄改變我們的生活,從語音助手到自動駕駛,AI的觸角已經(jīng)延伸到各個角落。但有一個問題始終讓科學家們感到困擾:AI能否成為真正的科學家,獨立進行研究并重現(xiàn)已有的科學發(fā)現(xiàn)?這就像問一個學生能否不僅學會解題,還能自己發(fā)現(xiàn)新的解題方法一樣。
Meta的研究團隊決定用一個非常巧妙的方法來測試這個問題。他們選擇了一個叫做"NanoGPT訓練加速競賽"的真實案例作為試驗場。這個競賽就像是程序員們的馬拉松比賽,參賽者們要想辦法讓一個叫GPT-2的AI模型訓練得更快。從2024年6月開始,這個社區(qū)驅(qū)動的競賽已經(jīng)將訓練時間從最初的45分鐘壓縮到了不到3分鐘,這簡直就像把一道需要煮45分鐘的菜壓縮到3分鐘內(nèi)完成,而且味道還要保持一樣好。
這些改進可不是簡單的調(diào)整參數(shù)那么容易。參賽者們發(fā)明了各種創(chuàng)新技術(shù),比如著名的Muon優(yōu)化器,這就像是發(fā)明了一種新的烹飪方法,不僅能用在這道菜上,還能推廣到其他大型菜譜中。研究團隊將這些連續(xù)的改進記錄變成了一個獨特的測試平臺,用來檢驗AI代理能否像人類研究者一樣,根據(jù)提示重現(xiàn)這些突破性的發(fā)現(xiàn)。
這個研究的意義遠不止于技術(shù)層面。科學進步的核心在于結(jié)果的可重現(xiàn)性,就像一個好的食譜應(yīng)該能被不同的廚師按照同樣的步驟做出同樣美味的菜肴。如果AI代理能夠成功重現(xiàn)科學發(fā)現(xiàn),這就意味著我們向自動化科學研究邁出了關(guān)鍵一步。但如果它們連已知的發(fā)現(xiàn)都無法重現(xiàn),那么談?wù)揂I進行原創(chuàng)性研究就還為時過早。
然而,研究結(jié)果卻讓人有些意外。即使是最先進的AI模型,比如o3-mini和DeepSeek-R1,在配備了最好的搜索框架后,也很難成功重現(xiàn)這些已知的創(chuàng)新。即便研究人員給這些AI提供了詳細的提示和說明,它們平均也只能恢復(fù)大約20-40%的性能提升效果。這就像給一個廚師提供了詳細的食譜,但做出來的菜只有原版一半的味道。
**一、從競賽到科學測試平臺**
NanoGPT訓練加速競賽本身就是一個精彩的故事。這個競賽基于Andrej Karpathy創(chuàng)建的NanoGPT項目,目標很簡單:在單個8×H100節(jié)點上訓練GPT-2模型,讓驗證損失達到3.28的目標值,但要用最短的時間。這就像是要求參賽者用同樣的食材和廚具,但要在最短時間內(nèi)做出合格的菜肴。
競賽的規(guī)則很明確。所有參賽者都使用FineWeb數(shù)據(jù)集進行訓練,硬件配置完全相同,唯一的變量就是訓練代碼的優(yōu)化程度。這種設(shè)置確保了公平性,就像所有運動員在同一條跑道上比賽一樣。
從2024年6月到2025年5月,這個競賽產(chǎn)生了21個連續(xù)的記錄突破。每個新記錄都代表著一個具體的技術(shù)創(chuàng)新,從算法改進到硬件優(yōu)化應(yīng)有盡有。第一個重大突破是引入了旋轉(zhuǎn)位置嵌入和調(diào)整學習率,將訓練時間從45分鐘縮短到31.4分鐘。接下來是Muon優(yōu)化器的發(fā)明,這個創(chuàng)新不僅在這個小規(guī)模模型上有效,后來還被證明對大型現(xiàn)代語言模型同樣有益。
更有趣的是,這些改進涵蓋了機器學習的各個方面。有些改進專注于模型架構(gòu),比如引入U-net模式的跳躍連接。有些則關(guān)注數(shù)據(jù)類型優(yōu)化,比如使用bfloat16激活函數(shù)或FP8頭部。還有一些改進涉及注意力機制的創(chuàng)新,比如從傳統(tǒng)的密集因果注意力轉(zhuǎn)向64K上下文的FlexAttention。
研究團隊將這些連續(xù)改進轉(zhuǎn)化為一個系統(tǒng)化的測試基準。每個任務(wù)都要求AI代理從前一個記錄的代碼開始,根據(jù)提供的提示,重現(xiàn)下一個記錄的性能提升。這就像是要求一個學生看著昨天的作業(yè),根據(jù)老師的提示,完成今天更進一步的作業(yè)。
**二、為AI代理設(shè)計的挑戰(zhàn)系統(tǒng)**
為了公平測試AI代理的能力,研究團隊設(shè)計了一個精巧的提示系統(tǒng)。他們?yōu)槊總€改進創(chuàng)建了三個不同級別的提示,就像給學生提供不同詳細程度的學習材料。
第一級提示是偽代碼形式,就像給廚師提供一個簡化的食譜大綱。比如對于旋轉(zhuǎn)位置嵌入的改進,偽代碼提示會說明需要實現(xiàn)一個旋轉(zhuǎn)位置嵌入類,預(yù)計算逆頻率,然后在注意力機制中應(yīng)用這些嵌入。這種提示給出了大致的實現(xiàn)思路,但需要AI代理自己填補具體的實現(xiàn)細節(jié)。
第二級提示是自然語言描述,更像是詳細的烹飪說明。它會解釋為什么要做這個改變,預(yù)期的效果是什么,以及如何與現(xiàn)有代碼集成。對于同樣的旋轉(zhuǎn)位置嵌入改進,這種提示會解釋這種方法如何改善位置感知,為什么比傳統(tǒng)的位置嵌入更有效,以及實現(xiàn)時需要注意的技術(shù)挑戰(zhàn)。
第三級提示則是迷你論文格式,就像給出了完整的研究報告。這種提示不僅包含了前兩級的所有信息,還提供了理論背景、實現(xiàn)細節(jié)和預(yù)期的性能影響。它幾乎就像是一個完整的技術(shù)文檔,告訴AI代理從理論到實踐的每一個步驟。
除了這三個基礎(chǔ)級別,研究團隊還測試了組合提示的效果。他們發(fā)現(xiàn),有時候給AI代理提供更多信息并不總是更好。這就像有些學生在面對過于詳細的說明時反而會感到困惑一樣。
為了確保測試的公正性,研究團隊還開發(fā)了一個復(fù)雜的搜索框架。這個框架允許AI代理不僅僅嘗試一次,而是可以進行多次迭代改進。每次嘗試后,代理會得到關(guān)于代碼執(zhí)行結(jié)果的反饋,然后可以基于這個反饋進行調(diào)整。這就像允許廚師品嘗正在制作的菜肴,然后根據(jù)味道調(diào)整調(diào)料一樣。
搜索框架包含了五種不同的策略。最簡單的是"平鋪"方法,就是簡單地嘗試多個不同的解決方案,然后選擇最好的。更復(fù)雜的方法包括樹狀搜索和森林搜索,這些方法允許代理在成功的解決方案基礎(chǔ)上進一步改進。最先進的方法是Multi-AIDE,它結(jié)合了迭代改進和調(diào)試功能,就像有一個AI助手可以不斷優(yōu)化和修復(fù)代碼一樣。
**三、測試結(jié)果揭示的現(xiàn)實**
當研究團隊將最先進的AI模型放到這個測試平臺上時,結(jié)果相當令人意外。即使是表現(xiàn)最好的模型組合——o3-mini配合Multi-AIDE搜索框架,在獲得最詳細提示的情況下,平均也只能恢復(fù)大約46%的預(yù)期性能提升。這就像是給了一個優(yōu)秀的廚師完整的食譜和所有工具,但做出來的菜只有原版一半的味道。
更令人驚訝的是,不同類型的提示對不同模型的效果差異很大。對于o3-mini這樣的模型,偽代碼提示往往比詳細的文本描述更有效。這可能是因為過于詳細的信息反而會讓模型感到困惑,就像有些人在面對過于復(fù)雜的說明書時反而不知所措一樣。
相比之下,開源模型如DeepSeek-R1的表現(xiàn)更加有趣。當沒有提示時,這些模型的表現(xiàn)還算可以,但當給出詳細提示后,它們的表現(xiàn)反而下降了。這就像是一個廚師在沒有食譜時能做出還不錯的菜,但看了食譜后反而做砸了。研究人員推測,這可能是因為這些模型試圖實現(xiàn)提示中描述的復(fù)雜改動時,引入了更多的錯誤。
研究團隊還發(fā)現(xiàn)了一個有趣的模式:后期的記錄比早期的記錄更難重現(xiàn)。隨著競賽的進行,每個新的改進都變得更加精妙和復(fù)雜,這使得AI代理更難理解和實現(xiàn)這些改進。這就像是隨著烹飪技術(shù)的進步,新的食譜變得越來越需要精確的技巧和經(jīng)驗。
為了更深入地理解AI代理的表現(xiàn),研究團隊還分析了它們的搜索行為。他們發(fā)現(xiàn),平鋪搜索(簡單地嘗試多個方案)往往會產(chǎn)生更多有問題的代碼,但偶爾也能產(chǎn)生出色的解決方案。相比之下,更復(fù)雜的搜索方法雖然產(chǎn)生的錯誤代碼較少,但也很少能產(chǎn)生真正優(yōu)秀的解決方案。
**四、代碼相似性的深度分析**
僅僅看性能數(shù)字還不夠,研究團隊還想知道AI代理生成的代碼在多大程度上真正復(fù)制了人類的創(chuàng)新思路。他們使用了兩種方法來評估代碼相似性:自動化的嵌入向量比較和人工智能判官評估。
嵌入向量比較就像是用數(shù)學方法測量兩篇文章的相似度。研究團隊使用專門的代碼嵌入模型來計算AI生成的代碼與目標代碼之間的距離。有趣的是,他們發(fā)現(xiàn)代碼相似性和性能提升之間存在一定的相關(guān)性,但這種相關(guān)性并不完美。這意味著有時候AI代理可能用完全不同的方法達到了類似的性能提升,就像兩個廚師用不同的烹飪技巧做出了同樣美味的菜肴。
更有趣的是AI判官評估的結(jié)果。研究團隊讓另一個AI模型來評判生成的代碼在多大程度上重現(xiàn)了人類專家的改動。這個AI判官會仔細比較兩段代碼,然后給出一個0到1之間的分數(shù),表示重現(xiàn)程度。結(jié)果顯示,即使在最好的情況下,AI代理也很少能完全重現(xiàn)人類的創(chuàng)新思路。
這種分析揭示了一個重要的區(qū)別:達到相似的性能和真正理解創(chuàng)新思路是兩回事。AI代理有時候能夠通過不同的路徑達到相似的結(jié)果,但這并不意味著它們真正掌握了人類研究者的創(chuàng)新邏輯。這就像是兩個學生都解出了同一道數(shù)學題,但使用了完全不同的解題方法。
研究團隊還發(fā)現(xiàn),對于一些特別困難的記錄,幾乎所有的AI代理都表現(xiàn)很差。比如記錄10(引入FlexAttention)對所有方法和模型來說都是一個巨大的挑戰(zhàn)。這可能是因為這個改進涉及了相對較新的技術(shù),而這些技術(shù)可能不在AI模型的訓練數(shù)據(jù)中。
**五、累積性研究的更大挑戰(zhàn)**
除了單個記錄的重現(xiàn),研究團隊還測試了一個更具挑戰(zhàn)性的任務(wù):累積性重現(xiàn)。這就像是要求AI代理不僅要學會單個烹飪技巧,還要能夠?qū)⒍鄠€技巧組合起來,制作越來越復(fù)雜的菜肴。
在這個實驗中,AI代理需要從最初的基線代碼開始,逐步應(yīng)用每個改進,最終達到后續(xù)記錄的性能。這個任務(wù)更接近真實的科學研究過程,因為科學發(fā)現(xiàn)往往是建立在前人工作基礎(chǔ)上的漸進式進步。
結(jié)果顯示,累積性重現(xiàn)比單獨重現(xiàn)個別記錄要困難得多。最好的AI代理在第一個改進上還能恢復(fù)大約60%的性能提升,但到了第三個改進時,這個數(shù)字就降到了20%左右。到了第四個改進時,AI代理基本上就無法產(chǎn)生任何有意義的性能提升了。
這個結(jié)果特別令人深思,因為它表明AI代理在處理連續(xù)的、相互依賴的改進時面臨著更大的挑戰(zhàn)。每個錯誤都會累積,每個不完美的實現(xiàn)都會影響后續(xù)的改進。這就像是在建造一座塔,如果底層有問題,上層就會越來越不穩(wěn)定。
**六、外部知識的作用與局限**
研究團隊還進行了一個有趣的實驗:當AI代理面對其訓練數(shù)據(jù)中可能沒有的新技術(shù)時會發(fā)生什么?他們選擇了FlexAttention這個記錄進行特殊測試,因為這個技術(shù)是在2024年8月發(fā)布的,很可能不在大多數(shù)AI模型的訓練數(shù)據(jù)中。
研究人員為AI代理提供了關(guān)于FlexAttention的詳細文檔,包括使用示例和技術(shù)說明。按理說,這應(yīng)該能幫助AI代理更好地實現(xiàn)這個改進。但結(jié)果卻恰恰相反:提供額外文檔的AI代理表現(xiàn)反而更差了。
這個發(fā)現(xiàn)很有啟發(fā)性。它表明,即使是最先進的AI模型,在處理它們訓練時未見過的技術(shù)時,也很難有效利用外部知識。這就像是給一個從未見過微波爐的廚師提供微波爐說明書,他們可能反而會把簡單的任務(wù)搞復(fù)雜。
這個結(jié)果對于AI代理在科學研究中的應(yīng)用有重要意義??茖W研究的本質(zhì)就是探索未知,創(chuàng)造新的知識。如果AI代理連利用明確提供的新知識都有困難,那么它們在面對真正的未知領(lǐng)域時會面臨更大的挑戰(zhàn)。
**七、不同搜索策略的啟示**
研究團隊對不同搜索策略的分析提供了關(guān)于AI代理行為的有趣見解。他們發(fā)現(xiàn),簡單的平鋪搜索策略雖然會產(chǎn)生更多有問題的代碼,但也更有可能偶然發(fā)現(xiàn)有效的解決方案。相比之下,更復(fù)雜的搜索策略產(chǎn)生的代碼更穩(wěn)定,但很少能達到突破性的性能。
這種現(xiàn)象類似于探索與利用的權(quán)衡。簡單的策略更傾向于探索,愿意嘗試各種可能性,即使風險更高。復(fù)雜的策略更傾向于利用已知的安全方法,但也因此限制了發(fā)現(xiàn)突破性解決方案的可能性。
研究團隊還觀察到,不同的AI模型對調(diào)試步驟的反應(yīng)差異很大。一些模型,特別是開源模型,在包含調(diào)試功能的搜索框架中產(chǎn)生了更多有問題的代碼。這表明這些模型可能不如商業(yè)模型那樣善于從錯誤中學習和改進。
這些發(fā)現(xiàn)對于設(shè)計更好的AI代理搜索策略有重要啟示。可能需要為不同類型的任務(wù)和不同的模型定制不同的搜索策略,而不是使用一種通用的方法。
**八、基準測試的獨特價值**
Meta團隊創(chuàng)建的這個基準測試在多個方面都是獨特的。與其他科學重現(xiàn)性基準不同,這個測試專注于一個連貫的研究主題,而不是隨機選擇的各種研究。這種設(shè)計使得能夠評估AI代理在處理相互關(guān)聯(lián)的累積性改進時的能力。
更重要的是,這個基準的所有任務(wù)都有明確的成功標準:訓練時間的縮短。這與其他可能需要主觀判斷的科學任務(wù)不同,這里的成功或失敗是可以精確測量的。同時,所有的改進都在相同的硬件配置上運行,確保了比較的公平性。
這個基準還有一個獨特的優(yōu)勢:它基于真實的、社區(qū)驅(qū)動的研究競賽。這意味著所有的改進都是由真正的研究者在真實的競爭環(huán)境中開發(fā)的,而不是為了測試目的而人為設(shè)計的。這增加了測試的真實性和相關(guān)性。
此外,這個基準涵蓋了機器學習的多個重要方面,從算法創(chuàng)新到硬件優(yōu)化,從數(shù)據(jù)類型選擇到注意力機制設(shè)計。這種多樣性使得它能夠全面評估AI代理在不同類型的科學問題上的能力。
**九、對未來AI研究的啟示**
這項研究的結(jié)果對AI研究領(lǐng)域提出了一些重要的思考。首先,它表明即使是最先進的AI模型,在科學重現(xiàn)性這個相對基礎(chǔ)的任務(wù)上也還有很大的改進空間。如果AI代理連重現(xiàn)已知的發(fā)現(xiàn)都有困難,那么讓它們進行原創(chuàng)性研究還為時過早。
研究結(jié)果也揭示了當前AI模型的一些根本性限制。這些模型似乎更擅長模式匹配和統(tǒng)計推理,而不是真正的理解和創(chuàng)新。當面對需要深入理解代碼邏輯和算法原理的任務(wù)時,它們的表現(xiàn)明顯下降。
另一個重要的發(fā)現(xiàn)是,提供更多信息并不總是有幫助的。這表明當前的AI模型在信息整合和篩選方面還存在問題。在真實的科學研究中,研究者需要從大量的相關(guān)和不相關(guān)信息中提取有用的洞察,這對當前的AI模型來說仍然是一個挑戰(zhàn)。
研究還顯示了累積性學習的困難??茖W研究的本質(zhì)是建立在前人工作基礎(chǔ)上的漸進式進步,但AI代理在這種累積性任務(wù)上表現(xiàn)不佳。這表明需要開發(fā)新的方法來幫助AI模型更好地處理相互依賴的任務(wù)序列。
**十、實際應(yīng)用的前景與限制**
雖然當前的結(jié)果顯示AI代理還無法完全自主進行科學研究,但這并不意味著它們在科學領(lǐng)域沒有價值。這項研究實際上為AI在科學研究中的輔助作用提供了有價值的見解。
AI代理可能更適合作為研究助手,而不是獨立的研究者。它們可以幫助研究人員快速測試不同的想法,進行初步的代碼實現(xiàn),或者在研究人員的指導(dǎo)下執(zhí)行具體的實驗步驟。這種人機協(xié)作的模式可能比完全自主的AI研究更現(xiàn)實和有效。
研究結(jié)果也表明,為不同類型的科學任務(wù)開發(fā)專門的AI工具可能更有效,而不是期望一個通用的AI代理能夠處理所有類型的科學問題。就像專業(yè)工具在特定領(lǐng)域比通用工具更有效一樣,專門的科學AI可能在特定研究領(lǐng)域表現(xiàn)更好。
此外,這個基準測試本身就成為了一個有價值的工具,可以用來評估未來AI模型在科學重現(xiàn)性方面的改進。隨著AI技術(shù)的不斷發(fā)展,研究者可以使用這個基準來跟蹤進展,識別需要改進的特定能力。
**十一、技術(shù)細節(jié)的深入探討**
為了確保測試的嚴謹性,研究團隊在技術(shù)實現(xiàn)上做了大量的工作。他們重新運行了所有的人類記錄,確保在他們的硬件配置上能夠重現(xiàn)相同的性能。這種驗證確保了基準測試的可靠性,避免了因硬件差異導(dǎo)致的不公平比較。
在評估指標的設(shè)計上,研究團隊使用了"速度提升恢復(fù)分數(shù)"(FSR)這個精心設(shè)計的指標。這個指標不僅考慮了AI代理達到的絕對性能,還考慮了它相對于目標改進的相對表現(xiàn)。這種設(shè)計使得能夠公平地比較不同難度的改進任務(wù)。
研究團隊還開發(fā)了復(fù)雜的代碼相似性評估方法。除了使用專門的代碼嵌入模型,他們還設(shè)計了AI判官系統(tǒng)來評估代碼變更的語義相似性。這種多維度的評估方法提供了更全面的性能評估。
在搜索框架的設(shè)計上,研究團隊提供了從簡單到復(fù)雜的多種選擇。這種設(shè)計使得能夠研究不同搜索策略對不同類型AI模型的影響,為未來的AI代理設(shè)計提供了寶貴的經(jīng)驗。
說到底,這項研究為我們提供了一個重要的現(xiàn)實檢驗。雖然AI技術(shù)在很多領(lǐng)域都取得了令人矚目的進展,但在科學研究這個需要深度理解、創(chuàng)新思維和累積性學習的領(lǐng)域,它們還有很長的路要走。這個發(fā)現(xiàn)既讓人保持謙遜,也為未來的改進指明了方向。
當我們談?wù)揂I的未來時,經(jīng)常會聽到關(guān)于AI科學家、AI研究者的預(yù)測。但這項研究提醒我們,真正的科學研究比我們想象的更復(fù)雜、更微妙。它不僅需要強大的計算能力和數(shù)據(jù)處理能力,還需要直覺、創(chuàng)造力和對復(fù)雜系統(tǒng)的深度理解。
這并不意味著AI在科學研究中沒有前途。相反,這項研究為我們提供了一個清晰的路線圖,告訴我們需要在哪些方面改進AI系統(tǒng),才能讓它們成為真正有效的科學研究助手。無論是改進模型的理解能力,還是開發(fā)更好的人機協(xié)作框架,這些都是值得繼續(xù)探索的方向。
對于那些希望深入了解這項研究的讀者,完整的研究代碼和數(shù)據(jù)已經(jīng)在GitHub上開源,地址是https://github.com/facebookresearch/llm-speedrunner。這種開放的態(tài)度本身就體現(xiàn)了科學研究的精神:通過分享和協(xié)作來推動整個領(lǐng)域的進步。
Q&A
Q1:什么是NanoGPT訓練加速競賽?它為什么適合測試AI研究能力? A:NanoGPT訓練加速競賽是一個社區(qū)驅(qū)動的編程競賽,目標是在相同硬件條件下用最短時間訓練GPT-2模型到指定性能。它適合測試AI研究能力因為:競賽產(chǎn)生了21個連續(xù)的真實技術(shù)突破,每個改進都有明確的性能提升,且涵蓋了機器學習的多個重要方面,為AI代理提供了理想的科學重現(xiàn)性測試環(huán)境。
Q2:為什么最先進的AI模型在重現(xiàn)已知研究成果時表現(xiàn)不佳? A:主要原因包括幾個方面:AI模型更擅長模式匹配而非深度理解,面對需要算法邏輯理解的任務(wù)時能力下降;過多的提示信息反而會讓模型困惑;累積性任務(wù)中錯誤會疊加放大;對訓練數(shù)據(jù)中未見過的新技術(shù)難以有效利用外部知識。這表明當前AI在科學創(chuàng)新思維方面還存在根本性限制。
Q3:這個研究對AI在科學研究中的應(yīng)用有什么啟示? A:研究表明AI更適合作為研究助手而非獨立研究者,可以在人類指導(dǎo)下執(zhí)行具體實驗步驟或快速測試想法。需要為不同科學領(lǐng)域開發(fā)專門的AI工具,而非期望通用AI處理所有問題。同時這個基準為評估未來AI模型的科學研究能力提供了標準化測試平臺,有助于跟蹤技術(shù)進展。
好文章,需要你的鼓勵
浙江大學團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學、編程等任務(wù)上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓練提供了新思路。
南洋理工大學與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學研究團隊發(fā)現(xiàn),通過讓AI模型學習解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學習方法訓練多個AI模型。實驗結(jié)果顯示,幾何訓練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。