這項由阿聯酋穆罕默德·本·扎耶德人工智能大學(MBZUAI)、俄羅斯莫斯科物理技術學院、俄羅斯人工智能研究所以及英國倫敦數學科學研究所的國際研究團隊完成的研究,于2025年1月發(fā)表在arXiv預印本平臺上。有興趣深入了解的讀者可以通過論文編號arXiv:2508.16745訪問完整論文。這個跨國合作的研究團隊包括來自MBZUAI的Ivan Rodkin、Daniil Orel等多位學者,以及來自俄羅斯和英國頂尖研究機構的專家們。
當我們看到OpenAI的o1模型在數學奧林匹克競賽中闖進前500名,或者DeepSeek R1在國際信息學奧林匹克中取得優(yōu)異成績時,很容易以為人工智能已經完全掌握了復雜推理的藝術。然而,就像一個看起來很會做菜的朋友可能只是背熟了幾道招牌菜的菜譜一樣,這些令人印象深刻的表現背后隱藏著一個關鍵問題:AI模型到底是真正學會了推理,還是僅僅在重復記憶中的模式?
這個問題困擾著整個人工智能領域。當一個AI系統成功解決了復雜數學題,我們很難判斷它是真的理解了數學原理,還是只是從訓練數據中記住了類似題目的解法。這就像區(qū)分一個學生是真正掌握了數學概念,還是僅僅背熟了題型和答案一樣困難。
為了徹底搞清楚這個問題,研究團隊設計了一個巧妙的實驗環(huán)境,就像為AI模型創(chuàng)造了一個完全陌生的"推理游樂園"。他們選擇了一維細胞自動機作為測試平臺,這個聽起來復雜的概念其實可以用一個簡單的比喻來理解:想象有一排燈泡,每個燈泡要么亮著要么暗著,而每盞燈的下一秒狀態(tài)都由它和鄰居燈泡的當前狀態(tài)按照某個固定規(guī)律決定。這個規(guī)律就像游戲規(guī)則一樣,一旦確定就會一直適用。
這個設計的精妙之處在于,研究團隊確保訓練時使用的規(guī)則和測試時使用的規(guī)則完全不同,就像讓學生用從未見過的數學公式來解題一樣。這樣一來,如果AI模型能成功預測未來的狀態(tài),那就證明它真正學會了從觀察中推導規(guī)律并應用規(guī)律的能力,而不是簡單的記憶重現。
研究團隊面臨的核心挑戰(zhàn)可以概括為三個基本問題。首先,AI模型展現的推理能力究竟是真正的泛化能力,還是巧妙的記憶復現?其次,當推理需要的步驟越來越多時,任務難度如何變化?最后,模型的架構設計、訓練目標和推理過程會在多大程度上限制其推理能力?
為了回答這些問題,研究團隊構建了一個comprehensive的測試框架,包含四種不同的任務變體。第一種叫做"軌道-狀態(tài)"任務,就像給模型展示一個燈泡序列的變化歷史,然后要求它預測若干步之后的狀態(tài)。第二種是"軌道-軌道"任務,不僅要預測最終狀態(tài),還要給出每一步的中間過程,這就像要求學生不僅給出答案,還要展示完整的解題步驟。
第三種任務更加直接,叫做"軌道-狀態(tài)和規(guī)則",要求模型在預測未來狀態(tài)的同時,還要明確說出它推導出的規(guī)則是什么。這就像要求學生在解題的同時,還要說明自己用了什么數學定理。最后一種任務則是"規(guī)則和軌道-狀態(tài)",直接告訴模型規(guī)則是什么,只要求預測結果,這相當于給學生提供公式,看他們能否正確應用。
一、深度與推理能力的神秘聯系
研究結果揭示了一個令人意外的現象:幾乎所有的神經網絡架構,包括Transformer、LSTM、Mamba狀態(tài)空間模型和增強記憶Transformer(ARMT),都能夠相當準確地預測下一步狀態(tài)。這就像讓不同的學生用不同方法解簡單題目,大家都能答對一樣。然而,當要求進行多步推理時,情況發(fā)生了戲劇性變化。
以4層的GPT-NeoX模型為例,它在單步預測上能達到95%的準確率,但當需要預測兩步之后的狀態(tài)時,準確率驟降到40%,而三步和四步預測的準確率更是跌破25%。這種急劇下降讓人聯想到爬山時的體力極限,看起來輕松的單步變成了不可逾越的障礙。
更有趣的是,研究團隊發(fā)現這種限制與模型的"深度"密切相關。在神經網絡中,深度指的是信息處理的層數,就像一個復雜決策需要經過多個思考環(huán)節(jié)一樣。實驗證明,增加模型的深度比增加其"寬度"(每層的參數數量)更能改善多步推理性能。
當研究人員將Transformer的層數從4層增加到12層時,單步和兩步預測的準確率很快達到飽和,但三步預測能力持續(xù)改善,而四步預測仍然表現糟糕。這就像增加思考時間對解決復雜問題更有幫助,但面對超出認知極限的問題時,再多時間也無濟于事。
相比之下,增加模型寬度的效果要微弱得多。將embedding維度從64增加到512,各個推理深度的性能提升都很有限。這個發(fā)現強化了一個重要觀點:對于多步推理任務,計算的深度比廣度更為關鍵。
二、突破深度限制的創(chuàng)新途徑
面對固定深度模型的局限性,研究團隊探索了三種主要的解決方案,每種都像是為思考過程裝上不同類型的"增壓器"。
第一種方法是段落級循環(huán)機制,以ARMT模型為代表。這種方法就像讓模型在處理長文本時能夠"回頭看看"之前的內容,而不是只能線性地從頭到尾處理。實驗結果顯示,ARMT能夠將推理能力擴展到兩步,但仍然無法突破更深層次的限制。這種改善可能源于其段落分塊處理方式,迫使模型將規(guī)則表示和狀態(tài)表示分離,從而能夠生成中間狀態(tài)的隱藏表示。
第二種方法是自適應計算時間(ACT),這個概念聽起來復雜,但可以用一個簡單的比喻來理解:就像讓模型自己決定某個問題需要思考多長時間。對于簡單問題,模型可以快速給出答案;對于復雜問題,模型可以進行更多輪次的內部處理。ACT為Transformer模型提供了大約一個額外的有效推理步驟,但收益在三步以上開始遞減。
第三種方法是強化學習訓練,特別是使用組相對策略優(yōu)化(GRPO)方法。這種方法的巧妙之處在于,它不需要中間步驟的監(jiān)督信號,只需要知道最終答案是否正確。就像讓學生自由發(fā)揮解題思路,只要最終答案對了就給獎勵。令人驚喜的是,經過GRPO訓練的模型能夠達到三步推理的可靠性能,這證明了模型能夠學會在生成最終答案之前進行內部"思考"。
三、監(jiān)督信號的魔法效應
當研究團隊引入顯式的推理監(jiān)督時,效果立竿見影,就像給學生提供了詳細的解題步驟指導一樣。他們測試了兩種主要的監(jiān)督方式:軌道-軌道(O-O)訓練和思維鏈(CoT)訓練。
軌道-軌道訓練要求模型預測所有中間步驟,而不僅僅是最終結果。然而,單純的O-O訓練并沒有帶來預期的改善,甚至在某些情況下表現更差。這就像強迫學生寫出每一個計算步驟,但如果沒有正確的指導,反而可能讓學生更加困惑。
但是,當O-O訓練與自適應計算時間結合時,效果顯著改善,超越了基線模型和僅使用ACT的版本。這種組合就像是為學生提供了既要寫詳細步驟,又給足夠時間思考的最佳學習環(huán)境。
最令人印象深刻的是思維鏈訓練的效果。在這種訓練方式下,GPT-NeoX和ARMT模型都能成功進行四步預測,準確率接近完美。思維鏈訓練的核心思想是讓模型學會"大聲思考",即在生成最終答案之前,先生成解決問題的中間推理過程。這種方法將復雜的多步預測問題轉化為逐步的下一詞預測任務,大大降低了任務難度。
四、跨領域驗證:群乘法的啟示
為了驗證研究發(fā)現的普遍性,團隊還在群乘法基準上進行了測試。群乘法任務要求模型給出序列中每個元素與之前所有元素的累積乘積,這是另一個需要多步計算的推理任務。
結果與細胞自動機實驗高度一致。GPT-NeoX和Mamba模型解決較長序列需要更多層數,而具有循環(huán)特性的模型(ARMT和LSTM)能夠用恒定的層數解決不同長度的任務。LSTM在這個任務上表現特別出色,僅用一層就能解決問題,這得益于其天然的序列處理能力。
更重要的是,添加自適應計算時間或關聯記憶機制都能顯著減少所需的模型深度,這進一步證實了研究團隊在細胞自動機上的發(fā)現具有更廣泛的適用性。
五、實際應用的深遠意義
這些研究發(fā)現對大型語言模型的發(fā)展和應用具有重要啟示。首先,它們揭示了當前模型在多步推理方面的根本局限性。即使是在相對簡單的規(guī)則推導任務上,固定深度的模型也會遇到明確的性能瓶頸。
對于實際應用而言,這意味著單純增加模型參數可能不是提升推理能力的最佳途徑。相反,開發(fā)能夠動態(tài)調整計算深度的架構和訓練方法可能更有前景。自適應計算時間、強化學習訓練和思維鏈方法都展現了突破固定深度限制的潛力。
研究還強調了中間步驟監(jiān)督的重要性。在現實應用中,很多數據集很少包含長期、多步推理的監(jiān)督信號,因此像GRPO這樣只依賴最終答案正確性的方法顯得特別有價值。這為開發(fā)能夠自主學習復雜推理的AI系統開辟了新路徑。
從更宏觀的角度來看,這項研究為理解AI系統的認知極限提供了重要參考。它表明,真正的推理能力需要的不僅是大量參數和數據,還需要適當的架構設計和訓練策略來支持深層次的思維過程。
六、技術實現的細節(jié)洞察
在具體實現層面,研究團隊采用了20位寬度、鄰域半徑為2的一維細胞自動機配置,這意味著每個位置的下一狀態(tài)由其周圍5個位置的當前狀態(tài)決定。由于有2^5=32種可能的5位輸入,每個規(guī)則可以用32位字符串表示,總共有約43億種可能的規(guī)則。
訓練數據集包含95萬個實例,測試集包含10萬個實例,嚴格確保訓練和測試使用完全不同的規(guī)則集。這種設計杜絕了模型通過記憶訓練數據來"作弊"的可能性。
在評估指標方面,研究團隊對狀態(tài)預測使用精確匹配(全對或全錯),對規(guī)則預測使用位級準確率(考慮到某些規(guī)則轉換可能在觀察序列中未出現)。這種嚴格的評估標準確保了結果的可靠性。
模型架構方面,基線配置使用4層、128維的小規(guī)模模型,這樣的設計既能進行充分實驗,又不會因為計算資源限制而影響研究深度。自適應計算時間的最大迭代次數設定為4,這個選擇基于任務的推理深度需求。
七、未來發(fā)展的廣闊前景
這項研究為AI推理能力的發(fā)展指明了幾個重要方向。首先,開發(fā)更好的深度可擴展架構變得至關重要。傳統的固定深度模型在面對變化的推理需求時顯得力不從心,而能夠根據任務復雜度動態(tài)調整計算深度的模型將具有更大優(yōu)勢。
其次,無需中間監(jiān)督的推理學習方法具有巨大潛力。GRPO等強化學習方法展現的能力表明,AI系統可能無需人類提供詳細的推理步驟就能學會復雜推理。這對于處理人類難以提供完整監(jiān)督信號的復雜任務特別有價值。
再者,思維鏈等顯式推理方法的成功提示了一個重要方向:讓AI系統的推理過程更加透明和可控。這不僅能提升性能,還能增強AI系統的可解釋性和可信度。
最后,跨任務的推理能力泛化研究需要更多關注。雖然本研究在細胞自動機和群乘法兩個任務上得到了一致結果,但這些發(fā)現在更廣泛的推理任務中的適用性仍需進一步驗證。
說到底,這項研究就像為AI推理能力的發(fā)展提供了一張詳細的"體檢報告"。它不僅診斷出了當前模型的"健康問題",還為"治療方案"提供了清晰的指導。雖然完美的AI推理系統還需要時間來實現,但這項工作為我們指明了前進的方向,讓我們對未來AI系統的推理能力充滿期待。
歸根結底,真正的智能不僅在于記住已知的答案,更在于面對未知問題時能夠運用原理進行推理。這項研究揭示的深度與推理能力的關系、監(jiān)督信號的重要作用,以及突破固定限制的各種方法,都將為構建更智能、更可靠的AI系統奠定重要基礎。對于每一個關心AI發(fā)展的人來說,這些發(fā)現都值得深入思考和進一步探索。有興趣深入了解技術細節(jié)的讀者,可以通過arXiv:2508.16745獲取完整的研究論文。
Q&A
Q1:一維細胞自動機是什么?為什么要用它來測試AI推理能力?
A:一維細胞自動機就像一排燈泡,每個燈泡的下一秒狀態(tài)由它和鄰居燈泡的當前狀態(tài)按固定規(guī)律決定。研究團隊選擇它是因為可以確保訓練時和測試時使用完全不同的規(guī)律,這樣AI模型必須真正學會推導和應用規(guī)律,而不能靠記憶來"作弊"。這就像讓學生用從未見過的數學公式解題,能真正測試推理能力而非記憶能力。
Q2:為什么增加模型深度比增加寬度更能提升多步推理能力?
A:模型深度指信息處理的層數,就像思考問題需要經過多個環(huán)節(jié)一樣。研究發(fā)現,將Transformer從4層增加到12層對多步推理幫助很大,但增加每層參數數量(寬度)效果有限。這說明多步推理更需要"深度思考"而非"廣泛聯想",就像解復雜數學題需要一步步深入分析,而不是同時考慮更多無關信息。
Q3:什么是自適應計算時間,它如何幫助AI進行更深層推理?
A:自適應計算時間讓AI模型自己決定某個問題需要思考多長時間。對簡單問題快速給答案,對復雜問題進行更多輪內部處理。研究中,這種方法為Transformer提供了大約一個額外的推理步驟,就像給學生更多思考時間來解決難題,雖然提升有限但確實有效。
好文章,需要你的鼓勵
浙江大學團隊提出動態(tài)專家搜索方法,讓AI能根據不同問題靈活調整內部專家配置。該方法在數學、編程等任務上顯著提升推理準確率,且不增加計算成本。研究發(fā)現不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數學競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現了效率與性能的雙重優(yōu)化,為AI模型訓練提供了新思路。
南洋理工大學與騰訊聯合研究團隊開發(fā)出Rolling Forcing技術,實現AI視頻實時流式生成的重大突破。該技術通過滾動窗口聯合去噪、注意力錨點機制和高效訓練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質量視頻,延遲僅0.76秒,質量漂移指標從傳統方法的1.66降至0.01,為交互式媒體和內容創(chuàng)作開辟新可能。
華中科技大學研究團隊發(fā)現,通過讓AI模型學習解決幾何問題,能夠顯著提升其空間理解能力。他們構建了包含約30000個幾何題目的Euclid30K數據集,使用強化學習方法訓練多個AI模型。實驗結果顯示,幾何訓練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎幾何知識對培養(yǎng)AI空間智能的重要價值。