這項由劍橋大學、斯圖加特大學人工智能研究所、馬克斯·普朗克智能系統(tǒng)研究所等多家機構(gòu)合作完成的研究發(fā)表于2025年1月,論文標題為《The Illusion of Diminishing Returns: Measuring Long Horizon Execution in LLMs》。研究團隊的核心成員包括劍橋大學的Akshit Sinha、斯圖加特大學的Arvindh Arun、馬克斯·普朗克研究所的Shashwat Goel等人。有興趣深入了解的讀者可以通過arXiv:2509.09677獲取完整論文。
這項研究就像揭開了AI界的一個"皇帝新裝"的故事。當我們都在為大語言模型在復雜推理任務上的出色表現(xiàn)而歡呼時,研究團隊卻發(fā)現(xiàn)了一個令人震驚的現(xiàn)象:這些看似智慧超群的AI模型在執(zhí)行長期任務時,竟然會表現(xiàn)得像一個容易受挫的學生,越是看到自己之前的錯誤,就越容易繼續(xù)犯錯。
當前,整個AI行業(yè)都在激烈討論一個核心問題:繼續(xù)投入巨額資金擴大AI模型規(guī)模是否還有意義?畢竟,從表面上看,模型在單次測試中的改進似乎正在放緩。然而,這項研究提出了一個全新的視角:真正的經(jīng)濟價值可能不在于模型能否回答單個問題,而在于它能否可靠地完成需要多個步驟的長期任務。
研究團隊通過一個巧妙的實驗設計發(fā)現(xiàn)了一個深刻的數(shù)學規(guī)律:即使模型在單個步驟上的改進看似微不足道,這些微小的改進在長期任務中卻會產(chǎn)生指數(shù)級的收益。這就像滾雪球效應一樣,小小的改進會在長期任務中產(chǎn)生巨大的差異。
更令人驚訝的是,研究團隊還發(fā)現(xiàn)了一種前所未知的"自我設限效應"。AI模型在執(zhí)行長期任務時會產(chǎn)生一種奇特的心理暗示:當它在對話歷史中看到自己之前犯的錯誤時,就會變得更容易在接下來的步驟中繼續(xù)犯錯。這種現(xiàn)象不同于我們熟知的長文本處理能力下降,而是一種全新的AI行為模式。
研究團隊還發(fā)現(xiàn),那些具備"思考"能力的新一代AI模型(如最新的推理模型)在這方面表現(xiàn)出了質(zhì)的飛躍。它們不僅不會被自己的歷史錯誤所困擾,還能在單次互動中執(zhí)行更長的任務序列。其中,GPT-5的表現(xiàn)尤為突出,能夠連續(xù)執(zhí)行超過1000個步驟的任務,遠超其他競爭對手。
這項研究的意義遠不止于學術(shù)探討。它直接回應了當前AI行業(yè)最核心的爭議:在看似收益遞減的表象下,繼續(xù)投資AI模型擴展是否明智?研究結(jié)果表明,如果我們將AI模型的價值定義為它們能夠自主完成的任務長度,那么即使是微小的改進也值得巨額投資。
一、微小改進的指數(shù)回報:數(shù)學魔法背后的真相
要理解這項研究的核心發(fā)現(xiàn),我們可以把AI執(zhí)行長期任務比作一個登山者攀登珠穆朗瑪峰。每一步都有可能出錯,而一旦在某一步摔倒,整個登山任務就會失敗。在這種情況下,登山者每一步的成功率看似只是提升了幾個百分點,但這種微小的改進會在整個登山過程中產(chǎn)生戲劇性的差異。
研究團隊建立了一個嚴格的數(shù)學模型來描述這種現(xiàn)象。假設一個AI模型在單個步驟中的準確率是p,那么它在完成H個步驟的任務時保持50%成功率所能達到的任務長度大約是-ln(2)/ln(p)。這個公式雖然看起來抽象,但它揭示了一個驚人的規(guī)律:當準確率從90%提升到95%時,模型能夠可靠完成的任務長度會從大約7步躍升到14步,幾乎翻了一倍。
更令人震撼的是,當準確率接近完美時,這種效應會變得更加顯著。研究團隊發(fā)現(xiàn),在高準確率區(qū)域,每提升1%的準確率,任務執(zhí)行長度的改進會呈現(xiàn)平方級增長。這就像在接近山頂時,每減少一點失誤的概率,登頂成功的可能性就會急劇上升。
為了驗證這個理論,研究團隊分析了軟件工程領域的實際數(shù)據(jù)。他們發(fā)現(xiàn),最先進AI模型能夠可靠完成的任務長度確實在以指數(shù)速度增長,大約每7個月翻一倍。這個發(fā)現(xiàn)與他們的數(shù)學預測完全吻合,進一步證實了微小改進在長期任務中的巨大價值。
這種數(shù)學關(guān)系對整個AI行業(yè)具有深遠的啟示意義。它表明,即使在單項測試中看起來改進緩慢的情況下,這些改進在實際應用中的價值可能遠超我們的預期。就像復利效應在投資中的作用一樣,微小而持續(xù)的改進在長期任務中會產(chǎn)生令人驚訝的復合收益。
二、巧妙的實驗設計:將復雜任務簡化為純執(zhí)行測試
為了準確測量AI模型的長期執(zhí)行能力,研究團隊面臨著一個巨大的挑戰(zhàn):如何將復雜的現(xiàn)實任務中的規(guī)劃、知識獲取和執(zhí)行三個環(huán)節(jié)分離開來?他們的解決方案堪稱巧妙,就像設計了一個純凈的實驗室環(huán)境來觀察化學反應。
研究團隊創(chuàng)造了一個類似"查字典做加法"的簡化任務。在這個任務中,AI模型需要根據(jù)給定的計劃(一系列關(guān)鍵詞),從一個預設的詞匯-數(shù)值字典中查找對應的數(shù)值,然后將這些數(shù)值累加到一個運行總和中。這個設計的精妙之處在于,它完全消除了規(guī)劃和知識獲取的需求:計劃已經(jīng)明確給出(查找哪些詞),知識也完全提供(字典內(nèi)容),剩下的就是純粹的執(zhí)行過程。
這就像給一個廚師提供了完整的食譜和所有食材,然后觀察他們能否嚴格按照步驟制作出正確的菜品。任何失誤都不能歸咎于不知道怎么做或缺少原材料,而只能說明執(zhí)行過程出現(xiàn)了問題。
研究團隊特意選擇了五個字母的英文單詞作為關(guān)鍵詞,數(shù)值范圍設定在-99到99之間。這種設計最大程度地減少了因為詞匯分割或數(shù)值計算復雜性而產(chǎn)生的額外錯誤。整個任務被設計成馬爾可夫過程,即每一步的結(jié)果只依賴于前一步的狀態(tài)和當前的輸入,這樣可以精確控制任務的復雜度。
實驗設計還引入了兩個重要的維度:回合數(shù)量和回合復雜度?;睾蠑?shù)量指的是AI需要進行多少次獨立的查找-計算操作,而回合復雜度則指每次操作中需要同時處理多少個關(guān)鍵詞。通過調(diào)整這兩個參數(shù)的組合,研究團隊可以精確控制整體任務的長度和難度。
為了確保實驗結(jié)果的可靠性,研究團隊為每個模型準備了100個不同的任務序列,每個序列包含多達50000個步驟。他們還特別注意了格式規(guī)范的問題,通過明確的指令和少樣本示例確保模型能夠按照要求的格式輸出結(jié)果。
三、令人意外的發(fā)現(xiàn):AI模型的執(zhí)行能力存在巨大差距
當研究團隊開始測試不同規(guī)模的AI模型時,他們發(fā)現(xiàn)了一系列令人震驚的結(jié)果。即使是那些在單步操作中表現(xiàn)完美的模型,在面對長期任務時也會出現(xiàn)顯著的性能下降。這種現(xiàn)象打破了人們對AI能力的常規(guī)認知。
以Qwen和Gemma兩個模型系列為例,研究團隊發(fā)現(xiàn)了清晰的規(guī)模效應。在最簡單的設置下(每回合只處理一個關(guān)鍵詞),所有模型除了最小的4B參數(shù)版本外,都能在第一步達到100%的準確率。這表明它們完全具備了執(zhí)行單步操作所需的知識和推理能力。
然而,隨著任務步驟的增加,不同規(guī)模模型之間的差距開始顯現(xiàn)。32B參數(shù)的Qwen模型能夠維持相對較高的準確率直到大約15個回合,而較小的模型則在幾個回合后就開始急劇下降。更令人驚訝的是,即使是最大的模型,其任務準確率也會在15個回合后跌落到50%以下。
這種現(xiàn)象不能簡單地用計算資源不足來解釋,因為任務本身的計算需求并不高。研究團隊意識到,這里存在著更深層的機制在起作用。通過仔細分析模型在不同回合的表現(xiàn),他們發(fā)現(xiàn)了一個關(guān)鍵規(guī)律:模型的單步準確率會隨著任務進展而逐漸降低,這種降低不是恒定的錯誤率累積,而是一種動態(tài)的惡化過程。
更有趣的是,研究團隊發(fā)現(xiàn)模型規(guī)模的擴大帶來的改進并非線性的。從14B參數(shù)擴展到32B參數(shù),模型能夠可靠完成的任務長度提升幅度遠超預期。這種非線性的改進模式表明,大規(guī)模模型在長期執(zhí)行能力上可能存在某種"相變"現(xiàn)象,就像水在特定溫度下突然從液體變?yōu)闅怏w一樣。
當研究團隊將目光轉(zhuǎn)向最先進的思考型模型時,他們發(fā)現(xiàn)了更加戲劇性的差異。傳統(tǒng)的DeepSeek-V3模型在執(zhí)行兩步操作時就開始出現(xiàn)問題,而具備思考能力的DeepSeek-R1卻能夠連續(xù)執(zhí)行200個步驟。GPT-5思考版本(代號"Horizon")的表現(xiàn)更是令人驚嘆,能夠執(zhí)行超過1000個步驟的任務,將第二名Claude-4-Sonnet的432步遠遠甩在身后。
四、神秘的自我設限現(xiàn)象:AI模型如何被自己的錯誤"洗腦"
在深入分析模型性能下降的原因時,研究團隊發(fā)現(xiàn)了一個前所未知的現(xiàn)象,他們將其命名為"自我設限效應"。這種效應的發(fā)現(xiàn)過程充滿了科學探索的戲劇性。
最初,研究團隊假設模型性能下降可能有兩種原因:一是隨著對話歷史變長,模型的長文本處理能力下降;二是模型會被自己之前的錯誤"帶偏",變得更容易繼續(xù)犯錯。為了區(qū)分這兩種可能性,他們設計了一個巧妙的對照實驗。
實驗的核心思路是人為操控AI模型看到的歷史記錄。他們創(chuàng)造了不同錯誤率的"虛假歷史":有些歷史記錄是完全正確的,有些包含25%的錯誤,還有些包含50%甚至更高比例的錯誤。通過讓模型在這些不同的歷史背景下執(zhí)行相同的任務,研究團隊可以分離出長文本處理衰減和錯誤誘導效應的各自影響。
實驗結(jié)果令人震撼。當模型面對完全正確的歷史記錄時,它在第100個回合的表現(xiàn)確實會比第1個回合有所下降,但這種下降相對溫和,可以歸因于長文本處理的固有限制。然而,當歷史記錄中的錯誤率逐漸上升時,模型的表現(xiàn)出現(xiàn)了急劇的惡化。在錯誤率達到50%的歷史背景下,模型在第100個回合的準確率會比在正確歷史背景下降低30%以上。
更令人擔憂的是,這種自我設限效應并不會隨著模型規(guī)模的擴大而消失。研究團隊測試了從幾十億參數(shù)到數(shù)千億參數(shù)的各種模型,包括最新的前沿模型如Kimi-K2、DeepSeek-V3和Qwen3-235B-Instruct-2507。他們發(fā)現(xiàn),雖然大規(guī)模模型在處理長文本方面有了顯著改進,但在面對錯誤歷史時的脆弱性卻沒有相應減少。
這種現(xiàn)象的機制可能與模型的訓練方式有關(guān)。大語言模型在訓練過程中學會了根據(jù)上下文預測最可能的下一個詞匯,這種機制在面對包含錯誤的歷史時可能會產(chǎn)生負面影響。當模型看到自己之前犯過的錯誤時,它可能會"學習"這些錯誤模式,并在后續(xù)步驟中重復這些模式。
研究團隊還發(fā)現(xiàn),這種效應在不同類型的模型中表現(xiàn)形式略有不同。有些模型會在推理過程中明確參考之前的錯誤決策,有些則會在無意識中調(diào)整自己的決策模式以"符合"歷史記錄的錯誤傾向。這種多樣性表明,自我設限效應可能是大語言模型架構(gòu)中的一個基本特征,而不是特定訓練方法的副產(chǎn)品。
五、思考型模型的突破:如何打破自我設限的魔咒
在發(fā)現(xiàn)了傳統(tǒng)模型的自我設限問題后,研究團隊將注意力轉(zhuǎn)向了新一代的思考型AI模型。這些模型的工作方式類似于人類在解決問題時的內(nèi)心獨白過程:在給出最終答案之前,它們會進行一段詳細的推理過程。
研究團隊選擇了具備思考能力的Qwen3模型進行深入測試。這些模型經(jīng)過了強化學習訓練,學會了在回答問題之前生成詳細的推理軌跡。與傳統(tǒng)的鏈式思考提示不同,這些模型即使在歷史記錄中只看到最終答案的情況下,也能主動進行深度思考。
實驗結(jié)果令人振奮。當研究團隊使用與傳統(tǒng)模型相同的錯誤歷史誘導實驗時,思考型模型表現(xiàn)出了完全不同的行為模式。即使面對100%錯誤率的歷史記錄,這些模型在第100個回合的表現(xiàn)仍然保持穩(wěn)定,沒有表現(xiàn)出任何自我設限的跡象。
這種免疫力的來源可能有兩個方面。首先,強化學習訓練改變了模型的根本目標導向。傳統(tǒng)模型主要學習預測最符合上下文的下一個詞匯,而經(jīng)過強化學習的模型更關(guān)注任務的成功完成。這種目標導向的轉(zhuǎn)變使得模型更不容易被歷史記錄中的錯誤模式所影響。
其次,思考過程本身可能起到了"隔離"作用。通過分析這些模型的思考軌跡,研究團隊發(fā)現(xiàn)它們在處理新任務時很少直接參考歷史記錄中的具體內(nèi)容。相反,它們會獨立地分析當前任務,就像每次都在重新開始一樣。這種行為模式有效地斷開了歷史錯誤與當前決策之間的聯(lián)系。
在單回合執(zhí)行能力的測試中,思考型模型展現(xiàn)出了更加驚人的表現(xiàn)。傳統(tǒng)模型在沒有思考過程的情況下,即使是最大的模型也很難處理需要同時操作兩個以上關(guān)鍵詞的任務。這個限制與之前的理論研究結(jié)果一致:變壓器架構(gòu)在沒有中間計算步驟的情況下,難以執(zhí)行需要多步推理的任務。
然而,一旦啟用思考功能,模型的表現(xiàn)立即發(fā)生了質(zhì)的飛躍。所有啟用思考功能的模型都能夠輕松處理復雜度為2的任務,許多甚至能夠處理復雜度為10或更高的任務。在這個維度上,GPT-5思考版本再次展現(xiàn)了其領先地位,能夠在單次互動中執(zhí)行超過1000個步驟的復雜任務序列。
研究團隊還嘗試了幾種傳統(tǒng)的改進方法來對比思考型模型的優(yōu)勢。多數(shù)投票方法(讓模型多次執(zhí)行同一任務并選擇最常見的答案)只能帶來邊際改進。自我驗證提示(讓模型檢查自己的工作)不僅效果有限,還會增加計算成本并可能導致新的錯誤。
六、實際應用的深遠影響:重新定義AI模型的經(jīng)濟價值
這項研究的發(fā)現(xiàn)對整個AI產(chǎn)業(yè)的發(fā)展方向具有重要的指導意義。它從根本上改變了我們評估AI模型價值的方式,提出了一個全新的價值衡量標準:模型能夠可靠完成的任務長度。
在傳統(tǒng)的AI評估體系中,研究人員和工業(yè)界主要關(guān)注模型在單次問答或短期任務中的表現(xiàn)。各種基準測試如MMLU、GSM8K等都側(cè)重于測量模型回答單個問題的準確性。然而,這項研究表明,這種評估方式可能嚴重低估了模型改進的真實價值。
考慮一個具體的應用場景:自動化軟件開發(fā)。一個AI編程助手需要理解需求、設計架構(gòu)、編寫代碼、測試功能、調(diào)試問題,然后進行優(yōu)化。這個過程可能涉及數(shù)百個相互依賴的步驟,任何一個步驟的失誤都可能導致整個項目的失敗。在這種場景下,模型在單個編程問題上準確率從85%提升到90%的改進,可能意味著它能夠可靠完成的項目復雜度增加了一倍甚至更多。
研究結(jié)果還為AI投資決策提供了新的理論基礎。當前,一些觀察家因為看到AI模型在標準基準測試上的改進速度放緩而質(zhì)疑繼續(xù)大規(guī)模投資的價值。然而,這項研究表明,即使在單項測試中看似微小的改進,在長期任務執(zhí)行能力上可能帶來巨大的突破。
這種視角轉(zhuǎn)換對不同類型的AI應用具有不同的影響程度。對于需要長期推理和多步驟執(zhí)行的應用(如科學研究、復雜分析、創(chuàng)意寫作等),模型規(guī)模和思考能力的投資回報可能遠超預期。而對于相對簡單的單次交互應用(如簡單問答、文本分類等),這種效應雖然存在但可能不那么明顯。
研究團隊特別強調(diào)了思考型模型在這個新價值體系中的重要地位。傳統(tǒng)模型的自我設限效應意味著,僅僅通過擴大模型規(guī)??赡軣o法完全解決長期執(zhí)行能力的問題。相比之下,思考型模型通過根本性地改變工作機制,為長期任務執(zhí)行提供了更加可靠的基礎。
從經(jīng)濟學角度來看,這項研究提出了一個有趣的觀點:AI模型的經(jīng)濟價值可能主要來源于其能夠自主完成的任務長度,而不是單次交互的質(zhì)量。這與人類勞動力的價值評估方式更加相似——我們通常根據(jù)一個人能夠獨立完成多復雜的項目來評估其價值,而不僅僅是回答單個問題的能力。
七、未來展望與局限性:這項研究能帶我們走多遠
盡管這項研究提供了重要的見解,但研究團隊也坦誠地承認了其局限性。他們設計的實驗任務雖然巧妙地隔離了執(zhí)行能力,但與現(xiàn)實世界的復雜任務仍有差距。在真實的應用場景中,AI模型面臨的挑戰(zhàn)不僅包括執(zhí)行,還包括動態(tài)規(guī)劃、知識整合、環(huán)境適應等多個方面。
研究團隊特別指出,他們的任務設計是馬爾可夫性的,即每一步只依賴于前一步的狀態(tài)。這種簡化雖然有利于精確測量,但在現(xiàn)實任務中,AI模型經(jīng)常需要記住和利用更早期的信息。在這種非馬爾可夫環(huán)境中,自我設限效應可能會表現(xiàn)出不同的特征。
另一個重要局限是關(guān)于自我糾錯能力的考量。研究中的任務要求絕對準確性,任何單步錯誤都會導致整個任務失敗。但在許多實際應用中,AI模型具有發(fā)現(xiàn)和糾正錯誤的機會。如何在允許自我糾錯的環(huán)境中測量長期執(zhí)行能力,是一個值得進一步探索的問題。
研究結(jié)果的普遍適用性也需要進一步驗證。當前的實驗主要基于數(shù)值計算任務,雖然這類任務能夠提供精確的對錯判斷,但它們可能無法完全代表所有類型的長期任務。在涉及創(chuàng)意、判斷、社交互動等更復雜的任務中,長期執(zhí)行能力的評估和改進可能需要不同的方法。
盡管存在這些局限性,研究團隊對未來的發(fā)展前景表示樂觀。他們認為,理解長期執(zhí)行能力的基本機制為改進AI模型提供了新的方向。除了繼續(xù)擴大模型規(guī)模外,還可以通過改進訓練方法、優(yōu)化架構(gòu)設計、增強思考能力等途徑來提升長期執(zhí)行性能。
研究還為AI安全和可靠性研究開辟了新的視角。自我設限效應的發(fā)現(xiàn)表明,AI模型在某些情況下可能會表現(xiàn)出"學習錯誤模式"的傾向。理解和控制這種傾向?qū)τ诖_保AI系統(tǒng)在關(guān)鍵應用中的可靠性具有重要意義。
從更宏觀的角度來看,這項研究凸顯了在AI快速發(fā)展過程中進行基礎性研究的重要性。在追求更好性能的同時,深入理解AI模型的內(nèi)在機制和局限性同樣重要。只有在充分理解的基礎上,我們才能更好地指導AI技術(shù)的發(fā)展方向,避免盲目投資和技術(shù)誤區(qū)。
研究團隊提出的"執(zhí)行優(yōu)先"觀點也為AI評估標準的發(fā)展提供了新思路。未來的AI基準測試可能需要更多地關(guān)注長期任務執(zhí)行能力,而不僅僅是單次交互的表現(xiàn)。這種轉(zhuǎn)變可能會推動整個AI研究社區(qū)重新思考技術(shù)發(fā)展的優(yōu)先級和投資方向。
說到底,這項研究就像為AI發(fā)展路線圖增添了一個新的重要路標。它告訴我們,在追求AI智能的道路上,持續(xù)性和可靠性可能比瞬間的聰明才智更加重要。就像馬拉松選手的價值不在于能跑多快的百米沖刺,而在于能夠穩(wěn)定地保持配速完成全程一樣,AI模型的真正價值可能在于它們能夠可靠地完成多長的任務序列。
對于普通用戶來說,這項研究的意義在于,我們可能很快就會看到能夠獨立完成復雜項目的AI助手。無論是寫一本書、開發(fā)一個軟件、還是進行一項科學研究,這些AI助手都能夠從始至終地提供可靠的支持,而不是像現(xiàn)在這樣只能處理零散的問題片段。
當然,這一切的前提是AI開發(fā)者能夠充分理解和應用這項研究的發(fā)現(xiàn)。如何將這些理論洞察轉(zhuǎn)化為實用的技術(shù)改進,如何在保持長期可靠性的同時提升AI的其他能力,這些都是接下來需要解決的挑戰(zhàn)。但無論如何,這項研究已經(jīng)為我們指明了一個清晰的方向:在AI的未來發(fā)展中,長期執(zhí)行能力將成為一個關(guān)鍵的競爭優(yōu)勢。
Q&A
Q1:什么是大語言模型的"自我設限效應"?
A:自我設限效應是指AI模型在執(zhí)行長期任務時,看到自己之前犯的錯誤后會變得更容易繼續(xù)犯錯的現(xiàn)象。就像一個學生看到自己的錯題后心理暗示增強,反而更容易在類似問題上出錯。這種效應不同于長文本處理能力下降,是一種全新發(fā)現(xiàn)的AI行為模式,即使是最大規(guī)模的傳統(tǒng)模型也無法避免。
Q2:為什么微小的單步準確率改進會帶來指數(shù)級的長期任務能力提升?
A:這遵循一個數(shù)學規(guī)律:在長期任務中,任何一步出錯都會導致整個任務失敗。所以模型完成H步任務的成功率是單步準確率的H次方。當準確率從90%提升到95%時,能夠可靠完成的任務長度會從7步躍升到14步。這就像登山時,每一步的成功率微小提升會讓登頂概率急劇上升。
Q3:思考型AI模型(如GPT-5)在長期任務執(zhí)行上有什么優(yōu)勢?
A:思考型模型在兩個方面表現(xiàn)突出:首先,它們不會出現(xiàn)自我設限效應,即使面對全是錯誤的歷史記錄也能保持穩(wěn)定表現(xiàn);其次,它們能在單次互動中執(zhí)行更長的任務序列,GPT-5能執(zhí)行超過1000個步驟,遠超傳統(tǒng)模型的幾步到幾十步。這主要因為思考過程提供了"隔離"作用和強化學習改變了目標導向。
好文章,需要你的鼓勵
浙江大學團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學、編程等任務上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓練提供了新思路。
南洋理工大學與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學研究團隊發(fā)現(xiàn),通過讓AI模型學習解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學習方法訓練多個AI模型。實驗結(jié)果顯示,幾何訓練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎幾何知識對培養(yǎng)AI空間智能的重要價值。