av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<ul id="ni9sv"></ul>

微信掃一掃，關(guān)注公眾號

科技行者
算力行者

見證連接與計算的「力量」

ByteDance推出T-PPO算法：AI訓(xùn)練速度提升2.5倍的秘密武器

人工智能強化學(xué)習(xí)算法優(yōu)化

ByteDance推出T-PPO算法：AI訓(xùn)練速度提升2.5倍的秘密武器

作者：科技行者

2025-06-24 13:50

分享至：

字節(jié)跳動團隊開發(fā)出T-PPO算法，通過"邊做邊學(xué)"的訓(xùn)練方式，讓AI訓(xùn)練效率提升2.5倍。該技術(shù)突破了傳統(tǒng)PPO必須等待完整推理的限制，采用截斷式訓(xùn)練和獨立優(yōu)化機制，在AIME數(shù)學(xué)競賽中獲得62分優(yōu)異成績。這一創(chuàng)新不僅降低了AI訓(xùn)練成本，還為推理模型的發(fā)展指明新方向，有望推動AI技術(shù)在教育、科研等領(lǐng)域的廣泛應(yīng)用。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-24 13:50 ? 科技行者

今年6月，字節(jié)跳動種子團隊發(fā)布了一項名為"Truncated Proximal Policy Optimization"（T-PPO，截斷式近端策略優(yōu)化）的重要研究成果。這項研究由字節(jié)跳動種子實驗室的樊天天研究員領(lǐng)導(dǎo)，聯(lián)合清華大學(xué)AIR實驗室共同完成，并已在arXiv平臺發(fā)表（論文編號：arXiv:2506.15050v1）。對于想要深入了解技術(shù)細節(jié)的讀者，可以通過這個編號在arXiv官網(wǎng)搜索獲取完整論文。

在人工智能飛速發(fā)展的今天，我們經(jīng)常聽到ChatGPT、文心一言這樣的AI模型能夠進行復(fù)雜推理，回答各種難題。但你可能不知道，要讓這些AI變得如此聰明，背后需要進行大量的"訓(xùn)練"過程，就像教導(dǎo)一個學(xué)生解數(shù)學(xué)題一樣。而這個訓(xùn)練過程往往耗時巨大，成本高昂。字節(jié)跳動的研究團隊就像發(fā)明了一種新的"高效學(xué)習(xí)法"，能讓AI的學(xué)習(xí)速度提升2.5倍，同時還能保持甚至提高學(xué)習(xí)效果。

這項研究的核心在于解決一個實際問題：當前最流行的AI訓(xùn)練方法PPO（近端策略優(yōu)化）雖然效果不錯，但就像一個過分謹慎的老師，總是要等所有學(xué)生都完成整套題目后才開始批改和指導(dǎo)，這導(dǎo)致了大量的等待時間和資源浪費。研究團隊提出的T-PPO算法就像一位更靈活的教師，能夠在學(xué)生解題過程中就開始提供指導(dǎo)，不必等到全部完成，從而大大提高了教學(xué)效率。

研究的創(chuàng)新之處在于兩個核心技術(shù)突破。第一個突破是"擴展廣義優(yōu)勢估計"（EGAE），這就像是給老師配備了一副特殊的眼鏡，讓他能夠在學(xué)生還沒做完全部題目時，就準確判斷出學(xué)生前面部分的表現(xiàn)好壞，并及時給出指導(dǎo)。第二個突破是"獨立優(yōu)化機制"，就像同時安排兩位專業(yè)教師分別負責不同方面的指導(dǎo)，一位專注于解題思路的培養(yǎng)，另一位專注于答案準確性的評估，兩者可以同時進行工作，不會相互干擾。

團隊在著名的AIME 2024數(shù)學(xué)競賽題目上測試了這個新方法。AIME是美國頂級的數(shù)學(xué)競賽，題目難度相當于奧數(shù)水平，需要很長的推理鏈條才能解出答案。就像讓AI參加一場馬拉松式的數(shù)學(xué)考試，不僅要答對，還要展示完整的解題過程。結(jié)果顯示，使用T-PPO訓(xùn)練的32B參數(shù)Qwen2.5模型在這項測試中獲得了62分的優(yōu)秀成績，不僅超過了其他競爭方法，還將訓(xùn)練時間縮短了60%。

一、AI學(xué)習(xí)的瓶頸：等待的藝術(shù)變成了浪費的科學(xué)

要理解T-PPO的價值，我們首先需要了解當前AI訓(xùn)練面臨的核心問題。現(xiàn)在最主流的AI訓(xùn)練方法叫做PPO，它的工作方式就像一個極其負責任但效率不高的家教老師。

當這位老師給學(xué)生布置了一套復(fù)雜的數(shù)學(xué)題后，他會耐心等待每個學(xué)生都完成全部題目，然后才開始批改和給出反饋。這種做法雖然保證了教學(xué)質(zhì)量，但存在一個明顯的問題：有些學(xué)生做題快，有些學(xué)生做題慢，快的學(xué)生早早完成后就只能干等著，而老師也必須等到最慢的學(xué)生完成后才能開始下一輪教學(xué)。

在AI訓(xùn)練的世界里，這個問題變得更加嚴重。當我們讓AI解決復(fù)雜推理問題時，比如證明數(shù)學(xué)定理或者分析科學(xué)問題，AI需要生成很長的"思考過程"，就像學(xué)生寫詳細的解題步驟一樣。有些問題可能需要幾千個文字的推理過程，而有些問題可能只需要幾百個文字。但按照傳統(tǒng)PPO的做法，系統(tǒng)必須等到所有AI都完成最長的推理過程后，才能開始學(xué)習(xí)和改進。

這就導(dǎo)致了一個被研究人員稱為"硬件利用率低"的問題。想象一下，一個擁有強大計算能力的超級計算機，在大部分時間里都在"發(fā)呆"等待，就像一臺法拉利跑車被迫在擁堵的城市道路上緩慢行駛一樣，完全無法發(fā)揮其真正的性能。

更糟糕的是，隨著AI推理能力的提升，它們生成的推理過程越來越長，等待時間也越來越久。這就像原本需要1小時的作業(yè)現(xiàn)在變成了3小時，而等待時間也相應(yīng)地從1小時變成了3小時，整個訓(xùn)練過程變得越來越緩慢和昂貴。

研究團隊意識到，這個問題的本質(zhì)在于傳統(tǒng)方法過于"同步化"—— 所有的學(xué)習(xí)都必須等到所有的生成過程都完成。這種嚴格的同步要求雖然保證了訓(xùn)練的穩(wěn)定性，但也成為了效率提升的最大障礙。就像一支軍隊行軍時必須等待最慢的士兵一樣，整個隊伍的速度被最慢的那個環(huán)節(jié)所限制。

同時，研究人員還發(fā)現(xiàn)了另一個問題：在長時間的推理過程中，AI在前面部分的表現(xiàn)往往比后面部分更容易評估和改進。就像學(xué)生在解數(shù)學(xué)題時，前面的基礎(chǔ)步驟通常比最后的復(fù)雜計算更重要，也更容易判斷對錯。但傳統(tǒng)方法卻要等到學(xué)生完成全部步驟后才開始任何指導(dǎo)，這無疑浪費了很多寶貴的學(xué)習(xí)機會。

二、突破性解決方案：邊做邊學(xué)的智慧

面對這些挑戰(zhàn)，字節(jié)跳動的研究團隊提出了一個革命性的想法：為什么不能讓AI在生成推理過程的同時就開始學(xué)習(xí)呢？這就像讓老師在學(xué)生做題過程中就開始提供指導(dǎo)，而不是等到全部完成后才開始。

T-PPO的核心思想可以用一個生動的比喻來理解：傳統(tǒng)的PPO就像一個傳統(tǒng)的課堂，老師必須等所有學(xué)生都完成考試后才能批改試卷，然后統(tǒng)一講解。而T-PPO則像一個現(xiàn)代化的智能學(xué)習(xí)系統(tǒng)，能夠?qū)崟r監(jiān)控每個學(xué)生的答題進度，在學(xué)生完成部分題目后就開始提供針對性的指導(dǎo)，同時讓完成得快的學(xué)生不用干等，可以立即開始新的學(xué)習(xí)任務(wù)。

這個新方法的第一個關(guān)鍵創(chuàng)新是"擴展廣義優(yōu)勢估計"（EGAE）。聽起來很復(fù)雜，但實際上這就像給老師配備了一種特殊的"透視能力"。傳統(tǒng)方法中，老師只能在學(xué)生完成全部題目后才能評判這個學(xué)生的表現(xiàn)好壞。而EGAE讓老師能夠在學(xué)生只完成一半題目的情況下，就準確預(yù)測這個學(xué)生最終的表現(xiàn)，并據(jù)此提供恰當?shù)闹笇?dǎo)。

這種"透視能力"是怎么實現(xiàn)的呢？研究團隊巧妙地利用了一個數(shù)學(xué)原理：在長期的推理過程中，前面步驟的重要性往往比后面步驟更大，就像建房子時地基比屋頂裝飾更重要一樣。通過精確的數(shù)學(xué)計算，EGAE能夠根據(jù)已完成的部分推理，合理估計整個推理過程的質(zhì)量，從而允許系統(tǒng)在推理還沒完成時就開始學(xué)習(xí)改進。

第二個關(guān)鍵創(chuàng)新是"獨立優(yōu)化機制"。這個機制就像在學(xué)校里同時安排兩位專業(yè)教師：一位"思維教練"專門負責培養(yǎng)學(xué)生的解題思路和推理方法，另一位"準確性評估師"專門負責檢查答案的正確性。這兩位教師可以同時工作，互不干擾，大大提高了教學(xué)效率。

在技術(shù)層面，"思維教練"對應(yīng)的是策略模型的訓(xùn)練，它關(guān)注AI如何一步步生成推理過程。由于有了EGAE的幫助，這個教練不需要等到推理完全結(jié)束，就可以在推理進行到一半時開始指導(dǎo)AI改進思維方式。而"準確性評估師"對應(yīng)的是價值模型的訓(xùn)練，它專門負責判斷最終答案的正確性。為了保證評估的準確性，這個評估師會耐心等到推理完全結(jié)束，看到最終答案后再進行評估。

這種分工合作的方式帶來了雙重好處：既保證了學(xué)習(xí)的質(zhì)量（通過準確的最終評估），又大大提高了學(xué)習(xí)的效率（通過及時的過程指導(dǎo)）。就像一個優(yōu)秀的體育教練既要在訓(xùn)練過程中及時糾正運動員的動作，也要在比賽結(jié)束后根據(jù)最終成績制定新的訓(xùn)練計劃。

三、令人驚喜的實驗成果：數(shù)據(jù)說話的時刻

為了驗證T-PPO的效果，研究團隊選擇了一個極具挑戰(zhàn)性的測試平臺：AIME 2024數(shù)學(xué)競賽。AIME（美國數(shù)學(xué)邀請賽）是美國最高水平的高中數(shù)學(xué)競賽之一，題目難度堪比奧數(shù)，每道題都需要復(fù)雜的推理過程才能解決。這就像讓AI參加一場馬拉松式的數(shù)學(xué)考試，不僅要得出正確答案，還要展示完整的解題思路。

實驗使用的是Qwen2.5-32B基礎(chǔ)模型，這是一個擁有320億參數(shù)的大型語言模型。研究團隊讓這個模型通過不同的訓(xùn)練方法學(xué)習(xí)解決數(shù)學(xué)問題，然后在AIME 2024的題目上測試它們的表現(xiàn)。結(jié)果讓人印象深刻：使用T-PPO訓(xùn)練的模型最終獲得了62分的優(yōu)秀成績，超過了所有其他競爭方法。

更令人興奮的是訓(xùn)練效率的巨大提升。傳統(tǒng)的PPO方法需要大約16,800秒（約4.7小時）才能達到收斂，而T-PPO只需要6,720秒（約1.9小時）就能達到更好的效果，訓(xùn)練時間縮短了60%。這就像原本需要5小時的車程現(xiàn)在只需要2小時就能到達，而且還能欣賞到更美的風(fēng)景。

從具體的技術(shù)指標來看，T-PPO在多個關(guān)鍵維度都展現(xiàn)出了優(yōu)勢。在計算效率方面，傳統(tǒng)PPO在政策展開階段的計算強度只有84操作/字節(jié)，而T-PPO達到了249操作/字節(jié)，幾乎是傳統(tǒng)方法的3倍。這個數(shù)字聽起來很抽象，但可以這樣理解：計算強度越高，說明計算資源的利用越充分，就像一臺機器從原來只發(fā)揮30%的性能提升到了90%的性能。

在訓(xùn)練穩(wěn)定性方面，T-PPO也表現(xiàn)出色。研究團隊觀察到，使用T-PPO訓(xùn)練的模型在學(xué)習(xí)過程中表現(xiàn)出了一個有趣的現(xiàn)象：生成的推理長度先是增加，然后稍微下降，最后穩(wěn)定在一個比傳統(tǒng)方法更高的水平。這個過程就像學(xué)生學(xué)習(xí)解題一樣——剛開始時會寫很多冗余的步驟，然后學(xué)會簡化，最后找到既簡潔又完整的最佳表達方式。

更重要的是，T-PPO不僅在效率上有所提升，在最終效果上也有所改善。在AIME 2024的測試中，T-PPO超越了包括DeepSeek-R1-Zero-Qwen-32B（47分）、DAPO（50分）、VAPO（60分）、GePPO（50分）和PPO-EWMA（52分）在內(nèi)的所有基準方法。這證明了效率提升并沒有以犧牲質(zhì)量為代價，反而通過更好的訓(xùn)練策略獲得了雙重收益。

四、深入解析：技術(shù)創(chuàng)新的核心機制

要真正理解T-PPO為什么能取得如此顯著的成果，我們需要深入了解其技術(shù)創(chuàng)新的核心機制。這些機制雖然在表面上看起來復(fù)雜，但背后的邏輯卻相當直觀和巧妙。

首先是"截斷策略"的設(shè)計理念。傳統(tǒng)方法就像一個完美主義者，堅持要看到每個學(xué)生完成全部作業(yè)后才開始評價。而T-PPO采用了一種更加靈活的方式：設(shè)定一個"窗口長度"，比如2000個詞，當AI的推理達到這個長度時就先停下來進行一次學(xué)習(xí)，即使推理還沒有完全結(jié)束。這就像將一場馬拉松比賽分成若干個檢查點，在每個檢查點都可以給運動員補給和指導(dǎo)，而不是等到終點才進行總結(jié)。

在具體實施中，研究團隊設(shè)置了24,000個詞作為最大推理長度，8,000個詞作為窗口長度。這意味著每個長推理過程被分成了3個階段，每個階段都可以獨立進行學(xué)習(xí)和優(yōu)化。這種分段處理方式不僅提高了訓(xùn)練效率，還使得系統(tǒng)能夠更好地處理不同長度的推理任務(wù)。

擴展廣義優(yōu)勢估計（EGAE）的工作原理可以用一個簡單的例子來說明。假設(shè)一個學(xué)生正在解一道復(fù)雜的數(shù)學(xué)題，傳統(tǒng)方法必須等學(xué)生完成全部10個步驟后才能評判。而EGAE能夠在學(xué)生完成前6個步驟時，就根據(jù)這些步驟的質(zhì)量和數(shù)學(xué)原理，合理推測出如果學(xué)生繼續(xù)按照當前的思路進行，最終得到正確答案的概率有多大。這種推測基于一個重要的觀察：在數(shù)學(xué)推理中，前面步驟的正確性對后續(xù)步驟有很強的指導(dǎo)作用。

從數(shù)學(xué)角度來看，EGAE擴展了傳統(tǒng)的廣義優(yōu)勢估計公式。原始的GAE公式是：A_t = δ_t + (γλ)δ_(t+1) + ... + (γλ)^(T-t-1)δ_(T-1)，其中T是完整序列的長度。而EGAE將其修改為：A_t = δ_t + (γλ)δ_(t+1) + ... + (γλ)^(l-t-1)δ_(l-1)，其中l(wèi)是截斷長度。這個看似簡單的修改背后包含了深刻的數(shù)學(xué)洞察：通過適當?shù)膮?shù)選擇，截斷后的估計仍然能夠保持足夠的準確性。

獨立優(yōu)化機制的設(shè)計則體現(xiàn)了分工合作的智慧。在傳統(tǒng)的PPO中，策略模型和價值模型的更新是緊密耦合的，必須同時進行。而T-PPO將它們解耦，允許策略模型基于部分生成的序列進行更新，同時讓價值模型基于完整的序列進行更新。這就像一個工廠中的兩條生產(chǎn)線可以獨立運行，一條專門處理半成品，另一條專門處理最終產(chǎn)品，兩者互不干擾但又相互配合。

令人印象深刻的是，T-PPO還采用了一種巧妙的"token過濾策略"。在每個訓(xùn)練步驟中，系統(tǒng)會智能地選擇哪些token用于訓(xùn)練策略模型，哪些token用于訓(xùn)練價值模型。對于策略模型，系統(tǒng)主要使用當前訓(xùn)練步驟中新生成的token，這樣可以及時捕捉到策略的改進方向。對于價值模型，系統(tǒng)使用已完成序列的所有token，確保價值估計的準確性。這種精細化的token管理策略進一步提高了訓(xùn)練效率，減少了不必要的計算開銷。

五、實際應(yīng)用價值：從實驗室到現(xiàn)實世界的橋梁

T-PPO的突破性成果不僅僅停留在學(xué)術(shù)層面，它還具有廣泛的實際應(yīng)用價值，有望在多個領(lǐng)域產(chǎn)生深遠影響。這些影響就像投入湖中的石子，會產(chǎn)生一圈圈不斷擴散的漣漪。

在教育領(lǐng)域，T-PPO的應(yīng)用前景令人興奮。當前的AI教學(xué)助手往往只能在學(xué)生完成全部作業(yè)后給出反饋，這種延遲的反饋效果有限。而基于T-PPO訓(xùn)練的AI教師能夠在學(xué)生解題過程中實時提供指導(dǎo)，就像一位經(jīng)驗豐富的老師站在學(xué)生身邊，隨時發(fā)現(xiàn)問題并及時糾正。這種即時反饋機制不僅能夠提高學(xué)習(xí)效率，還能幫助學(xué)生建立正確的思維習(xí)慣。

在科學(xué)研究領(lǐng)域，T-PPO的價值同樣不可估量?？茖W(xué)發(fā)現(xiàn)往往需要復(fù)雜的推理過程，從假設(shè)提出到實驗設(shè)計，再到結(jié)果分析，每一步都需要嚴密的邏輯思維。傳統(tǒng)的AI助手在處理這種長鏈條推理時效率較低，而T-PPO訓(xùn)練的AI能夠更快地掌握科學(xué)推理的精髓，成為研究人員的得力助手。無論是分析基因序列、設(shè)計化學(xué)實驗，還是構(gòu)建物理模型，這樣的AI助手都能夠大大加速科學(xué)發(fā)現(xiàn)的進程。

從商業(yè)角度來看，T-PPO帶來的訓(xùn)練效率提升意味著巨大的成本節(jié)約。要知道，訓(xùn)練一個大型AI模型往往需要數(shù)百萬甚至數(shù)千萬美元的計算成本。如果能夠?qū)⒂?xùn)練時間縮短60%，就相當于節(jié)約了數(shù)百萬美元的開支。這種成本優(yōu)勢會使得更多的公司和研究機構(gòu)能夠負擔得起先進AI技術(shù)的開發(fā)，從而推動整個行業(yè)的快速發(fā)展。

更重要的是，T-PPO的成功為AI推理能力的發(fā)展指明了新的方向。當前的AI推理模型，如OpenAI的o1、DeepSeek的R1等，都需要生成越來越長的推理過程來解決復(fù)雜問題。這種趨勢雖然提高了AI的推理能力，但也帶來了巨大的計算負擔。T-PPO提供了一種解決方案，讓我們能夠在保持甚至提升推理質(zhì)量的同時，顯著降低訓(xùn)練成本。

在技術(shù)產(chǎn)業(yè)化方面，T-PPO的影響也將是深遠的。隨著AI技術(shù)在各行各業(yè)的普及，對高質(zhì)量推理模型的需求將急劇增長。無論是法律文書分析、醫(yī)療診斷輔助、金融風(fēng)險評估，還是工程設(shè)計優(yōu)化，都需要具備強大推理能力的AI系統(tǒng)。T-PPO使得這些專業(yè)領(lǐng)域的AI系統(tǒng)能夠以更低的成本、更高的效率進行訓(xùn)練和部署。

此外，T-PPO的開源性質(zhì)也為整個AI社區(qū)帶來了福音。字節(jié)跳動選擇將這一技術(shù)以研究論文的形式公開發(fā)表，意味著世界各地的研究者和開發(fā)者都可以在此基礎(chǔ)上進行進一步的改進和應(yīng)用。這種開放共享的精神將加速AI技術(shù)的發(fā)展，讓更多人受益于先進的AI推理能力。

從長遠來看，T-PPO代表的這種"邊學(xué)邊做"的訓(xùn)練理念可能會成為未來AI發(fā)展的重要范式。就像人類學(xué)習(xí)過程中的"在實踐中學(xué)習(xí)"一樣，AI也需要能夠在執(zhí)行任務(wù)的過程中不斷改進和優(yōu)化。T-PPO為這種學(xué)習(xí)模式提供了一個成功的技術(shù)實現(xiàn)，為未來更加智能、更加高效的AI系統(tǒng)奠定了基礎(chǔ)。

說到底，T-PPO的成功不僅僅是一個技術(shù)突破，更是對AI訓(xùn)練理念的一次重要革新。它告訴我們，在追求AI能力提升的同時，我們同樣需要關(guān)注效率和成本。只有這樣，AI技術(shù)才能真正走出實驗室，服務(wù)于更廣泛的人群，為人類社會創(chuàng)造更大的價值。正如研究團隊在論文中所表達的希望：這項工作不僅能降低訓(xùn)練成本，更能為專業(yè)領(lǐng)域的專家模型開發(fā)帶來新的啟發(fā)，推動AI技術(shù)在各個專業(yè)領(lǐng)域的深入應(yīng)用。

Q&A

Q1：T-PPO是什么？它和傳統(tǒng)PPO有什么區(qū)別？ A：T-PPO是字節(jié)跳動開發(fā)的一種新型AI訓(xùn)練算法，全稱是"截斷式近端策略優(yōu)化"。與傳統(tǒng)PPO需要等待AI完成全部推理過程才開始學(xué)習(xí)不同，T-PPO可以在推理進行過程中就開始訓(xùn)練，就像老師在學(xué)生做題時就能給出指導(dǎo)，而不用等到全部完成。這使得訓(xùn)練效率提升了2.5倍。

Q2：T-PPO會不會影響AI的推理質(zhì)量？ A：不會。實驗結(jié)果顯示，T-PPO不僅大幅提升了訓(xùn)練效率，還在AIME 2024數(shù)學(xué)競賽中獲得了62分的優(yōu)秀成績，超過了所有其他競爭方法。這證明了效率提升并沒有以犧牲質(zhì)量為代價，反而通過更好的訓(xùn)練策略獲得了雙重收益。

Q3：普通人能用到T-PPO技術(shù)嗎？ A：目前T-PPO主要是一種訓(xùn)練技術(shù)，主要被AI公司和研究機構(gòu)使用來訓(xùn)練更好的AI模型。但是，通過T-PPO訓(xùn)練出來的AI模型最終會服務(wù)于普通用戶，比如更智能的教育助手、更準確的科學(xué)計算工具等。隨著技術(shù)的普及，未來我們?nèi)粘Ｊ褂玫腁I產(chǎn)品很可能都會受益于這種高效訓(xùn)練技術(shù)。

人工智能強化學(xué)習(xí)算法優(yōu)化

分享至

0贊

好文章，需要你的鼓勵

推薦文章

人工智能
動態(tài)專家搜索
推理優(yōu)化

2025-10-22 13:24

浙江大學(xué)突破：讓AI專家團隊在考試時"動態(tài)組隊"，推理能力飆升

浙江大學(xué)團隊提出動態(tài)專家搜索方法，讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準確率，且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置，為AI推理優(yōu)化開辟新路徑。
人工智能
強化學(xué)習(xí)
模型優(yōu)化

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會"少說話多做事"，推理效率提升一倍還更準確

清華大學(xué)研究團隊提出SIRI方法，通過"壓縮-擴張"交替訓(xùn)練策略，成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示，該方法在數(shù)學(xué)競賽題上將模型準確率提升43.2%的同時，輸出長度減少46.9%，真正實現(xiàn)了效率與性能的雙重優(yōu)化，為AI模型訓(xùn)練提供了新思路。
人工智能
視頻生成
實時流媒體

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實現(xiàn)多分鐘視頻實時流式生成，就像看電視直播一樣

南洋理工大學(xué)與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù)，實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓(xùn)練算法三項創(chuàng)新，解決了長視頻生成中的錯誤累積問題，可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻，延遲僅0.76秒，質(zhì)量漂移指標從傳統(tǒng)方法的1.66降至0.01，為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
人工智能
幾何學(xué)習(xí)
空間智能

2025-10-22 10:14

華中科技大學(xué)團隊突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)研究團隊發(fā)現(xiàn)，通過讓AI模型學(xué)習(xí)解決幾何問題，能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集，使用強化學(xué)習(xí)方法訓(xùn)練多個AI模型。實驗結(jié)果顯示，幾何訓(xùn)練在四個空間智能測試基準上都帶來顯著提升，其中最佳模型達到49.6%準確率，超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。

浙江大學(xué)突破：讓AI專家團隊在考試時"動態(tài)組隊"，推理能力飆升

浙江大學(xué)突破：讓AI專家團隊在考試時"動態(tài)組隊"，推理能力飆升

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會"少說話多做事"，推理效率提升一倍還更準確

清華大學(xué)新突破：AI模型居然能學(xué)會"少說話多做事"，推理效率提升一倍還更準確

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實現(xiàn)多分鐘視頻實時流式生成，就像看電視直播一樣

南洋理工大學(xué)突破性研究：用AI實現(xiàn)多分鐘視頻實時流式生成，就像看電視直播一樣

2025-10-22 13:24

華中科技大學(xué)團隊突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)團隊突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

2025-10-22 10:14

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報電話：010-62641205　涉未成年人舉報專線：010-62641208 舉報郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報專區(qū)：https://www.12377.cn

<var id="26sbn"><fieldset id="26sbn"></fieldset></var>

<tr id="26sbn"><rt id="26sbn"></rt></tr>

<pre id="26sbn"><strike id="26sbn"></strike></pre>