av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<tfoot id="cwtwo"><strike id="cwtwo"></strike></tfoot>

首頁
對(duì)話創(chuàng)新
對(duì)話科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見證連接與計(jì)算的「力量」

思維增強(qiáng)型策略優(yōu)化：搭建外部指導(dǎo)與內(nèi)部能力之間的橋梁 - 清華大學(xué)研究團(tuán)隊(duì)開創(chuàng)強(qiáng)化學(xué)習(xí)新范式

人工智能強(qiáng)化學(xué)習(xí)大語言模型推理

思維增強(qiáng)型策略優(yōu)化：搭建外部指導(dǎo)與內(nèi)部能力之間的橋梁 - 清華大學(xué)研究團(tuán)隊(duì)開創(chuàng)強(qiáng)化學(xué)習(xí)新范式

作者：科技行者

2025-05-29 08:19

分享至：

清華大學(xué)研究團(tuán)隊(duì)開發(fā)的"思維增強(qiáng)型策略優(yōu)化"(TAPO)通過將外部高級(jí)思維模式整合到強(qiáng)化學(xué)習(xí)中，顯著提升了大語言模型的推理能力。這種方法從僅500個(gè)樣本中抽象出思維模板，在AIME、AMC和Minerva Math等基準(zhǔn)測試中分別比傳統(tǒng)方法提高了99%、41%和17%的性能，同時(shí)增強(qiáng)了模型的可解釋性、穩(wěn)定性和泛化能力，為AI推理研究開辟了新方向。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-29 08:19 ? 科技行者

這項(xiàng)由清華大學(xué)自動(dòng)化系、交叉信息科學(xué)研究院和北京信息科學(xué)與技術(shù)國家研究中心的研究團(tuán)隊(duì)聯(lián)合完成的開創(chuàng)性工作，于2025年5月發(fā)表在arXiv預(yù)印本平臺(tái)（arXiv:2505.15692v1）。該團(tuán)隊(duì)由吳金陽、廖崇華、馮明寬、張帥、聞錚琦、邵鵬鵬、徐華哲和陶建華共同完成，展示了一種全新的強(qiáng)化學(xué)習(xí)方法，旨在提升大型語言模型的推理能力。

為什么我們需要"思維增強(qiáng)"？

想象一下，你正在學(xué)習(xí)解決復(fù)雜的數(shù)學(xué)問題。傳統(tǒng)方法是什么？反復(fù)嘗試不同解題路徑，然后記住那些成功的方法。這就像是在黑暗中摸索——你只知道某些路徑能成功，但不知道為什么或如何應(yīng)用到新問題上。這正是當(dāng)前強(qiáng)化學(xué)習(xí)訓(xùn)練大語言模型面臨的困境。

當(dāng)前的強(qiáng)化學(xué)習(xí)方法，如GRPO（Group Relative Policy Optimization），雖然能夠通過獎(jiǎng)勵(lì)機(jī)制引導(dǎo)模型找到正確答案，但它們主要是通過偏向那些能獲得高獎(jiǎng)勵(lì)的輸出路徑來工作，而沒有引入額外的外部知識(shí)。用餐廳尋找美食來打個(gè)比方：傳統(tǒng)方法就像是你只能依靠自己的嘗試來找到好餐廳，而沒有美食指南或朋友推薦的幫助。這種方式限制了模型的探索能力，使其推理能力邊界比基礎(chǔ)模型更窄。

研究團(tuán)隊(duì)提出的解決方案——思維增強(qiáng)型策略優(yōu)化（TAPO）——就像是給探索者提供了一本思維指南。它通過引入外部高級(jí)指導(dǎo)（"思維模式"）來增強(qiáng)強(qiáng)化學(xué)習(xí)過程。這些思維模式可以看作是解決問題的抽象策略或"思考路徑"，幫助模型學(xué)習(xí)更通用、更可解釋的推理行為。

TAPO如何工作？就像給AI配備了思維導(dǎo)航儀

傳統(tǒng)的強(qiáng)化學(xué)習(xí)訓(xùn)練就像是讓學(xué)生自己摸索解題方法，而TAPO則像是在困難時(shí)提供有用提示的導(dǎo)師。具體來說，TAPO構(gòu)建了一個(gè)"思維庫"——一個(gè)存儲(chǔ)高級(jí)思維模板的通用倉庫，這些模板從僅僅500個(gè)種子樣本中抽象出來。

每個(gè)模板代表了解決某類問題的抽象策略。想象一下，解決幾何問題的通用步驟可能是：分析問題結(jié)構(gòu)→應(yīng)用相關(guān)定理→逐步推導(dǎo)→驗(yàn)證結(jié)果。這種抽象策略就是一種"思維模式"，可以應(yīng)用于各種幾何問題，而不僅限于特定案例。

在GRPO采樣過程中，TAPO會(huì)自適應(yīng)地識(shí)別和應(yīng)用相關(guān)的思維模板。對(duì)于每個(gè)新問題，系統(tǒng)會(huì)找出最相關(guān)的思維模式，并將其用作推理指導(dǎo)。這種動(dòng)態(tài)集成外部指導(dǎo)和內(nèi)部模型能力的方法，使系統(tǒng)能夠內(nèi)化更通用、更可解釋的推理行為，穩(wěn)定模型學(xué)習(xí)，并產(chǎn)生更強(qiáng)大的推理模型。

從500個(gè)樣本到普適思維模式：思維庫的構(gòu)建過程

TAPO的核心在于其"思維庫"的構(gòu)建。研究團(tuán)隊(duì)首先定義了五種人類思維行為，用于橋接模型推理和人類認(rèn)知：

第一種是"分而治之"，這類似于我們將復(fù)雜問題分解為可管理的子問題；第二種是"自我反思"，即評(píng)估和完善先前解決方案；第三種是"系統(tǒng)分析"，分析問題的整體結(jié)構(gòu)并確定約束條件；第四種是"單步思考"，通過專注的推理步驟解決問題的單個(gè)方面；最后是"思維鏈"，采用連接邏輯步驟的順序推理過程。

有了這些行為定義，團(tuán)隊(duì)使用蒙特卡洛樹搜索（MCTS）技術(shù)為每個(gè)種子問題生成解決方案樹。MCTS就像是在棋盤游戲中提前規(guī)劃多步棋路，不斷嘗試不同路徑并評(píng)估哪條路徑最有可能成功。對(duì)于每個(gè)問題，系統(tǒng)會(huì)選擇最優(yōu)的解決方案軌跡，并提取其中的高級(jí)思維模式（如：系統(tǒng)分析→單步思考→分而治之）。

這些提取的模式隨后按照"問題條件復(fù)雜性"（PCC）進(jìn)行分類整理。PCC衡量問題中已知先驗(yàn)條件的數(shù)量，可以被視為問題的"復(fù)雜度指紋"。相似問題往往具有相似的PCC值，使得這個(gè)指標(biāo)成為模式聚合的有效工具。

當(dāng)系統(tǒng)遇到新問題時(shí)，它會(huì)計(jì)算該問題的PCC值，并從思維庫中找出最相似的思維模板。這種適應(yīng)性檢索機(jī)制確保了模型能夠應(yīng)用適當(dāng)?shù)耐评聿呗?，而不是使用一刀切的方法?/p>

實(shí)驗(yàn)結(jié)果：TAPO顯著超越現(xiàn)有方法

研究團(tuán)隊(duì)在多個(gè)高水平推理基準(zhǔn)上評(píng)估了TAPO的性能，結(jié)果令人印象深刻。TAPO在五個(gè)競賽級(jí)基準(zhǔn)測試中顯著優(yōu)于現(xiàn)有強(qiáng)化學(xué)習(xí)方法，平均提高了12.0個(gè)百分點(diǎn)。特別是在具有挑戰(zhàn)性的AIME和AMC基準(zhǔn)上，TAPO分別比GRPO提高了99%和41%，在Minerva Math上提高了17%。

更令人驚訝的是，這些高級(jí)思維模式——僅從500個(gè)先驗(yàn)樣本中抽象出來——能夠有效地泛化到各種任務(wù)和模型。TAPO在不同規(guī)模和架構(gòu)的模型上展示了有效性，包括Qwen2.5-Math系列和Llama3系列模型。即使是在較弱的Llama3.2-3B-Base上，該方法也能實(shí)現(xiàn)穩(wěn)定學(xué)習(xí)，而這個(gè)模型在標(biāo)準(zhǔn)GRPO訓(xùn)練中通常會(huì)遇到困難。

研究人員還評(píng)估了TAPO在分布外（OOD）任務(wù)上的泛化能力。盡管所有比較方法都是在數(shù)學(xué)數(shù)據(jù)上訓(xùn)練的，但TAPO在ARC-C、GPQA-Diamond和MMLU-Pro等OOD任務(wù)上平均優(yōu)于GRPO 13.7%，這表明該方法在使用高級(jí)外部指導(dǎo)增強(qiáng)OOD泛化方面的有效性。

更穩(wěn)定的學(xué)習(xí)，更出色的解釋能力

TAPO不僅提高了模型的性能，還帶來了更穩(wěn)定的學(xué)習(xí)過程和更出色的解釋能力。在訓(xùn)練動(dòng)態(tài)分析中，研究人員發(fā)現(xiàn)TAPO在兩種模型上都能持續(xù)實(shí)現(xiàn)比GRPO更高的整體訓(xùn)練獎(jiǎng)勵(lì)。雖然這種優(yōu)勢在Qwen2.5-Math-7B-Base上看起來較為適中，但在較弱的Llama3.2-3B-Base上則更為顯著。

值得注意的是，GRPO在訓(xùn)練后期往往會(huì)崩潰，而TAPO即使在弱模型上也能維持穩(wěn)定的訓(xùn)練動(dòng)態(tài)。這種增強(qiáng)的穩(wěn)定性源于TAPO將思維模式策略性地整合到采樣過程中。通過將復(fù)雜問題分解為可管理的子任務(wù)，TAPO為弱模型提供了明確的外部指導(dǎo)，賦予它們通常只有更強(qiáng)模型才具備的高級(jí)任務(wù)分解能力。

此外，案例研究表明，TAPO產(chǎn)生的推理過程更具可讀性和可解釋性。與GRPO生成的解決方案相比，TAPO的輸出結(jié)構(gòu)更清晰，邏輯更連貫，并且能夠系統(tǒng)地解決問題的各個(gè)方面。

結(jié)語：思維增強(qiáng)開啟強(qiáng)化學(xué)習(xí)新時(shí)代

TAPO的提出標(biāo)志著強(qiáng)化學(xué)習(xí)訓(xùn)練推理模型的一個(gè)重要里程碑。通過橋接外部高級(jí)指導(dǎo)和模型內(nèi)部推理能力，TAPO有效解決了當(dāng)前強(qiáng)化學(xué)習(xí)方法的根本限制。

歸根結(jié)底，TAPO就像是給AI提供了思維地圖和指南針，而不僅僅是讓它在黑暗中摸索。這種方法不僅提高了模型的性能，還增強(qiáng)了其適應(yīng)能力、穩(wěn)定性和可解釋性。從本質(zhì)上講，TAPO代表了一種更平衡的學(xué)習(xí)方法，將人類智慧（以抽象思維模式的形式）與機(jī)器學(xué)習(xí)能力相結(jié)合。

未來的研究可能會(huì)探索將思維增強(qiáng)型強(qiáng)化學(xué)習(xí)應(yīng)用于更多樣化的任務(wù)和領(lǐng)域，特別是檢索增強(qiáng)生成和多模態(tài)推理場景。TAPO建立了一個(gè)堅(jiān)實(shí)的基礎(chǔ)，用于有效地將外部知識(shí)與強(qiáng)化學(xué)習(xí)相結(jié)合，以增強(qiáng)各種AI應(yīng)用中的推理能力。

如果你對(duì)這項(xiàng)研究感興趣，可以通過arXiv:2505.15692v1訪問完整論文，深入了解TAPO的技術(shù)細(xì)節(jié)和實(shí)驗(yàn)結(jié)果。這項(xiàng)研究不僅為AI研究人員提供了新的方法論，也為我們?nèi)绾嗡伎己驮鰪?qiáng)AI的推理能力提供了新的視角。

人工智能強(qiáng)化學(xué)習(xí)大語言模型推理

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

人工智能
動(dòng)態(tài)專家搜索
推理優(yōu)化

2025-10-22 13:24

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法，讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率，且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置，為AI推理優(yōu)化開辟新路徑。
人工智能
強(qiáng)化學(xué)習(xí)
模型優(yōu)化

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法，通過"壓縮-擴(kuò)張"交替訓(xùn)練策略，成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示，該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時(shí)，輸出長度減少46.9%，真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化，為AI模型訓(xùn)練提供了新思路。
人工智能
視頻生成
實(shí)時(shí)流媒體

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù)，實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新，解決了長視頻生成中的錯(cuò)誤累積問題，可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻，延遲僅0.76秒，質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01，為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
人工智能
幾何學(xué)習(xí)
空間智能

2025-10-22 10:14

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn)，通過讓AI模型學(xué)習(xí)解決幾何問題，能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集，使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示，幾何訓(xùn)練在四個(gè)空間智能測試基準(zhǔn)上都帶來顯著提升，其中最佳模型達(dá)到49.6%準(zhǔn)確率，超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

2025-10-22 13:24

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

2025-10-22 10:14

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專區(qū)：https://www.12377.cn