av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

首頁(yè)
對(duì)話創(chuàng)新
對(duì)話科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見證連接與計(jì)算的「力量」

微軟亞洲研究院重大發(fā)現(xiàn)：AI推理訓(xùn)練真的能讓機(jī)器變聰明，關(guān)鍵在于思維過(guò)程而非答案

人工智能強(qiáng)化學(xué)習(xí)推理評(píng)估

微軟亞洲研究院重大發(fā)現(xiàn)：AI推理訓(xùn)練真的能讓機(jī)器變聰明，關(guān)鍵在于思維過(guò)程而非答案

作者：科技行者

2025-06-24 10:13

分享至：

微軟亞洲研究院團(tuán)隊(duì)通過(guò)創(chuàng)新的評(píng)估方法發(fā)現(xiàn)，具有可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)(RLVR)能夠真正提升AI的推理能力，而非僅僅改善答案準(zhǔn)確率。研究提出了CoT-Pass@K評(píng)估標(biāo)準(zhǔn)，要求AI不僅給出正確答案還需保證推理過(guò)程正確，實(shí)驗(yàn)證明RLVR訓(xùn)練顯著提升了AI的邏輯推理質(zhì)量，為開發(fā)更可靠的AI推理系統(tǒng)奠定重要基礎(chǔ)。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-24 10:13 ? 科技行者

這項(xiàng)由微軟亞洲研究院的溫旭萌、劉子涵、鄭舜等研究人員主導(dǎo)的研究發(fā)表于2025年6月，論文標(biāo)題為《具有可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)隱性激勵(lì)大語(yǔ)言模型中的正確推理》。有興趣深入了解的讀者可以通過(guò)arXiv:2506.14245v1訪問(wèn)完整論文。

近年來(lái)，人工智能領(lǐng)域出現(xiàn)了一個(gè)引人注目的現(xiàn)象：通過(guò)"強(qiáng)化學(xué)習(xí)"訓(xùn)練的AI模型在解決數(shù)學(xué)問(wèn)題時(shí)表現(xiàn)出色，但學(xué)界對(duì)其真正的推理能力產(chǎn)生了質(zhì)疑。就像學(xué)生考試時(shí)，有些人真正理解了解題思路，有些人則是靠運(yùn)氣蒙對(duì)答案。那么，經(jīng)過(guò)特殊訓(xùn)練的AI究竟是真正學(xué)會(huì)了推理，還是只是變得更善于"蒙答案"呢？

這個(gè)問(wèn)題的核心在于一種叫做"具有可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)"（RLVR）的訓(xùn)練方法。這種方法就像給AI配備了一位嚴(yán)格的數(shù)學(xué)老師：每當(dāng)AI解出一道題，老師只會(huì)告訴它最終答案對(duì)不對(duì)，但不會(huì)檢查解題過(guò)程是否正確。久而久之，AI學(xué)會(huì)了找到正確答案，但人們開始懷疑——它是真正理解了數(shù)學(xué)原理，還是只是學(xué)會(huì)了一些解題技巧？

為了解答這個(gè)疑問(wèn)，微軟研究團(tuán)隊(duì)展開了一項(xiàng)深入調(diào)查。他們發(fā)現(xiàn)，傳統(tǒng)的評(píng)估方法存在一個(gè)重大缺陷：只關(guān)注最終答案是否正確，卻忽略了思維過(guò)程的質(zhì)量。這就像評(píng)判一個(gè)學(xué)生的數(shù)學(xué)水平時(shí)，只看他在多次嘗試中是否能蒙對(duì)答案，而不檢查他的解題步驟是否合理。

研究團(tuán)隊(duì)發(fā)現(xiàn)，許多看似"聰明"的基礎(chǔ)AI模型實(shí)際上經(jīng)常使用錯(cuò)誤的推理過(guò)程得出正確答案。就像一個(gè)學(xué)生在解方程時(shí)計(jì)算步驟全錯(cuò)，但最后卻意外得到了正確結(jié)果。這種現(xiàn)象在AI世界中相當(dāng)普遍，特別是那些經(jīng)過(guò)大量文本訓(xùn)練的模型，它們具有強(qiáng)大的"聯(lián)想"能力，能夠憑借對(duì)語(yǔ)言模式的記憶找到答案，即使推理過(guò)程并不嚴(yán)謹(jǐn)。

為了更準(zhǔn)確地評(píng)估AI的真實(shí)推理能力，研究團(tuán)隊(duì)提出了一個(gè)新的評(píng)估標(biāo)準(zhǔn)，稱為"CoT-Pass@K"。這個(gè)標(biāo)準(zhǔn)不僅要求AI給出正確答案，還要求其思維過(guò)程（Chain of Thought，簡(jiǎn)稱CoT）必須邏輯清晰、步驟正確。這就像數(shù)學(xué)考試中，老師不僅要看最終答案，還要檢查每一個(gè)解題步驟是否合理。

研究團(tuán)隊(duì)還建立了一套理論框架來(lái)解釋RLVR訓(xùn)練的工作原理。他們發(fā)現(xiàn)，這種訓(xùn)練方法確實(shí)能夠激勵(lì)A(yù)I產(chǎn)生正確的推理過(guò)程。原理很簡(jiǎn)單：如果AI的思維過(guò)程更加嚴(yán)謹(jǐn)，那么它得出正確答案的概率就會(huì)更高。在訓(xùn)練過(guò)程中，系統(tǒng)會(huì)獎(jiǎng)勵(lì)那些得出正確答案的嘗試，而擁有正確推理過(guò)程的AI自然更容易獲得獎(jiǎng)勵(lì)，從而形成良性循環(huán)。

這就像培養(yǎng)一個(gè)學(xué)生解題能力的過(guò)程。雖然老師只對(duì)最終答案進(jìn)行評(píng)分，但那些真正掌握了解題方法的學(xué)生，長(zhǎng)期來(lái)看總是比那些依賴運(yùn)氣的學(xué)生表現(xiàn)更好。因此，通過(guò)持續(xù)的練習(xí)和反饋，AI會(huì)逐漸學(xué)會(huì)使用更加可靠的推理方法。

為了驗(yàn)證這一理論，研究團(tuán)隊(duì)進(jìn)行了大量實(shí)驗(yàn)。他們使用了一個(gè)強(qiáng)大的AI模型作為"評(píng)判員"，專門檢查其他AI的思維過(guò)程是否正確。這個(gè)評(píng)判員模型經(jīng)過(guò)特殊訓(xùn)練，能夠識(shí)別數(shù)學(xué)推理中的邏輯錯(cuò)誤、計(jì)算錯(cuò)誤和概念誤用。

實(shí)驗(yàn)結(jié)果令人振奮。在傳統(tǒng)的評(píng)估方法下，經(jīng)過(guò)RLVR訓(xùn)練的模型似乎并沒有比基礎(chǔ)模型強(qiáng)多少，有時(shí)甚至表現(xiàn)更差。但當(dāng)使用新的CoT-Pass@K標(biāo)準(zhǔn)時(shí)，訓(xùn)練后的模型表現(xiàn)出明顯的優(yōu)勢(shì)。這說(shuō)明RLVR訓(xùn)練確實(shí)提升了AI的推理質(zhì)量，只是傳統(tǒng)評(píng)估方法無(wú)法準(zhǔn)確捕捉到這種提升。

研究團(tuán)隊(duì)特別關(guān)注了兩個(gè)數(shù)學(xué)競(jìng)賽數(shù)據(jù)集：AIME 2024和AIME 2025。這些是美國(guó)中學(xué)數(shù)學(xué)競(jìng)賽的真題，難度較高且不太可能出現(xiàn)在AI的訓(xùn)練數(shù)據(jù)中，因此能夠更客觀地測(cè)試AI的推理能力。結(jié)果顯示，經(jīng)過(guò)RLVR訓(xùn)練的模型在這些測(cè)試中表現(xiàn)出了持續(xù)的優(yōu)勢(shì)，無(wú)論是在少量嘗試還是大量嘗試的情況下。

更有趣的是，研究團(tuán)隊(duì)還觀察了訓(xùn)練過(guò)程中AI能力的變化。他們發(fā)現(xiàn)，正確推理能力的提升出現(xiàn)得很早，幾乎從訓(xùn)練開始就能觀察到改善。這表明RLVR訓(xùn)練確實(shí)在從根本上改善AI的思維模式，而不是僅僅讓它記住更多解題套路。

通過(guò)分析訓(xùn)練數(shù)據(jù)，研究人員發(fā)現(xiàn)了一個(gè)有趣現(xiàn)象：在簡(jiǎn)單問(wèn)題上，基礎(chǔ)AI模型經(jīng)常能夠找到正確答案，但其推理過(guò)程往往存在缺陷。而經(jīng)過(guò)RLVR訓(xùn)練后，AI不僅保持了找到正確答案的能力，其推理過(guò)程的質(zhì)量也顯著提升。這就像一個(gè)原本依賴直覺解題的學(xué)生，通過(guò)系統(tǒng)訓(xùn)練學(xué)會(huì)了規(guī)范的解題方法。

研究團(tuán)隊(duì)還解釋了為什么在某些測(cè)試中，訓(xùn)練效果可能不夠明顯。當(dāng)題目過(guò)于簡(jiǎn)單時(shí)，即使是基礎(chǔ)模型也能輕松解決，因此訓(xùn)練效果不明顯。當(dāng)題目涉及的領(lǐng)域與訓(xùn)練數(shù)據(jù)差異較大時(shí)，訓(xùn)練效果也會(huì)受到限制。這提醒我們，AI的能力提升需要在合適的難度水平和相關(guān)領(lǐng)域內(nèi)才能充分體現(xiàn)。

這項(xiàng)研究的意義遠(yuǎn)不止于學(xué)術(shù)層面。它為我們理解AI的學(xué)習(xí)機(jī)制提供了重要洞察，也為未來(lái)AI訓(xùn)練方法的改進(jìn)指明了方向。更重要的是，它證明了AI確實(shí)可以通過(guò)適當(dāng)?shù)挠?xùn)練方法獲得更強(qiáng)的推理能力，而不僅僅是記憶和模式匹配。

從實(shí)際應(yīng)用角度來(lái)看，這項(xiàng)研究為開發(fā)更可靠的AI推理系統(tǒng)奠定了基礎(chǔ)。當(dāng)我們能夠確信AI的推理過(guò)程是可靠的，而不僅僅是答案碰巧正確時(shí)，AI在教育、科研、工程等需要嚴(yán)謹(jǐn)邏輯的領(lǐng)域的應(yīng)用將變得更加可靠。

研究團(tuán)隊(duì)也坦誠(chéng)地指出了當(dāng)前方法的局限性。目前他們主要依靠另一個(gè)AI模型來(lái)評(píng)判推理過(guò)程的正確性，這種方法雖然實(shí)用，但可能存在誤判。此外，研究主要集中在數(shù)學(xué)推理領(lǐng)域，在其他類型的推理任務(wù)中的效果還需要進(jìn)一步驗(yàn)證。

展望未來(lái)，這項(xiàng)研究為AI訓(xùn)練方法的發(fā)展開辟了新的道路。研究人員提出，未來(lái)的AI訓(xùn)練應(yīng)該更加注重推理過(guò)程的質(zhì)量，而不僅僅是最終結(jié)果的正確性。這可能需要開發(fā)更好的自動(dòng)評(píng)估工具，或者設(shè)計(jì)新的訓(xùn)練目標(biāo)來(lái)直接優(yōu)化推理質(zhì)量。

說(shuō)到底，這項(xiàng)研究回答了一個(gè)關(guān)鍵問(wèn)題：AI確實(shí)可以通過(guò)適當(dāng)?shù)挠?xùn)練方法學(xué)會(huì)更好的推理，而不僅僅是變得更善于找到正確答案。這為我們對(duì)AI能力的理解帶來(lái)了重要轉(zhuǎn)變——從關(guān)注"它能做什么"轉(zhuǎn)向關(guān)注"它是如何思考的"。正如研究團(tuán)隊(duì)所說(shuō)，真正的智能不在于能夠給出正確答案，而在于能夠進(jìn)行可靠的推理。

這一發(fā)現(xiàn)對(duì)普通人意味著什么呢？隨著AI推理能力的真正提升，我們可能很快就會(huì)看到在教育輔導(dǎo)、科學(xué)研究、工程設(shè)計(jì)等領(lǐng)域出現(xiàn)更加可靠的AI助手。這些AI不僅能給出答案，還能清晰地解釋推理過(guò)程，讓人類能夠理解和驗(yàn)證其邏輯。這將大大提升人機(jī)協(xié)作的效率和可靠性。

當(dāng)然，這也提醒我們?cè)谠u(píng)估AI能力時(shí)要更加謹(jǐn)慎。僅僅看AI是否能給出正確答案是不夠的，我們還需要理解它的思維過(guò)程。只有當(dāng)AI的推理過(guò)程變得透明、可靠時(shí)，我們才能真正信任它在重要任務(wù)中的表現(xiàn)。

Q&A

Q1：什么是RLVR訓(xùn)練？它和傳統(tǒng)AI訓(xùn)練有什么不同？ A：RLVR是"具有可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)"的簡(jiǎn)稱，就像給AI配備了一位只看最終答案的老師。與傳統(tǒng)訓(xùn)練不同，這種方法不直接教AI如何解題，而是讓AI自己嘗試，然后根據(jù)答案正確與否給予獎(jiǎng)勵(lì)。研究發(fā)現(xiàn)，這種方法能夠間接激勵(lì)A(yù)I發(fā)展出更好的推理能力。

Q2：為什么傳統(tǒng)的評(píng)估方法不能準(zhǔn)確反映AI的推理能力？ A：傳統(tǒng)評(píng)估只看最終答案是否正確，就像只看學(xué)生考試成績(jī)而不檢查解題過(guò)程。許多AI模型能夠通過(guò)記憶、聯(lián)想或運(yùn)氣得到正確答案，但推理過(guò)程可能存在嚴(yán)重缺陷。這就導(dǎo)致我們高估了AI的真實(shí)推理能力。

Q3：CoT-Pass@K評(píng)估標(biāo)準(zhǔn)有什么特別之處？ A：這個(gè)標(biāo)準(zhǔn)不僅要求AI給出正確答案，還要求其思維過(guò)程必須邏輯清晰、步驟正確。就像數(shù)學(xué)考試中，老師既要看最終答案，也要檢查每個(gè)解題步驟。通過(guò)這種更嚴(yán)格的評(píng)估，研究人員發(fā)現(xiàn)經(jīng)過(guò)RLVR訓(xùn)練的AI確實(shí)具有更強(qiáng)的推理能力。

人工智能強(qiáng)化學(xué)習(xí)推理評(píng)估

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

人工智能
動(dòng)態(tài)專家搜索
推理優(yōu)化

2025-10-22 13:24

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法，讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率，且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛不同專家配置，為AI推理優(yōu)化開辟新路徑。
人工智能
強(qiáng)化學(xué)習(xí)
模型優(yōu)化

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說(shuō)話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法，通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略，成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示，該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí)，輸出長(zhǎng)度減少46.9%，真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化，為AI模型訓(xùn)練提供了新思路。
人工智能
視頻生成
實(shí)時(shí)流媒體

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù)，實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新，解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題，可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻，延遲僅0.76秒，質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01，為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
人工智能
幾何學(xué)習(xí)
空間智能

2025-10-22 10:14

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn)，通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題，能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集，使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示，幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升，其中最佳模型達(dá)到49.6%準(zhǔn)確率，超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說(shuō)話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說(shuō)話多做事"，推理效率提升一倍還更準(zhǔn)確

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

2025-10-22 13:24

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

2025-10-22 10:14

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專區(qū)：https://www.12377.cn

<center id="m4w9m"></center>