av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 香港科技大學(xué)重磅發(fā)現(xiàn):AI推理能力提升的秘密竟然是"先學(xué)做題再學(xué)思考"?

香港科技大學(xué)重磅發(fā)現(xiàn):AI推理能力提升的秘密竟然是"先學(xué)做題再學(xué)思考"?

2025-09-22 14:53
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-09-22 14:53 ? 科技行者

考慮這樣一個(gè)場(chǎng)景:你正在教一個(gè)孩子解數(shù)學(xué)題。是讓他先練好加減乘除的基本功,還是直接教他如何構(gòu)思解題策略?常識(shí)告訴我們,基礎(chǔ)不牢,地動(dòng)山搖。然而,在人工智能領(lǐng)域,這個(gè)看似簡單的道理卻一直被忽視。

香港科技大學(xué)、滑鐵盧大學(xué)等頂尖高校的研究團(tuán)隊(duì)最近發(fā)表了一項(xiàng)突破性研究,首次揭示了大型語言模型(就是像ChatGPT那樣的AI系統(tǒng))在強(qiáng)化學(xué)習(xí)訓(xùn)練中如何逐步獲得推理能力的神秘過程。這項(xiàng)研究發(fā)表于2025年1月,論文題目為《通過強(qiáng)化學(xué)習(xí)在大型語言模型中實(shí)現(xiàn)層次化推理的涌現(xiàn)》。有興趣深入了解的讀者可以通過arXiv:2509.03646v2訪問完整論文。

這項(xiàng)研究的魅力在于,它像破解密碼一樣解開了AI學(xué)習(xí)推理的內(nèi)在規(guī)律。研究團(tuán)隊(duì)發(fā)現(xiàn),當(dāng)我們用強(qiáng)化學(xué)習(xí)來訓(xùn)練AI模型提高推理能力時(shí),整個(gè)過程并非一蹴而就,而是像人類學(xué)習(xí)一樣分為兩個(gè)截然不同的階段。

第一階段,AI模型就像一個(gè)剛?cè)雽W(xué)的小學(xué)生,專注于掌握基本的"程序性技能"——比如正確進(jìn)行算術(shù)計(jì)算、準(zhǔn)確應(yīng)用公式、精確執(zhí)行各種低級(jí)操作步驟。這個(gè)階段的特征非常明顯:模型在這些基礎(chǔ)操作上變得越來越自信,犯錯(cuò)越來越少,就像孩子練習(xí)乘法口訣一樣,從磕磕絆絆到滾瓜爛熟。

然而,真正有趣的是第二階段。一旦基礎(chǔ)技能足夠扎實(shí),學(xué)習(xí)的重心就會(huì)發(fā)生戲劇性轉(zhuǎn)移。模型開始探索和掌握"戰(zhàn)略性規(guī)劃"能力——如何分析問題、選擇合適的解題路徑、在遇到困難時(shí)調(diào)整策略、甚至進(jìn)行自我反思。這就像一個(gè)已經(jīng)熟練掌握棋子走法的新手,開始學(xué)習(xí)布局、中盤戰(zhàn)略和殘局技巧。

研究團(tuán)隊(duì)通過大量實(shí)驗(yàn)觀察發(fā)現(xiàn),這種學(xué)習(xí)模式的轉(zhuǎn)換并非人為設(shè)計(jì),而是自然涌現(xiàn)的。更令人驚訝的是,這種轉(zhuǎn)換能夠解釋之前AI研究中許多令人困惑的現(xiàn)象。

比如,研究人員經(jīng)常發(fā)現(xiàn)AI模型會(huì)突然出現(xiàn)"頓悟時(shí)刻"——在某個(gè)訓(xùn)練節(jié)點(diǎn)上,模型的表現(xiàn)會(huì)突然大幅提升,仿佛瞬間開竅?,F(xiàn)在我們知道,這些"頓悟時(shí)刻"實(shí)際上是模型發(fā)現(xiàn)并掌握了某種重要的高層次推理策略的標(biāo)志。

另一個(gè)有趣的現(xiàn)象是"長度效應(yīng)"。研究人員發(fā)現(xiàn),當(dāng)AI模型生成更長、更詳細(xì)的推理過程時(shí),往往能得到更好的答案。這曾經(jīng)讓人百思不得其解,現(xiàn)在看來原因很簡單:更復(fù)雜的戰(zhàn)略性思考天然需要更多的思考步驟和更深入的分析,就像一個(gè)經(jīng)驗(yàn)豐富的醫(yī)生診斷疑難雜癥時(shí),會(huì)進(jìn)行更多的推理和排查過程。

基于這些發(fā)現(xiàn),研究團(tuán)隊(duì)開發(fā)了一種名為HICRA(層次感知信用分配)的新算法。傳統(tǒng)的強(qiáng)化學(xué)習(xí)算法就像一個(gè)不分輕重的老師,對(duì)學(xué)生回答中的每個(gè)詞匯都給予同等關(guān)注。而HICRA則像一個(gè)經(jīng)驗(yàn)豐富的教育專家,能夠識(shí)別出哪些部分是關(guān)鍵的戰(zhàn)略性思考,并重點(diǎn)強(qiáng)化這些部分的學(xué)習(xí)。

具體來說,HICRA能夠自動(dòng)識(shí)別AI生成文本中的"規(guī)劃標(biāo)記"——那些體現(xiàn)高層次戰(zhàn)略思維的語言片段。當(dāng)AI寫出"讓我們換個(gè)思路試試"、"等等,我注意到這里有個(gè)矛盾"、"基于前面的分析,我們可以推斷"這類表達(dá)時(shí),HICRA會(huì)給予這些戰(zhàn)略性思考更多的學(xué)習(xí)權(quán)重。

為了驗(yàn)證這種識(shí)別的準(zhǔn)確性,研究團(tuán)隊(duì)創(chuàng)建了一套"戰(zhàn)略語法"系統(tǒng)。他們首先收集了大量成功的推理樣本,然后使用先進(jìn)的AI助手來標(biāo)注那些具有戰(zhàn)略意義的語言片段。這些片段主要分為三大類:演繹推理(比如"因?yàn)锳成立,所以B也成立")、分支探索(比如"我們分兩種情況來討論")、以及回溯思考(比如"等等,讓我重新檢查一下前面的假設(shè)")。

實(shí)驗(yàn)結(jié)果令人振奮。在多個(gè)不同類型的模型和不同難度的數(shù)學(xué)推理任務(wù)上,HICRA都表現(xiàn)出了顯著的優(yōu)勢(shì)。以香港科技大學(xué)團(tuán)隊(duì)測(cè)試的Qwen3-4B模型為例,在最具挑戰(zhàn)性的AIME數(shù)學(xué)競(jìng)賽題目上,HICRA讓模型的準(zhǔn)確率從68.5%提升到了73.1%,在AIME25題目上從60.0%提升到了65.1%。這種提升看似數(shù)字不大,但在高難度推理任務(wù)中,每個(gè)百分點(diǎn)的提升都來之不易。

更重要的是,這種改進(jìn)不僅體現(xiàn)在文本推理上,在視覺推理任務(wù)中同樣有效。研究團(tuán)隊(duì)在多模態(tài)數(shù)學(xué)推理基準(zhǔn)測(cè)試中發(fā)現(xiàn),HICRA在處理包含圖形的數(shù)學(xué)問題時(shí)也能帶來顯著提升,這說明這種層次化學(xué)習(xí)模式具有普遍性。

研究過程中,團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:傳統(tǒng)的評(píng)估指標(biāo)往往會(huì)誤導(dǎo)我們。比如,很多研究者習(xí)慣用"詞匯級(jí)熵值"來衡量模型的探索能力——即模型在選擇下一個(gè)詞時(shí)的不確定性程度。高熵值被認(rèn)為意味著模型在積極探索新的可能性,低熵值則被認(rèn)為是探索活動(dòng)的減少。

然而,這項(xiàng)研究揭示了這種評(píng)估方法的誤區(qū)。當(dāng)模型在基礎(chǔ)操作上變得更加熟練時(shí),這些低級(jí)操作的熵值自然會(huì)下降,因?yàn)槟P妥兊酶邪盐赵撊绾螆?zhí)行這些基本步驟。但這并不意味著模型整體的探索能力在下降。實(shí)際上,在戰(zhàn)略層面,模型可能正在進(jìn)行更加豐富多樣的探索。

因此,研究團(tuán)隊(duì)提出了"語義熵"這一新的評(píng)估指標(biāo)。與詞匯級(jí)熵值不同,語義熵關(guān)注的是模型在戰(zhàn)略選擇上的多樣性。它不關(guān)心模型是否在計(jì)算"2+3"時(shí)猶豫不決,而是關(guān)心模型是否在嘗試不同的解題策略、不同的思考路徑、不同的分析角度。

通過對(duì)比這兩種指標(biāo),研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣的分化現(xiàn)象:在訓(xùn)練過程中,詞匯級(jí)熵值可能下降(因?yàn)榛A(chǔ)技能的鞏固),但語義熵值卻在上升(因?yàn)閼?zhàn)略思維的豐富化)。而且,語義熵值與最終的推理表現(xiàn)有著更強(qiáng)的正相關(guān)關(guān)系。

這個(gè)發(fā)現(xiàn)對(duì)整個(gè)AI研究領(lǐng)域具有重要啟示。它提醒我們,在評(píng)估AI模型的學(xué)習(xí)進(jìn)展時(shí),不應(yīng)該只看表面的統(tǒng)計(jì)指標(biāo),而應(yīng)該深入理解模型在不同層次上的能力發(fā)展。

當(dāng)然,這項(xiàng)研究也揭示了HICRA方法的一個(gè)重要限制。實(shí)驗(yàn)表明,這種方法的效果很大程度上取決于模型是否已經(jīng)具備了足夠的基礎(chǔ)能力。如果一個(gè)模型連基本的算術(shù)運(yùn)算都做不好,那么過早強(qiáng)調(diào)戰(zhàn)略性思考反而可能適得其反。研究團(tuán)隊(duì)在Llama-3.1-8B模型上的實(shí)驗(yàn)就證實(shí)了這一點(diǎn):由于該模型的基礎(chǔ)能力相對(duì)較弱,HICRA的改進(jìn)效果并不明顯。

這個(gè)限制實(shí)際上進(jìn)一步驗(yàn)證了研究團(tuán)隊(duì)的核心觀點(diǎn):AI的推理能力發(fā)展確實(shí)遵循從基礎(chǔ)到高級(jí)、從程序性到戰(zhàn)略性的自然規(guī)律。只有在適當(dāng)?shù)陌l(fā)展階段采用相應(yīng)的學(xué)習(xí)策略,才能獲得最佳效果。

從更宏觀的角度來看,這項(xiàng)研究為我們理解人工智能的學(xué)習(xí)過程提供了全新視角。它表明,即使是在看似完全數(shù)字化和抽象的AI訓(xùn)練過程中,也遵循著與人類認(rèn)知發(fā)展相似的規(guī)律。這種相似性不僅是表面的,而且是深層的、結(jié)構(gòu)性的。

這一發(fā)現(xiàn)對(duì)AI技術(shù)的未來發(fā)展具有深遠(yuǎn)影響。首先,它為設(shè)計(jì)更高效的AI訓(xùn)練算法提供了理論指導(dǎo)。與其盲目地調(diào)整各種技術(shù)參數(shù),不如根據(jù)模型當(dāng)前的發(fā)展階段,有針對(duì)性地優(yōu)化相應(yīng)的學(xué)習(xí)目標(biāo)。

其次,它為AI能力評(píng)估提供了新的框架。傳統(tǒng)的評(píng)估方法往往過于關(guān)注最終結(jié)果,而忽視了過程中的能力發(fā)展。這項(xiàng)研究提醒我們,理解AI的學(xué)習(xí)過程本身可能比單純的性能數(shù)字更有價(jià)值。

最后,它為AI的可解釋性研究開辟了新的方向。通過分析AI在不同學(xué)習(xí)階段的行為特征,我們可以更好地理解AI的決策過程,這對(duì)于構(gòu)建更可靠、更可信的AI系統(tǒng)至關(guān)重要。

值得一提的是,這種層次化推理能力的發(fā)展模式不僅存在于數(shù)學(xué)推理中。研究團(tuán)隊(duì)暗示,類似的模式很可能在其他復(fù)雜認(rèn)知任務(wù)中也會(huì)出現(xiàn),比如代碼編寫、邏輯推理、甚至創(chuàng)意寫作。這意味著這項(xiàng)研究的影響范圍可能遠(yuǎn)超數(shù)學(xué)領(lǐng)域。

對(duì)于普通用戶而言,這項(xiàng)研究的意義也很實(shí)際。它預(yù)示著未來的AI助手將更加智能和可靠。通過更科學(xué)的訓(xùn)練方法,AI將能夠在保持基礎(chǔ)操作準(zhǔn)確性的同時(shí),發(fā)展出更強(qiáng)的戰(zhàn)略思維能力。這意味著AI不僅能夠執(zhí)行具體的任務(wù),還能夠在面對(duì)復(fù)雜問題時(shí)進(jìn)行更深入的思考和分析。

回到最初的問題:AI學(xué)習(xí)推理的秘密到底是什么?答案是,正如人類的學(xué)習(xí)一樣,AI也需要遵循從基礎(chǔ)到高級(jí)、從模仿到創(chuàng)造的發(fā)展規(guī)律。試圖跳過基礎(chǔ)技能直接培養(yǎng)高級(jí)思維能力,就像試圖在沙灘上建造摩天大樓一樣不切實(shí)際。

這項(xiàng)來自香港科技大學(xué)等知名高校的研究,不僅為我們揭示了AI學(xué)習(xí)的內(nèi)在機(jī)制,更為未來AI技術(shù)的發(fā)展指明了方向。它告訴我們,真正的人工智能不是靠蠻力堆砌參數(shù)實(shí)現(xiàn)的,而是需要遵循認(rèn)知發(fā)展的自然規(guī)律,循序漸進(jìn)地培養(yǎng)各層次的能力。

對(duì)于整個(gè)AI行業(yè)來說,這項(xiàng)研究可能標(biāo)志著一個(gè)新時(shí)代的開始——從盲目的規(guī)?;?xùn)練轉(zhuǎn)向科學(xué)化的能力培養(yǎng),從追求表面的性能指標(biāo)轉(zhuǎn)向理解深層的學(xué)習(xí)機(jī)制。正如研究團(tuán)隊(duì)在論文中所說,理解AI如何學(xué)習(xí),可能比讓AI學(xué)得更快更重要。

Q&A

Q1:什么是HICRA算法?它和普通的AI訓(xùn)練方法有什么不同?

A:HICRA是"層次感知信用分配"算法的簡稱,由香港科技大學(xué)等機(jī)構(gòu)開發(fā)。與傳統(tǒng)方法對(duì)AI回答中的每個(gè)詞都平等對(duì)待不同,HICRA能夠識(shí)別出體現(xiàn)高層次思考的關(guān)鍵部分(比如"讓我換個(gè)思路"這類戰(zhàn)略性表達(dá)),并重點(diǎn)強(qiáng)化這些部分的學(xué)習(xí),就像經(jīng)驗(yàn)豐富的老師會(huì)重點(diǎn)表揚(yáng)學(xué)生的創(chuàng)新思路一樣。

Q2:為什么AI會(huì)出現(xiàn)"頓悟時(shí)刻"和"長度效應(yīng)"這些奇怪現(xiàn)象?

A:研究發(fā)現(xiàn)這些現(xiàn)象都源于AI學(xué)習(xí)的兩階段模式。"頓悟時(shí)刻"其實(shí)是AI掌握了某種重要戰(zhàn)略思維技巧的標(biāo)志,就像學(xué)生突然理解了某個(gè)解題套路。"長度效應(yīng)"則是因?yàn)閺?fù)雜的戰(zhàn)略性思考天然需要更多步驟,就像醫(yī)生診斷疑難病癥時(shí)需要更詳細(xì)的推理過程一樣。

Q3:這項(xiàng)研究對(duì)普通人使用AI有什么實(shí)際意義?

A:這項(xiàng)研究將讓未來的AI助手變得更加智能可靠。通過更科學(xué)的訓(xùn)練方法,AI不僅能準(zhǔn)確執(zhí)行基本任務(wù),還能在面對(duì)復(fù)雜問題時(shí)進(jìn)行深入思考和戰(zhàn)略分析。這意味著我們將擁有既細(xì)心又有戰(zhàn)略眼光的AI助手,而不僅僅是機(jī)械執(zhí)行指令的工具。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-