av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 武漢大學(xué)團隊重大突破:讓AI學(xué)會"看菜下碟",再也不用一刀切的訓(xùn)練方法了

武漢大學(xué)團隊重大突破:讓AI學(xué)會"看菜下碟",再也不用一刀切的訓(xùn)練方法了

2025-10-14 10:04
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-10-14 10:04 ? 科技行者

這項由武漢大學(xué)黃文科、張權(quán)等研究團隊聯(lián)合字節(jié)跳動公司共同完成的重要研究,于2025年9月發(fā)表在arXiv預(yù)印本平臺(論文編號:arXiv:2509.18849v3),有興趣深入了解的讀者可以通過該編號查詢完整論文。這個研究團隊還包括來自國防科技大學(xué)、南洋理工大學(xué)以及AGH科拉科夫大學(xué)的多位學(xué)者,共同攻克了人工智能訓(xùn)練中的一個關(guān)鍵難題。

想象一下你在教一群學(xué)生做數(shù)學(xué)題,有些學(xué)生聰明伶俐一點就通,有些學(xué)生需要反復(fù)練習(xí)才能掌握。傳統(tǒng)的教學(xué)方法就像是用同一套標(biāo)準(zhǔn)來衡量所有學(xué)生的表現(xiàn),不管學(xué)生的水平如何,都用相同的評分方式。這種"一刀切"的方法顯然不夠合理,因為不同水平的學(xué)生需要不同的指導(dǎo)策略。

研究團隊發(fā)現(xiàn),目前最先進的AI訓(xùn)練方法GRPO(組相對策略優(yōu)化)也面臨著類似的問題。這種方法在訓(xùn)練大型語言模型進行推理時,會讓AI生成多個解題思路,然后根據(jù)這些思路的好壞程度給它們打分,用來指導(dǎo)AI學(xué)習(xí)哪些思路更值得采用。然而,現(xiàn)有方法在給這些思路打分時,不管題目的難易程度如何,都使用同一套評分標(biāo)準(zhǔn),這就像用同一把尺子去衡量不同身高的人一樣不合適。

具體來說,研究人員觀察到了兩個令人困擾的現(xiàn)象。第一個叫做"優(yōu)勢反轉(zhuǎn)",就好比在一場考試中,一道非常簡單的題目,大部分學(xué)生都能做對,但偶爾有個學(xué)生做錯了,傳統(tǒng)方法會給這個錯誤答案一個極其嚴(yán)厲的負(fù)分,甚至比那些本來就很難的題目的錯誤答案扣分還要多。這顯然是不合理的,因為簡單題目偶爾出錯不應(yīng)該受到過分嚴(yán)厲的懲罰。

第二個現(xiàn)象叫做"優(yōu)勢鏡像",它描述的是當(dāng)面對兩種截然不同的情況時,傳統(tǒng)方法卻給出了完全相同的評分模式。比如說,一道題目要么所有人都會做,要么所有人都不會做,這兩種情況在本質(zhì)上是完全不同的,但傳統(tǒng)的評分方法卻無法區(qū)分它們,給出了對稱的分?jǐn)?shù)分布,就像照鏡子一樣。

為了解決這些問題,研究團隊提出了一種全新的訓(xùn)練方法,叫做MAPO(混合優(yōu)勢策略優(yōu)化)。這個方法的核心思想是"看菜下碟",也就是根據(jù)不同情況的特點來調(diào)整評分策略。

他們首先引入了"軌跡確定性"這個概念,用來判斷一個問題對AI來說是容易還是困難。這就像是給每個問題貼上一個標(biāo)簽,標(biāo)明它的"難度等級"。如果AI在多次嘗試中都能穩(wěn)定地給出正確或錯誤的答案,那么這個問題就具有高確定性,要么很簡單要么很困難。相反,如果AI有時能做對有時做錯,表現(xiàn)不穩(wěn)定,那么這個問題就具有低確定性,處于AI能力的邊界地帶。

針對高確定性的問題,研究團隊設(shè)計了一種叫做"優(yōu)勢百分比偏差"的新評分方法。與傳統(tǒng)方法相比,這種方法更加關(guān)注答案質(zhì)量相對于平均水平的比例關(guān)系,而不是絕對差異。就像是在評價一個富翁和一個普通人的消費行為時,我們更關(guān)心他們花費占自己收入的比例,而不是花費的絕對金額。

更巧妙的是,MAPO方法會根據(jù)問題的確定性程度,動態(tài)地在兩種評分方式之間進行權(quán)衡。這個過程被稱為"軌跡確定性重加權(quán)"。當(dāng)遇到確定性很高的問題時,系統(tǒng)會更多地采用新的百分比偏差方法;當(dāng)遇到確定性較低的問題時,則會更多地依賴傳統(tǒng)的標(biāo)準(zhǔn)化方法。這就像是一個經(jīng)驗豐富的老師,能夠根據(jù)不同學(xué)生的特點調(diào)整自己的教學(xué)策略。

這種動態(tài)調(diào)整的策略基于一個精心設(shè)計的數(shù)學(xué)公式。研究團隊發(fā)現(xiàn),當(dāng)AI在某個問題上的成功率接近50%時,問題的不確定性達到最高,這時候傳統(tǒng)的評分方法最為有效。而當(dāng)成功率接近0%或100%時,不確定性很低,新的百分比評分方法更加合適。系統(tǒng)會根據(jù)這個規(guī)律自動調(diào)整兩種方法的權(quán)重比例。

為了驗證這種新方法的效果,研究團隊進行了大量的實驗。他們選擇了兩個不同領(lǐng)域的任務(wù):幾何數(shù)學(xué)問題和情感識別問題。在幾何問題中,AI需要分析圖形并計算出正確答案;在情感識別中,AI需要判斷圖片中表達的情感類別。這兩個任務(wù)的性質(zhì)完全不同,正好可以測試新方法的通用性。

實驗使用了當(dāng)前最先進的多模態(tài)大語言模型Qwen2.5-VL-7B作為基礎(chǔ)模型。研究團隊讓這個模型在訓(xùn)練數(shù)據(jù)上學(xué)習(xí),然后在從未見過的測試數(shù)據(jù)上檢驗效果。結(jié)果顯示,使用MAPO方法訓(xùn)練的模型在各項指標(biāo)上都超過了傳統(tǒng)方法。

具體來說,在幾何問題任務(wù)中,傳統(tǒng)GRPO方法的準(zhǔn)確率為51.91%,而MAPO方法達到了54.41%,提升了約2.5個百分點。在情感識別任務(wù)中,提升更加顯著,從77.20%提高到了77.86%。雖然這些數(shù)字看起來提升幅度不大,但在AI領(lǐng)域,即使是1%的提升也需要巨大的技術(shù)突破,何況是2-3%的提升。

更重要的是,新方法在處理模型從未見過的問題時表現(xiàn)得更加穩(wěn)定和可靠。這意味著用MAPO訓(xùn)練出來的AI具有更好的泛化能力,能夠更好地應(yīng)對現(xiàn)實世界中的各種新情況。

研究團隊還進行了深入的理論分析,從數(shù)學(xué)角度解釋了為什么MAPO方法更加有效。他們發(fā)現(xiàn),這種方法實際上會對困難問題給予更大的學(xué)習(xí)權(quán)重,對簡單問題給予較小的權(quán)重,這符合教育學(xué)中"因材施教"的基本原理。通過數(shù)學(xué)推導(dǎo),他們證明了MAPO方法在理論上具有更好的收斂性質(zhì)。

這項研究的意義不僅僅局限于技術(shù)層面的改進。它提供了一種全新的思路來理解和改進AI的學(xué)習(xí)過程。傳統(tǒng)的機器學(xué)習(xí)方法往往假設(shè)所有數(shù)據(jù)都應(yīng)該被平等對待,但現(xiàn)實世界中的數(shù)據(jù)往往具有不同的特征和難度。MAPO方法展示了如何讓AI學(xué)會識別這些差異,并相應(yīng)地調(diào)整自己的學(xué)習(xí)策略。

從更廣闊的視角來看,這種"自適應(yīng)學(xué)習(xí)"的思想可能會影響整個AI領(lǐng)域的發(fā)展方向。未來的AI系統(tǒng)可能會變得更加智能,不僅能夠?qū)W習(xí)知識本身,還能學(xué)會如何更好地學(xué)習(xí),這被稱為"元學(xué)習(xí)"或"學(xué)會學(xué)習(xí)"。

這項研究也具有很強的實用價值。由于MAPO方法不需要額外的模型架構(gòu)或大量的計算資源,它可以很容易地集成到現(xiàn)有的AI訓(xùn)練流程中。這意味著各種AI應(yīng)用,從智能客服到自動駕駛,都可能從這種改進的訓(xùn)練方法中受益。

此外,研究團隊還特別注意到了方法的通用性。他們在完全不同的兩個領(lǐng)域(數(shù)學(xué)推理和情感識別)都驗證了方法的有效性,這表明MAPO不是針對特定任務(wù)的專門優(yōu)化,而是一種具有普遍適用性的改進方法。

值得一提的是,這種方法的設(shè)計理念體現(xiàn)了人工智能向人類學(xué)習(xí)方式靠攏的趨勢。人類在學(xué)習(xí)時天然地會根據(jù)任務(wù)的難易程度調(diào)整自己的注意力和學(xué)習(xí)策略,而MAPO方法正是試圖讓AI也具備這種能力。

當(dāng)然,這項研究也有一些局限性。目前的實驗主要在相對較小規(guī)模的模型和數(shù)據(jù)集上進行,未來需要在更大規(guī)模的系統(tǒng)上驗證效果。同時,如何進一步優(yōu)化軌跡確定性的判斷機制,以及如何將這種思想擴展到其他類型的機器學(xué)習(xí)任務(wù),都是值得繼續(xù)探索的方向。

說到底,武漢大學(xué)團隊的這項研究為我們展示了一個重要的道理:有時候最好的解決方案不是發(fā)明全新的技術(shù),而是學(xué)會更智能地使用現(xiàn)有的技術(shù)。就像一個好老師不一定要發(fā)明新的教學(xué)內(nèi)容,但一定要學(xué)會針對不同學(xué)生采用不同的教學(xué)方法。MAPO方法正是讓AI學(xué)會了這種"因材施教"的智慧,這可能會成為未來AI發(fā)展的一個重要方向。隨著這種技術(shù)的不斷完善和推廣,我們有理由期待AI在各個領(lǐng)域都能表現(xiàn)得更加智能和可靠。

Q&A

Q1:MAPO方法與傳統(tǒng)GRPO方法的主要區(qū)別是什么?

A:MAPO方法的核心區(qū)別在于能夠根據(jù)問題難度動態(tài)調(diào)整評分策略,而傳統(tǒng)GRPO方法對所有問題都使用相同的評分標(biāo)準(zhǔn)。MAPO會識別問題的"軌跡確定性",對于高確定性問題使用"優(yōu)勢百分比偏差"評分,對于低確定性問題則采用傳統(tǒng)評分方式,實現(xiàn)了"看菜下碟"式的智能訓(xùn)練。

Q2:優(yōu)勢反轉(zhuǎn)和優(yōu)勢鏡像問題具體是怎么回事?

A:優(yōu)勢反轉(zhuǎn)是指簡單題目的偶然錯誤比困難題目的錯誤受到更嚴(yán)厲的懲罰,這不合理。優(yōu)勢鏡像是指兩種本質(zhì)不同的情況(如所有人都會做vs所有人都不會做)卻得到相同的評分模式。這兩個問題都源于傳統(tǒng)方法無法區(qū)分不同難度問題的特點。

Q3:MAPO方法的實際效果如何,能帶來多大提升?

A:實驗結(jié)果顯示,在幾何問題任務(wù)中準(zhǔn)確率從51.91%提升到54.41%,在情感識別任務(wù)中從77.20%提升到77.86%。雖然看似提升幅度不大,但在AI領(lǐng)域這已經(jīng)是顯著改進,且該方法提高了模型的泛化能力和穩(wěn)定性,對未見過的問題處理更可靠。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-