av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 ARM:自適應(yīng)推理模型如何解決大型推理模型的"過度思考"問題

ARM:自適應(yīng)推理模型如何解決大型推理模型的"過度思考"問題

2025-05-30 07:45
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-30 07:45 ? 科技行者

研究團(tuán)隊(duì)打造出懂得"量力而行"的人工智能

這項(xiàng)名為"ARM:自適應(yīng)推理模型"的研究由復(fù)旦大學(xué)的吳思燁、謝健(項(xiàng)目負(fù)責(zé)人)、張亦凱、陳愛麗與俄亥俄州立大學(xué)的張凱和蘇宇共同完成,于2025年5月26日發(fā)表在arXiv預(yù)印本平臺(arXiv:2505.20258v1)。感興趣的讀者可以通過項(xiàng)目官方網(wǎng)站(https://team-arm.github.io/arm)獲取更多信息。

想象一下,如果你讓一個數(shù)學(xué)天才回答"漢堡通常在哪里可以找到?"這樣的簡單問題,而他卻開始深入探討食品分類學(xué)、餐飲業(yè)的歷史發(fā)展和消費(fèi)者行為心理學(xué),最后花了半小時才得出"餐廳"這個顯而易見的答案。這種"小題大做"的情況,在人工智能領(lǐng)域被稱為"過度思考"(overthinking)問題。

如今,像OpenAI-o1和DeepSeek-R1這樣的大型推理模型(Large Reasoning Models,簡稱LRMs)在解決復(fù)雜問題時表現(xiàn)出色,但它們存在一個明顯的缺陷:不論問題難易,它們總是傾向于使用冗長的推理鏈(Long Chain-of-Thought,簡稱Long CoT)來解決所有問題。這就像派一位數(shù)學(xué)教授去解決"1+1=?"這樣的問題,結(jié)果他寫了三頁紙的證明過程。這種"過度思考"不僅浪費(fèi)計(jì)算資源,有時甚至?xí)腩~外的噪音,反而誤導(dǎo)模型得出錯誤結(jié)論。

為了解決這個問題,復(fù)旦大學(xué)和俄亥俄州立大學(xué)的研究團(tuán)隊(duì)開發(fā)了"自適應(yīng)推理模型"(Adaptive Reasoning Model,簡稱ARM)。這個模型最大的特點(diǎn)是能夠根據(jù)任務(wù)難度自動選擇最合適的推理方式,就像一個懂得"量力而行"的學(xué)生,簡單題直接答,難題才詳細(xì)思考。

ARM:四種推理方式,應(yīng)對不同難度的任務(wù)

ARM模型支持四種不同的推理格式,其中三種是高效的簡潔形式,一種是詳盡的復(fù)雜形式:

首先是"直接回答"(Direct Answer)。這種方式就像我們回答"1+1=?"一樣,直接給出答案,不需要任何推理過程,適合非常簡單明了的問題。

其次是"簡短思維鏈"(Short CoT)。這種方式會先進(jìn)行簡短的推理,然后給出答案。就像我們解答"15×12=?"時,可能會簡單思考:"15×10=150,15×2=30,所以15×12=180"。

第三種是"代碼推理"(Code)。這種方式使用編程代碼進(jìn)行推理,由于代碼結(jié)構(gòu)化的特性,它在處理某些問題時非常高效,就像使用計(jì)算器解決數(shù)學(xué)問題一樣。

最后是"長思維鏈"(Long CoT)。這種方式會進(jìn)行詳細(xì)、迭代的推理過程,適合需要高級推理能力的復(fù)雜任務(wù),比如需要自我反思和多角度思考的問題。

與傳統(tǒng)大型推理模型不同的是,ARM不會對所有問題都使用最復(fù)雜的Long CoT方式,而是會根據(jù)問題的難度選擇最合適的推理格式。就像一個聰明的學(xué)生,簡單的問題直接答,中等難度的問題用簡短思考,只有遇到真正困難的問題才會詳細(xì)地一步步推導(dǎo)。

如何訓(xùn)練出"懂得輕重"的AI?Ada-GRPO登場

要訓(xùn)練出能夠根據(jù)任務(wù)難度自適應(yīng)選擇推理格式的模型,研究團(tuán)隊(duì)采用了兩階段訓(xùn)練框架:

第一階段是監(jiān)督微調(diào)(Supervised Fine-tuning,簡稱SFT)。在這個階段,研究團(tuán)隊(duì)使用了大量標(biāo)注好的問題,每個問題都有四種不同推理格式(直接回答、簡短思維鏈、代碼、長思維鏈)的解答。通過這種方式,模型學(xué)會了如何使用這四種不同的推理格式解決問題。

然而,僅僅通過監(jiān)督微調(diào),模型只是學(xué)會了不同的推理格式,卻沒有學(xué)會根據(jù)任務(wù)難度選擇合適的格式。這就像一個學(xué)生學(xué)會了多種解題方法,但不知道什么時候該用哪種方法最合適。

為了解決這個問題,研究團(tuán)隊(duì)在第二階段引入了"自適應(yīng)群組相對策略優(yōu)化"(Adaptive Group Relative Policy Optimization,簡稱Ada-GRPO)算法。這是對傳統(tǒng)GRPO算法的改進(jìn)版本。

傳統(tǒng)的GRPO算法在訓(xùn)練過程中會傾向于選擇準(zhǔn)確率最高的推理格式(通常是Long CoT),導(dǎo)致"格式崩潰"(format collapse)問題——模型最終幾乎只使用一種推理格式,無法根據(jù)任務(wù)難度進(jìn)行自適應(yīng)選擇。這就像一個學(xué)生被教導(dǎo)"用最嚴(yán)謹(jǐn)?shù)姆椒ń馑蓄}",結(jié)果簡單的1+1也要寫一頁紙證明。

Ada-GRPO通過一個"格式多樣性獎勵機(jī)制"解決了這個問題。具體來說,它會根據(jù)推理格式在訓(xùn)練中出現(xiàn)的頻率調(diào)整獎勵值,為使用頻率較低的格式提供更高的獎勵,以防止它們在訓(xùn)練過程中消失。同時,它還引入了"衰減因子",確保這種多樣性獎勵不會過度影響模型的準(zhǔn)確性。

這就像教學(xué)生學(xué)習(xí)不同的解題方法時,特意鼓勵他們嘗試使用多種方法,而不是只用一種。隨著學(xué)生能力的提升,這種刻意的引導(dǎo)會逐漸減少,最終學(xué)生能夠自然地根據(jù)題目難度選擇最合適的解題方法。

ARM的三種工作模式:適應(yīng)性、指令引導(dǎo)和共識引導(dǎo)

除了默認(rèn)的"自適應(yīng)模式"(Adaptive Mode)外,ARM還支持另外兩種推理模式:

"指令引導(dǎo)模式"(Instruction-Guided Mode)允許用戶通過特殊標(biāo)記(如)明確指定要使用的推理格式。這在用戶已知一批任務(wù)適合某種特定推理格式時非常有用,就像告訴學(xué)生"這次考試全用公式法解題"一樣。

"共識引導(dǎo)模式"(Consensus-Guided Mode)則會先使用三種高效的推理格式(直接回答、簡短思維鏈和代碼)生成答案,并檢查它們之間是否達(dá)成一致。如果三種方法得出相同答案,那么這個答案就被采納;如果它們之間存在分歧,則模型會切換到更詳細(xì)的Long CoT格式進(jìn)行推理。這種模式優(yōu)先考慮性能,以較高的token使用為代價,就像先讓三個助教快速判卷,如果他們意見一致就采納,意見不一致再請教授詳細(xì)評閱。

實(shí)驗(yàn)結(jié)果:效率大幅提升,準(zhǔn)確率不減反增

研究團(tuán)隊(duì)在多個評估數(shù)據(jù)集上測試了ARM模型,包括常識推理任務(wù)(如CommonsenseQA和OpenBookQA)、數(shù)學(xué)推理任務(wù)(如SVAMP、GSM8K、MATH和AIME'25)以及符號推理任務(wù)(如Big-Bench-Hard)。

實(shí)驗(yàn)結(jié)果令人印象深刻:與僅使用Long CoT的模型相比,ARM在保持相當(dāng)準(zhǔn)確率的同時,平均減少了約30%的token使用量,在某些情況下甚至減少了高達(dá)70%。這就像一個聰明的學(xué)生,簡單題用幾秒鐘就解決了,而傳統(tǒng)方法的學(xué)生卻對每道題都花費(fèi)大量時間進(jìn)行詳細(xì)推導(dǎo)。

更值得注意的是,相比于傳統(tǒng)GRPO算法,Ada-GRPO不僅減少了token使用量,還實(shí)現(xiàn)了約2倍的訓(xùn)練速度提升。這是因?yàn)樵谟?xùn)練過程中,三種高效的推理格式(直接回答、簡短思維鏈和代碼)生成的token數(shù)量遠(yuǎn)少于Long CoT,從而加快了訓(xùn)練進(jìn)度。

研究團(tuán)隊(duì)還進(jìn)行了更深入的分析:

首先,他們發(fā)現(xiàn)ARM的自適應(yīng)模式能夠在有效性和token效率之間取得最佳平衡,在不同難度的任務(wù)上都表現(xiàn)出色。

其次,不同基礎(chǔ)模型對ARM的性能影響有限。無論是使用基礎(chǔ)模型還是經(jīng)過指令微調(diào)的模型,都能獲得類似的結(jié)果。然而,使用DeepSeek-R1-Distill作為基礎(chǔ)模型時,ARM在困難任務(wù)上表現(xiàn)更好,但在簡單任務(wù)上表現(xiàn)較差,且token消耗增加。

最后,研究團(tuán)隊(duì)將ARM與基于長度懲罰的策略進(jìn)行比較。他們發(fā)現(xiàn),隨著token預(yù)算的減少,基于長度懲罰的策略性能會顯著下降,而ARM卻能保持穩(wěn)定的性能。

為什么ARM如此重要?

ARM模型的意義遠(yuǎn)不止于節(jié)省計(jì)算資源。在人工智能追求完全自主的背景下,它代表了一種更接近人類思維方式的進(jìn)步。

人類在解決問題時,會根據(jù)問題的難度自動調(diào)整思考的深度和方法。簡單問題可能靠直覺就能解決,而復(fù)雜問題則需要深入思考和多角度分析。傳統(tǒng)的大型推理模型缺乏這種自適應(yīng)能力,它們對所有問題都"全力以赴",這不僅效率低下,有時甚至?xí)m得其反。

ARM模型通過學(xué)習(xí)何時應(yīng)該"深思熟慮",何時可以"直截了當(dāng)",邁出了讓AI更像人類思維的重要一步。這種能力在實(shí)際應(yīng)用中尤為重要,它可以讓AI在保持高性能的同時,大幅降低計(jì)算成本和能源消耗,為更廣泛的應(yīng)用場景鋪平道路。

此外,ARM的設(shè)計(jì)理念也為解決AI領(lǐng)域的其他問題提供了新思路。"根據(jù)任務(wù)難度自適應(yīng)調(diào)整策略"這一思想,可以應(yīng)用于許多其他AI系統(tǒng)中,如自動駕駛、醫(yī)療診斷、金融分析等,幫助它們在復(fù)雜多變的環(huán)境中做出更明智的決策。

總的來說,ARM模型代表了人工智能領(lǐng)域的一個重要進(jìn)步,它不僅提高了推理效率,更向我們展示了AI如何能更接近人類的思維方式,在保持高性能的同時避免"小題大做"的資源浪費(fèi)。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-