研究團(tuán)隊(duì)打造出懂得"量力而行"的人工智能
這項(xiàng)名為"ARM:自適應(yīng)推理模型"的研究由復(fù)旦大學(xué)的吳思燁、謝?。?xiàng)目負(fù)責(zé)人)、張亦凱、陳愛麗與俄亥俄州立大學(xué)的張凱和蘇宇共同完成,于2025年5月26日發(fā)表在arXiv預(yù)印本平臺(tái)(arXiv:2505.20258v1)。感興趣的讀者可以通過項(xiàng)目官方網(wǎng)站(https://team-arm.github.io/arm)獲取更多信息。
想象一下,如果你讓一個(gè)數(shù)學(xué)天才回答"漢堡通常在哪里可以找到?"這樣的簡單問題,而他卻開始深入探討食品分類學(xué)、餐飲業(yè)的歷史發(fā)展和消費(fèi)者行為心理學(xué),最后花了半小時(shí)才得出"餐廳"這個(gè)顯而易見的答案。這種"小題大做"的情況,在人工智能領(lǐng)域被稱為"過度思考"(overthinking)問題。
如今,像OpenAI-o1和DeepSeek-R1這樣的大型推理模型(Large Reasoning Models,簡稱LRMs)在解決復(fù)雜問題時(shí)表現(xiàn)出色,但它們存在一個(gè)明顯的缺陷:不論問題難易,它們總是傾向于使用冗長的推理鏈(Long Chain-of-Thought,簡稱Long CoT)來解決所有問題。這就像派一位數(shù)學(xué)教授去解決"1+1=?"這樣的問題,結(jié)果他寫了三頁紙的證明過程。這種"過度思考"不僅浪費(fèi)計(jì)算資源,有時(shí)甚至?xí)腩~外的噪音,反而誤導(dǎo)模型得出錯(cuò)誤結(jié)論。
為了解決這個(gè)問題,復(fù)旦大學(xué)和俄亥俄州立大學(xué)的研究團(tuán)隊(duì)開發(fā)了"自適應(yīng)推理模型"(Adaptive Reasoning Model,簡稱ARM)。這個(gè)模型最大的特點(diǎn)是能夠根據(jù)任務(wù)難度自動(dòng)選擇最合適的推理方式,就像一個(gè)懂得"量力而行"的學(xué)生,簡單題直接答,難題才詳細(xì)思考。
ARM:四種推理方式,應(yīng)對(duì)不同難度的任務(wù)
ARM模型支持四種不同的推理格式,其中三種是高效的簡潔形式,一種是詳盡的復(fù)雜形式:
首先是"直接回答"(Direct Answer)。這種方式就像我們回答"1+1=?"一樣,直接給出答案,不需要任何推理過程,適合非常簡單明了的問題。
其次是"簡短思維鏈"(Short CoT)。這種方式會(huì)先進(jìn)行簡短的推理,然后給出答案。就像我們解答"15×12=?"時(shí),可能會(huì)簡單思考:"15×10=150,15×2=30,所以15×12=180"。
第三種是"代碼推理"(Code)。這種方式使用編程代碼進(jìn)行推理,由于代碼結(jié)構(gòu)化的特性,它在處理某些問題時(shí)非常高效,就像使用計(jì)算器解決數(shù)學(xué)問題一樣。
最后是"長思維鏈"(Long CoT)。這種方式會(huì)進(jìn)行詳細(xì)、迭代的推理過程,適合需要高級(jí)推理能力的復(fù)雜任務(wù),比如需要自我反思和多角度思考的問題。
與傳統(tǒng)大型推理模型不同的是,ARM不會(huì)對(duì)所有問題都使用最復(fù)雜的Long CoT方式,而是會(huì)根據(jù)問題的難度選擇最合適的推理格式。就像一個(gè)聰明的學(xué)生,簡單的問題直接答,中等難度的問題用簡短思考,只有遇到真正困難的問題才會(huì)詳細(xì)地一步步推導(dǎo)。
如何訓(xùn)練出"懂得輕重"的AI?Ada-GRPO登場(chǎng)
要訓(xùn)練出能夠根據(jù)任務(wù)難度自適應(yīng)選擇推理格式的模型,研究團(tuán)隊(duì)采用了兩階段訓(xùn)練框架:
第一階段是監(jiān)督微調(diào)(Supervised Fine-tuning,簡稱SFT)。在這個(gè)階段,研究團(tuán)隊(duì)使用了大量標(biāo)注好的問題,每個(gè)問題都有四種不同推理格式(直接回答、簡短思維鏈、代碼、長思維鏈)的解答。通過這種方式,模型學(xué)會(huì)了如何使用這四種不同的推理格式解決問題。
然而,僅僅通過監(jiān)督微調(diào),模型只是學(xué)會(huì)了不同的推理格式,卻沒有學(xué)會(huì)根據(jù)任務(wù)難度選擇合適的格式。這就像一個(gè)學(xué)生學(xué)會(huì)了多種解題方法,但不知道什么時(shí)候該用哪種方法最合適。
為了解決這個(gè)問題,研究團(tuán)隊(duì)在第二階段引入了"自適應(yīng)群組相對(duì)策略優(yōu)化"(Adaptive Group Relative Policy Optimization,簡稱Ada-GRPO)算法。這是對(duì)傳統(tǒng)GRPO算法的改進(jìn)版本。
傳統(tǒng)的GRPO算法在訓(xùn)練過程中會(huì)傾向于選擇準(zhǔn)確率最高的推理格式(通常是Long CoT),導(dǎo)致"格式崩潰"(format collapse)問題——模型最終幾乎只使用一種推理格式,無法根據(jù)任務(wù)難度進(jìn)行自適應(yīng)選擇。這就像一個(gè)學(xué)生被教導(dǎo)"用最嚴(yán)謹(jǐn)?shù)姆椒ń馑蓄}",結(jié)果簡單的1+1也要寫一頁紙證明。
Ada-GRPO通過一個(gè)"格式多樣性獎(jiǎng)勵(lì)機(jī)制"解決了這個(gè)問題。具體來說,它會(huì)根據(jù)推理格式在訓(xùn)練中出現(xiàn)的頻率調(diào)整獎(jiǎng)勵(lì)值,為使用頻率較低的格式提供更高的獎(jiǎng)勵(lì),以防止它們?cè)谟?xùn)練過程中消失。同時(shí),它還引入了"衰減因子",確保這種多樣性獎(jiǎng)勵(lì)不會(huì)過度影響模型的準(zhǔn)確性。
這就像教學(xué)生學(xué)習(xí)不同的解題方法時(shí),特意鼓勵(lì)他們嘗試使用多種方法,而不是只用一種。隨著學(xué)生能力的提升,這種刻意的引導(dǎo)會(huì)逐漸減少,最終學(xué)生能夠自然地根據(jù)題目難度選擇最合適的解題方法。
ARM的三種工作模式:適應(yīng)性、指令引導(dǎo)和共識(shí)引導(dǎo)
除了默認(rèn)的"自適應(yīng)模式"(Adaptive Mode)外,ARM還支持另外兩種推理模式:
"指令引導(dǎo)模式"(Instruction-Guided Mode)允許用戶通過特殊標(biāo)記(如)明確指定要使用的推理格式。這在用戶已知一批任務(wù)適合某種特定推理格式時(shí)非常有用,就像告訴學(xué)生"這次考試全用公式法解題"一樣。
"共識(shí)引導(dǎo)模式"(Consensus-Guided Mode)則會(huì)先使用三種高效的推理格式(直接回答、簡短思維鏈和代碼)生成答案,并檢查它們之間是否達(dá)成一致。如果三種方法得出相同答案,那么這個(gè)答案就被采納;如果它們之間存在分歧,則模型會(huì)切換到更詳細(xì)的Long CoT格式進(jìn)行推理。這種模式優(yōu)先考慮性能,以較高的token使用為代價(jià),就像先讓三個(gè)助教快速判卷,如果他們意見一致就采納,意見不一致再請(qǐng)教授詳細(xì)評(píng)閱。
實(shí)驗(yàn)結(jié)果:效率大幅提升,準(zhǔn)確率不減反增
研究團(tuán)隊(duì)在多個(gè)評(píng)估數(shù)據(jù)集上測(cè)試了ARM模型,包括常識(shí)推理任務(wù)(如CommonsenseQA和OpenBookQA)、數(shù)學(xué)推理任務(wù)(如SVAMP、GSM8K、MATH和AIME'25)以及符號(hào)推理任務(wù)(如Big-Bench-Hard)。
實(shí)驗(yàn)結(jié)果令人印象深刻:與僅使用Long CoT的模型相比,ARM在保持相當(dāng)準(zhǔn)確率的同時(shí),平均減少了約30%的token使用量,在某些情況下甚至減少了高達(dá)70%。這就像一個(gè)聰明的學(xué)生,簡單題用幾秒鐘就解決了,而傳統(tǒng)方法的學(xué)生卻對(duì)每道題都花費(fèi)大量時(shí)間進(jìn)行詳細(xì)推導(dǎo)。
更值得注意的是,相比于傳統(tǒng)GRPO算法,Ada-GRPO不僅減少了token使用量,還實(shí)現(xiàn)了約2倍的訓(xùn)練速度提升。這是因?yàn)樵谟?xùn)練過程中,三種高效的推理格式(直接回答、簡短思維鏈和代碼)生成的token數(shù)量遠(yuǎn)少于Long CoT,從而加快了訓(xùn)練進(jìn)度。
研究團(tuán)隊(duì)還進(jìn)行了更深入的分析:
首先,他們發(fā)現(xiàn)ARM的自適應(yīng)模式能夠在有效性和token效率之間取得最佳平衡,在不同難度的任務(wù)上都表現(xiàn)出色。
其次,不同基礎(chǔ)模型對(duì)ARM的性能影響有限。無論是使用基礎(chǔ)模型還是經(jīng)過指令微調(diào)的模型,都能獲得類似的結(jié)果。然而,使用DeepSeek-R1-Distill作為基礎(chǔ)模型時(shí),ARM在困難任務(wù)上表現(xiàn)更好,但在簡單任務(wù)上表現(xiàn)較差,且token消耗增加。
最后,研究團(tuán)隊(duì)將ARM與基于長度懲罰的策略進(jìn)行比較。他們發(fā)現(xiàn),隨著token預(yù)算的減少,基于長度懲罰的策略性能會(huì)顯著下降,而ARM卻能保持穩(wěn)定的性能。
為什么ARM如此重要?
ARM模型的意義遠(yuǎn)不止于節(jié)省計(jì)算資源。在人工智能追求完全自主的背景下,它代表了一種更接近人類思維方式的進(jìn)步。
人類在解決問題時(shí),會(huì)根據(jù)問題的難度自動(dòng)調(diào)整思考的深度和方法。簡單問題可能靠直覺就能解決,而復(fù)雜問題則需要深入思考和多角度分析。傳統(tǒng)的大型推理模型缺乏這種自適應(yīng)能力,它們對(duì)所有問題都"全力以赴",這不僅效率低下,有時(shí)甚至?xí)m得其反。
ARM模型通過學(xué)習(xí)何時(shí)應(yīng)該"深思熟慮",何時(shí)可以"直截了當(dāng)",邁出了讓AI更像人類思維的重要一步。這種能力在實(shí)際應(yīng)用中尤為重要,它可以讓AI在保持高性能的同時(shí),大幅降低計(jì)算成本和能源消耗,為更廣泛的應(yīng)用場(chǎng)景鋪平道路。
此外,ARM的設(shè)計(jì)理念也為解決AI領(lǐng)域的其他問題提供了新思路。"根據(jù)任務(wù)難度自適應(yīng)調(diào)整策略"這一思想,可以應(yīng)用于許多其他AI系統(tǒng)中,如自動(dòng)駕駛、醫(yī)療診斷、金融分析等,幫助它們?cè)趶?fù)雜多變的環(huán)境中做出更明智的決策。
總的來說,ARM模型代表了人工智能領(lǐng)域的一個(gè)重要進(jìn)步,它不僅提高了推理效率,更向我們展示了AI如何能更接近人類的思維方式,在保持高性能的同時(shí)避免"小題大做"的資源浪費(fèi)。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。