研究團(tuán)隊(duì)打造出懂得"量力而行"的人工智能
這項(xiàng)名為"ARM:自適應(yīng)推理模型"的研究由復(fù)旦大學(xué)的吳思燁、謝健(項(xiàng)目負(fù)責(zé)人)、張亦凱、陳愛麗與俄亥俄州立大學(xué)的張凱和蘇宇共同完成,于2025年5月26日發(fā)表在arXiv預(yù)印本平臺(arXiv:2505.20258v1)。感興趣的讀者可以通過項(xiàng)目官方網(wǎng)站(https://team-arm.github.io/arm)獲取更多信息。
想象一下,如果你讓一個數(shù)學(xué)天才回答"漢堡通常在哪里可以找到?"這樣的簡單問題,而他卻開始深入探討食品分類學(xué)、餐飲業(yè)的歷史發(fā)展和消費(fèi)者行為心理學(xué),最后花了半小時才得出"餐廳"這個顯而易見的答案。這種"小題大做"的情況,在人工智能領(lǐng)域被稱為"過度思考"(overthinking)問題。
如今,像OpenAI-o1和DeepSeek-R1這樣的大型推理模型(Large Reasoning Models,簡稱LRMs)在解決復(fù)雜問題時表現(xiàn)出色,但它們存在一個明顯的缺陷:不論問題難易,它們總是傾向于使用冗長的推理鏈(Long Chain-of-Thought,簡稱Long CoT)來解決所有問題。這就像派一位數(shù)學(xué)教授去解決"1+1=?"這樣的問題,結(jié)果他寫了三頁紙的證明過程。這種"過度思考"不僅浪費(fèi)計(jì)算資源,有時甚至?xí)腩~外的噪音,反而誤導(dǎo)模型得出錯誤結(jié)論。
為了解決這個問題,復(fù)旦大學(xué)和俄亥俄州立大學(xué)的研究團(tuán)隊(duì)開發(fā)了"自適應(yīng)推理模型"(Adaptive Reasoning Model,簡稱ARM)。這個模型最大的特點(diǎn)是能夠根據(jù)任務(wù)難度自動選擇最合適的推理方式,就像一個懂得"量力而行"的學(xué)生,簡單題直接答,難題才詳細(xì)思考。
ARM:四種推理方式,應(yīng)對不同難度的任務(wù)
ARM模型支持四種不同的推理格式,其中三種是高效的簡潔形式,一種是詳盡的復(fù)雜形式:
首先是"直接回答"(Direct Answer)。這種方式就像我們回答"1+1=?"一樣,直接給出答案,不需要任何推理過程,適合非常簡單明了的問題。
其次是"簡短思維鏈"(Short CoT)。這種方式會先進(jìn)行簡短的推理,然后給出答案。就像我們解答"15×12=?"時,可能會簡單思考:"15×10=150,15×2=30,所以15×12=180"。
第三種是"代碼推理"(Code)。這種方式使用編程代碼進(jìn)行推理,由于代碼結(jié)構(gòu)化的特性,它在處理某些問題時非常高效,就像使用計(jì)算器解決數(shù)學(xué)問題一樣。
最后是"長思維鏈"(Long CoT)。這種方式會進(jìn)行詳細(xì)、迭代的推理過程,適合需要高級推理能力的復(fù)雜任務(wù),比如需要自我反思和多角度思考的問題。
與傳統(tǒng)大型推理模型不同的是,ARM不會對所有問題都使用最復(fù)雜的Long CoT方式,而是會根據(jù)問題的難度選擇最合適的推理格式。就像一個聰明的學(xué)生,簡單的問題直接答,中等難度的問題用簡短思考,只有遇到真正困難的問題才會詳細(xì)地一步步推導(dǎo)。
如何訓(xùn)練出"懂得輕重"的AI?Ada-GRPO登場
要訓(xùn)練出能夠根據(jù)任務(wù)難度自適應(yīng)選擇推理格式的模型,研究團(tuán)隊(duì)采用了兩階段訓(xùn)練框架:
第一階段是監(jiān)督微調(diào)(Supervised Fine-tuning,簡稱SFT)。在這個階段,研究團(tuán)隊(duì)使用了大量標(biāo)注好的問題,每個問題都有四種不同推理格式(直接回答、簡短思維鏈、代碼、長思維鏈)的解答。通過這種方式,模型學(xué)會了如何使用這四種不同的推理格式解決問題。
然而,僅僅通過監(jiān)督微調(diào),模型只是學(xué)會了不同的推理格式,卻沒有學(xué)會根據(jù)任務(wù)難度選擇合適的格式。這就像一個學(xué)生學(xué)會了多種解題方法,但不知道什么時候該用哪種方法最合適。
為了解決這個問題,研究團(tuán)隊(duì)在第二階段引入了"自適應(yīng)群組相對策略優(yōu)化"(Adaptive Group Relative Policy Optimization,簡稱Ada-GRPO)算法。這是對傳統(tǒng)GRPO算法的改進(jìn)版本。
傳統(tǒng)的GRPO算法在訓(xùn)練過程中會傾向于選擇準(zhǔn)確率最高的推理格式(通常是Long CoT),導(dǎo)致"格式崩潰"(format collapse)問題——模型最終幾乎只使用一種推理格式,無法根據(jù)任務(wù)難度進(jìn)行自適應(yīng)選擇。這就像一個學(xué)生被教導(dǎo)"用最嚴(yán)謹(jǐn)?shù)姆椒ń馑蓄}",結(jié)果簡單的1+1也要寫一頁紙證明。
Ada-GRPO通過一個"格式多樣性獎勵機(jī)制"解決了這個問題。具體來說,它會根據(jù)推理格式在訓(xùn)練中出現(xiàn)的頻率調(diào)整獎勵值,為使用頻率較低的格式提供更高的獎勵,以防止它們在訓(xùn)練過程中消失。同時,它還引入了"衰減因子",確保這種多樣性獎勵不會過度影響模型的準(zhǔn)確性。
這就像教學(xué)生學(xué)習(xí)不同的解題方法時,特意鼓勵他們嘗試使用多種方法,而不是只用一種。隨著學(xué)生能力的提升,這種刻意的引導(dǎo)會逐漸減少,最終學(xué)生能夠自然地根據(jù)題目難度選擇最合適的解題方法。
ARM的三種工作模式:適應(yīng)性、指令引導(dǎo)和共識引導(dǎo)
除了默認(rèn)的"自適應(yīng)模式"(Adaptive Mode)外,ARM還支持另外兩種推理模式:
"指令引導(dǎo)模式"(Instruction-Guided Mode)允許用戶通過特殊標(biāo)記(如)明確指定要使用的推理格式。這在用戶已知一批任務(wù)適合某種特定推理格式時非常有用,就像告訴學(xué)生"這次考試全用公式法解題"一樣。
"共識引導(dǎo)模式"(Consensus-Guided Mode)則會先使用三種高效的推理格式(直接回答、簡短思維鏈和代碼)生成答案,并檢查它們之間是否達(dá)成一致。如果三種方法得出相同答案,那么這個答案就被采納;如果它們之間存在分歧,則模型會切換到更詳細(xì)的Long CoT格式進(jìn)行推理。這種模式優(yōu)先考慮性能,以較高的token使用為代價,就像先讓三個助教快速判卷,如果他們意見一致就采納,意見不一致再請教授詳細(xì)評閱。
實(shí)驗(yàn)結(jié)果:效率大幅提升,準(zhǔn)確率不減反增
研究團(tuán)隊(duì)在多個評估數(shù)據(jù)集上測試了ARM模型,包括常識推理任務(wù)(如CommonsenseQA和OpenBookQA)、數(shù)學(xué)推理任務(wù)(如SVAMP、GSM8K、MATH和AIME'25)以及符號推理任務(wù)(如Big-Bench-Hard)。
實(shí)驗(yàn)結(jié)果令人印象深刻:與僅使用Long CoT的模型相比,ARM在保持相當(dāng)準(zhǔn)確率的同時,平均減少了約30%的token使用量,在某些情況下甚至減少了高達(dá)70%。這就像一個聰明的學(xué)生,簡單題用幾秒鐘就解決了,而傳統(tǒng)方法的學(xué)生卻對每道題都花費(fèi)大量時間進(jìn)行詳細(xì)推導(dǎo)。
更值得注意的是,相比于傳統(tǒng)GRPO算法,Ada-GRPO不僅減少了token使用量,還實(shí)現(xiàn)了約2倍的訓(xùn)練速度提升。這是因?yàn)樵谟?xùn)練過程中,三種高效的推理格式(直接回答、簡短思維鏈和代碼)生成的token數(shù)量遠(yuǎn)少于Long CoT,從而加快了訓(xùn)練進(jìn)度。
研究團(tuán)隊(duì)還進(jìn)行了更深入的分析:
首先,他們發(fā)現(xiàn)ARM的自適應(yīng)模式能夠在有效性和token效率之間取得最佳平衡,在不同難度的任務(wù)上都表現(xiàn)出色。
其次,不同基礎(chǔ)模型對ARM的性能影響有限。無論是使用基礎(chǔ)模型還是經(jīng)過指令微調(diào)的模型,都能獲得類似的結(jié)果。然而,使用DeepSeek-R1-Distill作為基礎(chǔ)模型時,ARM在困難任務(wù)上表現(xiàn)更好,但在簡單任務(wù)上表現(xiàn)較差,且token消耗增加。
最后,研究團(tuán)隊(duì)將ARM與基于長度懲罰的策略進(jìn)行比較。他們發(fā)現(xiàn),隨著token預(yù)算的減少,基于長度懲罰的策略性能會顯著下降,而ARM卻能保持穩(wěn)定的性能。
為什么ARM如此重要?
ARM模型的意義遠(yuǎn)不止于節(jié)省計(jì)算資源。在人工智能追求完全自主的背景下,它代表了一種更接近人類思維方式的進(jìn)步。
人類在解決問題時,會根據(jù)問題的難度自動調(diào)整思考的深度和方法。簡單問題可能靠直覺就能解決,而復(fù)雜問題則需要深入思考和多角度分析。傳統(tǒng)的大型推理模型缺乏這種自適應(yīng)能力,它們對所有問題都"全力以赴",這不僅效率低下,有時甚至?xí)m得其反。
ARM模型通過學(xué)習(xí)何時應(yīng)該"深思熟慮",何時可以"直截了當(dāng)",邁出了讓AI更像人類思維的重要一步。這種能力在實(shí)際應(yīng)用中尤為重要,它可以讓AI在保持高性能的同時,大幅降低計(jì)算成本和能源消耗,為更廣泛的應(yīng)用場景鋪平道路。
此外,ARM的設(shè)計(jì)理念也為解決AI領(lǐng)域的其他問題提供了新思路。"根據(jù)任務(wù)難度自適應(yīng)調(diào)整策略"這一思想,可以應(yīng)用于許多其他AI系統(tǒng)中,如自動駕駛、醫(yī)療診斷、金融分析等,幫助它們在復(fù)雜多變的環(huán)境中做出更明智的決策。
總的來說,ARM模型代表了人工智能領(lǐng)域的一個重要進(jìn)步,它不僅提高了推理效率,更向我們展示了AI如何能更接近人類的思維方式,在保持高性能的同時避免"小題大做"的資源浪費(fèi)。
好文章,需要你的鼓勵
新加坡國立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時顯著提升訓(xùn)練效率,已在多個任務(wù)上驗(yàn)證有效性。