這項由貝殼找房(Ke.com)內部a-m團隊的紀運杰、田曉雨、趙思彤、王浩天、陳帥庭、彭一平、趙涵、李現(xiàn)剛等研究者完成的研究,于2025年5月發(fā)表在計算機科學預印本網站arXiv上(論文編號:arXiv:2505.08311v2),有興趣深入了解的讀者可以通過https://huggingface.co/a-m-team/AM-Thinking-v1訪問完整模型。
近年來,大型語言模型在推理能力上取得了令人矚目的進步,特別是在數(shù)學問題解決和代碼生成這些需要復雜邏輯推理的任務上。然而,目前的頂尖推理模型往往依賴于龐大的混合專家(MoE)架構,這些"巨無霸"模型雖然能力強大,但部署和微調都極為復雜,對硬件資源的要求也相當苛刻。
面對這種情況,研究團隊提出了一個關鍵問題:能否在不依賴私有數(shù)據和大規(guī)模MoE架構的情況下,通過精心設計的訓練流程來釋放32B規(guī)模密集模型的推理潛力?這就像在問,能否用一臺精心調教的家用汽車跑出超跑的速度。
為了回答這個問題,研究團隊開發(fā)了AM-Thinking-v1,這是一個基于開源Qwen2.5-32B基礎模型構建的推理優(yōu)化語言模型。這個模型在多個推理基準測試中取得了令人印象深刻的成績:在AIME2024數(shù)學競賽中得分85.3,AIME2025中得分74.4,在LiveCodeBench編程測試中得分70.3。更令人驚訝的是,這個僅有320億參數(shù)的"小"模型竟然超越了DeepSeek-R1這樣的671B MoE模型,甚至接近了Qwen3-235B-A22B和Seed1.5-Thinking等頂級大模型的性能。
研究的核心創(chuàng)新在于一套精心設計的后訓練框架。這個框架就像一個精密的烹飪流程,包含兩個主要階段:監(jiān)督微調(SFT)和強化學習(RL)。研究團隊從Qwen2.5-32B基礎模型開始,首先使用冷啟動數(shù)據集進行監(jiān)督微調,培養(yǎng)模型的"先思考再回答"模式,建立初步的推理能力。接著在強化學習階段,他們采用了難度感知的查詢選擇和兩階段訓練程序,確保訓練的穩(wěn)定性和性能的逐步提升。
更重要的是,整個訓練過程完全基于公開可獲得的數(shù)據集。研究團隊對各種開源查詢和指令進行了嚴格的預處理,包括去重、去除低質量或多模態(tài)查詢,以及對評估基準進行徹底的污染檢測。特別是對于數(shù)學查詢,由于發(fā)現(xiàn)其中存在大量噪聲項,他們構建了一個全面的數(shù)據處理流程,涵蓋查詢過濾和標準答案驗證。
在數(shù)據收集方面,研究團隊從多個公開數(shù)據集中收集訓練數(shù)據,涵蓋數(shù)學推理、代碼生成、科學推理、指令遵循和通用對話等任務。對于數(shù)學推理數(shù)據,他們確保每個數(shù)據點都包含可驗證的標準答案,并整合了OpenR1-Math-220k、Big-Math-RL-Verified、NuminaMath、MetaMathQA等多個數(shù)據集。代碼生成數(shù)據則確保所有收集的代碼數(shù)據都包含可驗證的測試用例,涵蓋PRIME、DeepCoder、KodCode等數(shù)據集。
在數(shù)據清洗過程中,研究團隊首先去除重復項,然后應用兩個清洗步驟:移除包含URL的查詢(因為模型無法在訓練過程中訪問外部鏈接)和移除引用圖像的查詢(因為這是一個純文本模型)。最后,他們使用精確匹配和語義去重技術,從訓練集中移除與評估集相似的查詢。
對于數(shù)學查詢的特殊處理更加細致。研究團隊發(fā)現(xiàn)數(shù)學數(shù)據中存在描述不清楚或不完整的查詢以及錯誤的標準答案問題。為了解決前者,他們使用大語言模型分析并過濾掉缺乏清晰完整描述的查詢。對于后者,他們實施了嚴格的標準答案驗證流程:對每個查詢,提示DeepSeek-R1生成多個回答,并使用math_verify工具比較最常見答案與原始標準答案。當發(fā)現(xiàn)不一致時,他們會咨詢o4-mini獲得替代答案,如果math_verify確定o4-mini答案和DeepSeek-R1常見答案產生等效結果,就認為原始標準答案可能錯誤并將其修訂。
在合成回答過濾方面,研究團隊應用了三種方法來過濾低質量的合成回答:基于困惑度的過濾(使用之前訓練的32B模型計算每個模型生成回答的困惑度)、基于N-gram的過濾(丟棄包含連續(xù)出現(xiàn)的重復短語的回答)、基于結構的過濾(確保多輪對話的最后一輪是助手回答,并要求每個模型生成的回復都包含完整的思考和回答組件)。
獎勵機制的設計也頗為巧妙。對于有客觀驗證標準的查詢(數(shù)學、代碼、指令遵循),研究團隊采用基于規(guī)則的驗證或代碼執(zhí)行來評估模型回答的正確性。對于數(shù)學查詢,獎勵通過驗證模型的最終答案確定,過程是從模型答案內容的最后一個框內容中提取答案,然后使用math_verify工具與參考答案驗證。對于代碼查詢,驗證過程在安全的代碼沙盒環(huán)境中執(zhí)行,目前支持Python和C++等多種編程語言的評估。
代碼驗證分為兩種形式:方法調用測試用例(要求實現(xiàn)特定方法或函數(shù),測試用例由特定函數(shù)名、輸入值和對應的預期輸出定義)和標準輸入輸出測試用例(代碼從標準輸入讀取并寫入標準輸出)。為了確保安全的代碼執(zhí)行和高并發(fā)下的穩(wěn)定性能,研究團隊將沙盒部署為利用多臺機器的分布式云服務,通過負載均衡和隊列管理確保安全隔離和高容量執(zhí)行的可靠性。
對于缺乏客觀驗證標準的查詢,研究團隊采用基于獎勵模型的方法。他們使用獎勵模型為每個生成的回答提供三個不同的分數(shù),分別衡量有用性、正確性和連貫性,最終獎勵分數(shù)計算為這三個分數(shù)的平均值。
在監(jiān)督微調階段,研究團隊使用約284萬個樣本進行訓練,涵蓋數(shù)學、代碼、科學、指令遵循和通用對話五大類別。從實例層面看,數(shù)學占35.5%,通用對話占38.3%,代碼占16.4%,科學占4.3%,指令遵循占5.5%。從token層面看,數(shù)學占41.8%,代碼占30.9%,通用對話占22.5%,指令遵循占2.6%,科學占2.2%。
有趣的是,研究團隊發(fā)現(xiàn)在長形式推理任務上進行監(jiān)督微調會導致模式轉換。與傳統(tǒng)SFT不同,這個階段需要更大的學習率和批量大小才能實現(xiàn)穩(wěn)定收斂,否則模型難以有效擬合數(shù)據。傳統(tǒng)SFT可能使用約8×10^-6的學習率和約0.5M token的批量大小,而長形式推理的監(jiān)督微調通常需要高達8×10^-5的學習率和約2M token的批量大小。
強化學習階段更加精細。研究團隊觀察到,選擇適當難度的訓練查詢對確保強化學習階段穩(wěn)定的性能改進起著關鍵作用。因此,在RL之前,他們基于SFT模型獲得的通過率過濾數(shù)學和代碼查詢,只保留通過率嚴格在0和1之間的查詢,確保訓練數(shù)據保持足夠的挑戰(zhàn)性以推動學習,同時避免過于簡單或過于困難的實例。
RL流程包含兩個階段。當模型在第一階段的性能達到平臺期時,他們轉入第二階段。在第二階段,他們移除所有在第一階段模型100%正確回答的數(shù)學和代碼查詢,并補充15k通用對話和5k指令遵循數(shù)據以改善更廣泛的泛化能力。
研究團隊采用群體相對政策優(yōu)化(GRPO)作為訓練算法。盡管這是近端政策優(yōu)化(PPO)的簡化輕量變體,但他們發(fā)現(xiàn)GRPO提供了強大的訓練穩(wěn)定性和有效的性能增益。訓練配置包括:移除KL約束以允許更實質性的政策更新;對于在推出過程中超過特定長度閾值的回答,將其優(yōu)勢設為零以防止其影響參數(shù)更新;嚴格的在策略訓練,每個訓練批次包含256個查詢,對每個查詢采樣16個推出,政策模型在每個探索階段后只更新一次;兩階段生成和學習率調度,第一階段限制最大回答長度為24K token并使用相對較高的4×10^-6學習率,第二階段將最大回答長度增加到32K并將學習率降低到1×10^-6。
技術框架方面,研究團隊的訓練流程基于verl框架構建,使用GRPO進行強化學習。verl是一個開源RL框架,集成了vLLM、FSDP和MegatronLM,能夠在1000+GPU上實現(xiàn)可擴展的RL訓練。他們進一步擴展了verl,增加了最適合其訓練策略的修改。
在推出速度優(yōu)化方面,研究團隊發(fā)現(xiàn)在線樣本生成的RL往往受到訓練周期長的困擾,每個訓練步驟需要幾分鐘到幾十分鐘。與SFT或DPO不同,在線GRPO需要在每個步驟中進行政策模型樣本生成,增加了每步延遲。這個推出階段占據了一個訓練步驟總時間的70%以上,因此需要優(yōu)化。
他們識別出兩個主要問題:首先,訓練是同步的,整個生成批次必須全部完成才能繼續(xù)下一階段,必須等待批次中最長的序列完成,造成長尾效應。其次,不同提示和隨機樣本之間的生成長度差異進一步加劇了推理實例間的負載不均衡。
為了解決這些問題,研究團隊采用了兩種方法。第一種方法使用靜態(tài)負載均衡,將一個提示的隨機采樣分散到多個實例上。通過將重復采樣移出推出工作器到訓練器中,并增加額外的混洗,放松了同一提示綁定到同一推理實例的約束。這種改變緩解了不均衡負載,解放了擁擠的實例免于運行許多低單序列吞吐量的長序列。
第二種方法是將推出工作器從推理引擎分離,通過知曉實時系統(tǒng)指標的自定義負載均衡器實現(xiàn)動態(tài)實例分配。系統(tǒng)現(xiàn)在具有為每個生成樣本動態(tài)分配推理實例的靈活性。為了實現(xiàn)這一點,他們在推出工作器內的離線vLLM引擎中添加前端服務器,暴露API端點,將所有實例的端點附加到自定義負載均衡器,然后從每個推出工作器調用這個聚合端點。通過實現(xiàn)感知每個實例當前負載和速度指標的負載均衡器,他們可以將擁擠工作器上的長序列重新路由到不那么擁擠的副本。
在評估方面,研究團隊在多個具有挑戰(zhàn)性的基準上評估模型。AIME2024是一個具有挑戰(zhàn)性的數(shù)學推理競賽數(shù)據集,包含30個整數(shù)答案問題,旨在評估精確的數(shù)學推理。AIME2025包含2025年AIME競賽的30個問題,來自2025年AIME第一部分和第二部分。LiveCodeBench是一個全面的、無污染的編程基準,持續(xù)聚合來自LeetCode、AtCoder和Codeforces等平臺的新編程挑戰(zhàn)。Arena-Hard是一個從Chatbot Arena中的實時數(shù)據構建高質量基準的數(shù)據流程,其中模型回答通過使用GPT-4-Turbo作為仲裁者的成對比較進行評判。
評估方法保持標準化條件,最大生成長度設為49,152 token。對于需要隨機采樣的基準,統(tǒng)一采用0.6的溫度和0.95的top-p值。具體而言,對于AIME2024和AIME2025,每個查詢生成64個回答來計算pass@1精度;對于LiveCodeBench,每個查詢生成16個回答來估計pass@1;對于Arena-Hard,每個查詢生成一個回答并使用GPT-4 Turbo進行評估。
在提示策略方面,所有評估都使用一致的系統(tǒng)提示來指導模型的回答格式,告訴模型它是一個有用的助手,在回答用戶問題時,首先思考推理過程,然后為用戶提供答案,推理過程和答案分別包含在和標簽內。
實驗結果顯示,AM-Thinking-v1在多個推理基準上的表現(xiàn)令人印象深刻。在數(shù)學任務上,該模型在AIME2024和AIME2025上分別獲得85.3和74.4的分數(shù),超越或緊密匹配DeepSeek-R1和Qwen3-235B-A22B等更大模型。在專注于代碼推理的LiveCodeBench基準上,AM-Thinking-v1達到70.3的分數(shù),大幅超越DeepSeek-R1(64.3)、Qwen3-32B(65.7)和Nemotron-Ultra-253B(68.1),展現(xiàn)了強大的代碼理解和生成能力。在通用對話基準Arena-Hard上,AM-Thinking-v1獲得92.5的分數(shù),與OpenAI-o1(92.1)和o3-mini(89.0)等幾個專有模型競爭激烈,不過其性能仍落后于Qwen3-235B-A22B(95.6),表明在通用對話能力方面仍有改進空間。
性能與模型大小的關系圖表明,AM-Thinking-v1在相似規(guī)模的密集模型中實現(xiàn)了最強性能,并接近了更大MoE模型的性能,在效率和性能之間取得了有效平衡。
在訓練過程中,研究團隊還觀察到一些有趣的現(xiàn)象。在SFT的早期階段,模型傾向于生成過長的輸出,停止比率較低。這主要是由于基礎模型的預訓練語料主要由純文本組成,以及數(shù)據集中的推理示例比標準指令數(shù)據長得多。隨著訓練的進行,平均生成長度持續(xù)下降,停止比率穩(wěn)步上升,表明模型正逐漸學習長形式推理提示中固有的結構和語義模式。
這項研究最重要的貢獻在于證明了即使沒有大規(guī)模MoE架構,32B規(guī)模的密集模型也能實現(xiàn)與最佳可用模型相當?shù)耐评砟芰ΑQ芯繄F隊希望這項工作能為社區(qū)提供實用參考,突出精心的后訓練設計如何在保持中等規(guī)模模型部署優(yōu)勢的同時彌補性能差距。
然而,研究團隊也坦誠地指出了AM-Thinking-v1的局限性。雖然該模型在推理和開放域對話方面表現(xiàn)良好,但它缺乏對結構化函數(shù)調用、工具使用和多模態(tài)輸入的支持,限制了其在基于代理或跨模態(tài)場景中的適用性。安全對齊仍然是初步的,需要進一步的紅隊測試。此外,其在低資源語言和特定領域任務上的性能可能有所不同。
說到底,這項研究為我們展示了一個令人振奮的可能性:通過巧妙的設計和精心的訓練,相對較小的模型也能在特定任務上達到甚至超越巨型模型的表現(xiàn)。這就像一個技藝精湛的工匠,用普通的工具也能創(chuàng)造出超越昂貴設備的作品。對于那些資源有限但又希望在推理任務上獲得出色性能的研究者和開發(fā)者來說,這無疑是一個重要的啟示。
歸根結底,AM-Thinking-v1證明了在AI發(fā)展的道路上,創(chuàng)新的方法往往比單純的規(guī)模擴張更有價值。這項研究不僅為32B規(guī)模模型的潛力提供了有力證明,也為整個開源社區(qū)指出了一條可行的發(fā)展路徑。有興趣的讀者可以通過https://huggingface.co/a-m-team/AM-Thinking-v1下載并體驗這個模型,親自感受其在推理任務上的表現(xiàn)。
Q&A
Q1:AM-Thinking-v1是什么?它有什么特別之處? A:AM-Thinking-v1是貝殼找房開發(fā)的32B參數(shù)推理優(yōu)化語言模型。它的特別之處在于用相對較小的規(guī)模(320億參數(shù))實現(xiàn)了媲美甚至超越千億級大模型的推理能力,在數(shù)學競賽AIME2024上得分85.3,超越了671B的DeepSeek-R1模型。
Q2:這個模型是怎么訓練出來的?普通人能用嗎? A:該模型完全基于開源數(shù)據和Qwen2.5-32B基礎模型訓練,采用監(jiān)督微調加強化學習的兩階段流程。普通人可以通過https://huggingface.co/a-m-team/AM-Thinking-v1免費下載使用,但需要一定的技術背景來部署運行。
Q3:32B模型相比更大的模型有什么優(yōu)勢? A:32B模型的主要優(yōu)勢是部署簡單、資源需求低、微調容易。相比動輒幾千億參數(shù)的MoE模型,32B模型可以在普通硬件上運行,維護成本更低,同時在特定推理任務上仍能達到頂級性能,是效率和能力的最佳平衡點。
好文章,需要你的鼓勵
浙江大學團隊提出動態(tài)專家搜索方法,讓AI能根據不同問題靈活調整內部專家配置。該方法在數(shù)學、編程等任務上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓練提供了新思路。
南洋理工大學與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術,實現(xiàn)AI視頻實時流式生成的重大突破。該技術通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質量視頻,延遲僅0.76秒,質量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內容創(chuàng)作開辟新可能。
華中科技大學研究團隊發(fā)現(xiàn),通過讓AI模型學習解決幾何問題,能夠顯著提升其空間理解能力。他們構建了包含約30000個幾何題目的Euclid30K數(shù)據集,使用強化學習方法訓練多個AI模型。實驗結果顯示,幾何訓練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎幾何知識對培養(yǎng)AI空間智能的重要價值。