這項由中國東南大學新一代人工智能技術及其跨學科應用重點實驗室的彭穎哲、張公瑞等研究團隊與香港中文大學、螞蟻集團合作完成的突破性研究,于2025年3月發(fā)表在arXiv預印本平臺(論文編號:arXiv:2503.07536v2)。有興趣深入了解技術細節(jié)的讀者可以通過GitHub項目頁面https://github.com/TideDra/lmm-r1獲取完整的研究成果和代碼。
在人工智能快速發(fā)展的今天,我們經(jīng)常聽到關于大型AI模型的驚人表現(xiàn),但這些"超級大腦"往往需要龐大的計算資源和存儲空間,就像需要一個巨大倉庫才能存放的超級計算機。然而,對于普通用戶和研究機構(gòu)來說,擁有一個既聰明又"小巧"的AI助手顯然更加實用。就像我們更愿意擁有一部功能強大但便攜的智能手機,而不是需要推車才能移動的古老電腦一樣。
這正是東南大學研究團隊要解決的核心問題。他們把目光投向了只有30億參數(shù)的"小體型"多模態(tài)大語言模型(LMM),這類模型就像是AI世界里的"小鋼炮"——體積雖小,但研究團隊希望讓它們擁有媲美大型模型的推理能力。在AI領域,推理能力就像人類的邏輯思維能力,是判斷一個AI系統(tǒng)是否真正"聰明"的關鍵指標。
研究團隊面臨的挑戰(zhàn)可以用一個生動的比喻來理解。如果把AI模型比作廚師,那么大型模型就像是擁有豪華廚房和豐富經(jīng)驗的頂級大廚,而30億參數(shù)的小模型則像是在狹小廚房里工作的新手廚師。新手廚師不僅要在有限的空間里工作,還要同時處理"看圖"和"推理"兩項復雜任務,就像要一邊觀察食材一邊進行復雜的烹飪計算。更關鍵的是,當前訓練這類"多面手廚師"的高質(zhì)量訓練數(shù)據(jù)極其稀缺,就像缺乏好的菜譜和指導材料。
為了解決這個難題,研究團隊提出了一個創(chuàng)新的"兩階段師傅帶徒弟"訓練方案,他們稱之為LMM-R1框架。這個方案的核心思路非常巧妙:既然小模型難以同時掌握視覺理解和邏輯推理兩項技能,那就先讓它專心學好邏輯推理這一基本功,再將這項技能遷移到多模態(tài)任務中。
第一個階段被稱為"基礎推理強化"階段。研究團隊讓小模型暫時"閉上眼睛",專門用純文本的數(shù)學和邏輯問題進行訓練。這就像讓學徒廚師先專心練習刀工和火候控制等基本功,而不急于處理復雜的視覺判斷。他們使用了一種叫做"基于規(guī)則的強化學習"的訓練方法,這種方法的妙處在于不需要人工打分員來評判答案好壞,而是通過數(shù)學驗證的方式自動判斷答案是否正確。
想象一下,傳統(tǒng)的訓練方法需要大量人類專家來評判AI的每一個回答,就像需要無數(shù)個老師來批改作業(yè)。而基于規(guī)則的強化學習則像是使用標準答案的自動閱卷機,能夠快速準確地判斷數(shù)學題的對錯。這種方法不僅效率更高,還避免了人工評分可能存在的主觀偏差。
在第一階段的訓練中,研究團隊使用了包含4萬道高質(zhì)量數(shù)學題的訓練集,這些題目涵蓋了從基礎算術到高等數(shù)學的各個難度層次。通過反復練習這些純文本的推理題目,小模型逐漸掌握了扎實的邏輯推理能力,就像學徒通過大量基礎練習獲得了嫻熟的基本功。
第二個階段被稱為"多模態(tài)泛化訓練"階段。在這個階段,已經(jīng)具備了強大文本推理能力的模型開始學習如何將這些技能應用到需要同時處理圖像和文本的復雜任務中。研究團隊精心設計了兩個主要的訓練領域來測試和提升模型的綜合能力。
首先是"通用多模態(tài)推理"領域,這個領域又包含兩個不同難度的子任務。第一個是"視覺推理為主的幾何領域",主要處理幾何圖形分析問題。研究團隊選擇幾何問題作為橋梁是很有道理的,因為幾何問題在某種程度上延續(xù)了第一階段的數(shù)學推理特征,同時又引入了視覺分析的要求。這就像讓已經(jīng)掌握了基本刀工的學徒開始練習處理形狀規(guī)整的蔬菜,既能運用已有技能,又能逐步適應視覺判斷的需求。
第二個是"感知推理平衡領域",這個領域的任務來自20多個不同的數(shù)據(jù)集,包括視覺問答、文檔理解、數(shù)學推理和科學推理等多種類型的任務。這些任務對視覺感知能力的要求比幾何領域更高,需要模型具備更強的圖像理解能力。這就像讓學徒處理各種不同類型和形狀的食材,需要更高的綜合技能。
其次是"智能體相關推理"領域,這個領域?qū)iT測試模型在復雜視覺環(huán)境中進行決策和規(guī)劃的能力。研究團隊選擇了兩個具有代表性的任務:推箱子游戲和足球游戲。推箱子游戲需要模型分析游戲局面,制定移動策略,并預測多步操作的結(jié)果。足球游戲則要求模型在動態(tài)的多智能體環(huán)境中做出實時決策,需要考慮隊友和對手的位置和行為。這些任務就像讓廚師不僅要做好菜,還要能夠管理整個廚房的運作和協(xié)調(diào)多個助手的工作。
研究團隊使用Qwen2.5-VL-Instruct-3B作為基礎模型進行實驗驗證。這個模型擁有30億個參數(shù),在AI模型中屬于相對較小的規(guī)模,但正是因為其"小巧"的特點,使其更適合在資源受限的環(huán)境中部署和使用。
實驗結(jié)果令人印象深刻。在多模態(tài)推理任務上,經(jīng)過LMM-R1訓練的模型比原始基準模型平均提升了4.83%的性能。更有趣的是,這種提升并非以犧牲文本推理能力為代價——在純文本推理任務上,訓練后的模型同樣獲得了4.5%的性能提升。在復雜的足球游戲任務中,模型的表現(xiàn)提升了3.63%,展現(xiàn)了其在復雜決策任務中的優(yōu)異表現(xiàn)。
為了更深入地理解訓練過程的有效性,研究團隊進行了一系列對比實驗。他們發(fā)現(xiàn)了一個非常有趣的現(xiàn)象:如果直接使用多模態(tài)數(shù)據(jù)進行強化學習訓練,模型的文本推理能力實際上會下降。這就像一個學徒如果沒有扎實的基本功就直接挑戰(zhàn)復雜任務,不僅無法掌握新技能,還可能讓原有的技能變得生疏。
相比之下,先進行文本推理訓練再轉(zhuǎn)向多模態(tài)任務的兩階段方法,不僅保持了原有的推理能力,還成功地將這些能力遷移到了視覺任務中。這驗證了研究團隊"先打基礎再擴展"策略的有效性。
在訓練過程的分析中,研究團隊還發(fā)現(xiàn)了一個值得關注的現(xiàn)象。當使用多模態(tài)數(shù)據(jù)直接訓練時,模型生成的回答往往變得越來越簡短,推理過程也越來越粗糙。而使用文本數(shù)據(jù)進行基礎訓練的模型則展現(xiàn)出相反的趨勢——它們的回答變得更加詳細,推理過程更加嚴謹。這就像前者是在偷工減料地應付任務,而后者則是在認真思考并給出充分的解釋。
研究團隊還將他們的方法與傳統(tǒng)的監(jiān)督學習方法進行了比較。結(jié)果顯示,基于規(guī)則的強化學習方法在避免"災難性遺忘"方面表現(xiàn)更優(yōu)。災難性遺忘是AI訓練中的一個常見問題,指的是模型在學習新任務時會忘記之前學會的技能,就像一個人學會了新語言卻忘記了母語。而強化學習方法能夠更好地保持已有技能,同時學習新的能力。
在智能體任務的評估中,經(jīng)過訓練的30億參數(shù)模型展現(xiàn)出了令人驚訝的性能。在推箱子游戲中,它的表現(xiàn)甚至能夠媲美一些大型商業(yè)模型,如Claude-3.5-Sonnet和GPT-4o。在足球游戲任務中,訓練后的模型也顯示出顯著的改進。這些結(jié)果表明,通過適當?shù)挠柧毑呗?,小?guī)模模型完全有潛力在復雜任務中達到與大型模型相當?shù)男阅芩健?/p>
研究團隊的工作不僅在技術上具有創(chuàng)新性,在實用性方面也具有重要意義。對于資源受限的研究機構(gòu)、初創(chuàng)公司或個人開發(fā)者來說,這種方法提供了一個經(jīng)濟高效的解決方案。他們不需要投入巨大的計算資源來訓練和部署大型模型,而是可以通過巧妙的訓練策略讓小模型發(fā)揮出超越其體量的性能。
此外,這項研究還為AI模型的訓練策略提供了新的思路。傳統(tǒng)觀念認為,模型的性能主要取決于參數(shù)規(guī)模和訓練數(shù)據(jù)的數(shù)量,但這項研究表明,訓練策略的設計同樣重要。通過合理的階段性訓練和技能遷移,即使是相對較小的模型也能在復雜任務中表現(xiàn)出色。
研究團隊在論文中還討論了他們方法的一些限制和未來的改進方向。當前的方法主要在數(shù)學和幾何領域進行了驗證,未來需要在更廣泛的應用領域進行測試。同時,如何進一步提高訓練效率和擴展到更多類型的任務也是值得探索的方向。
從更宏觀的角度來看,這項研究體現(xiàn)了AI發(fā)展的一個重要趨勢:不是單純地追求模型規(guī)模的增大,而是通過更智能的方法來提升模型的實際性能和實用性。這種思路對于推動AI技術的普及和應用具有重要價值,特別是在計算資源相對有限的環(huán)境中。
研究團隊已經(jīng)在GitHub上開源了相關代碼和模型,這為其他研究者和開發(fā)者提供了寶貴的資源。有興趣的讀者可以訪問https://github.com/TideDra/lmm-r1獲取完整的實現(xiàn)細節(jié),這種開放的態(tài)度有助于推動整個AI社區(qū)的發(fā)展和進步。
說到底,這項研究告訴我們一個重要道理:在AI的世界里,"小而精"同樣可以很強大。通過巧妙的訓練策略和扎實的基礎能力建設,即使是體量較小的模型也能在復雜任務中展現(xiàn)出令人刮目相看的表現(xiàn)。這不僅為AI技術的民主化提供了可能,也為我們重新思考AI模型的設計和訓練提供了新的視角。對于那些希望在有限資源下開發(fā)強大AI應用的團隊來說,這項研究無疑提供了一個值得借鑒的優(yōu)秀范例。
Q&A
Q1:LMM-R1是什么?它有什么特別之處? A:LMM-R1是東南大學團隊開發(fā)的一個兩階段訓練框架,專門用來提升小型AI模型的推理能力。它的特別之處在于采用"先學推理再學視覺"的策略,讓只有30億參數(shù)的小模型也能達到媲美大型模型的推理性能,這就像讓"小鋼炮"發(fā)揮出"大炮"的威力。
Q2:為什么不直接用多模態(tài)數(shù)據(jù)訓練,要分兩個階段? A:研究團隊發(fā)現(xiàn)直接用多模態(tài)數(shù)據(jù)訓練會讓模型的推理能力下降,就像沒有基本功就直接挑戰(zhàn)復雜任務會適得其反。兩階段訓練先讓模型專心掌握邏輯推理這個核心技能,再將這個技能遷移到視覺任務中,效果要好得多。
Q3:這種方法對普通用戶有什么意義? A:這項技術讓小型AI模型也能擁有強大的推理能力,意味著普通用戶和小公司也能在有限的計算資源下部署高性能的AI助手。不需要昂貴的硬件設備,就能享受到接近大型模型的智能服務,大大降低了AI技術的使用門檻。
好文章,需要你的鼓勵
浙江大學團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學、編程等任務上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓練提供了新思路。
南洋理工大學與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術,實現(xiàn)AI視頻實時流式生成的重大突破。該技術通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學研究團隊發(fā)現(xiàn),通過讓AI模型學習解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學習方法訓練多個AI模型。實驗結(jié)果顯示,幾何訓練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎幾何知識對培養(yǎng)AI空間智能的重要價值。