在人工智能研究的前沿,視覺語言模型(VLMs)的推理能力一直是研究人員追求的重要目標。2025年6月,來自新加坡國立大學的吳子健、倪金杰、劉向彥、劉子晨和香港中文大學的嚴航,以及新加坡國立大學的Michael Qizhe Shieh共同發(fā)表了一篇題為《SynthRL: Scaling Visual Reasoning with Verifiable Data Synthesis》的研究論文。這項研究在arXiv預印本平臺(arXiv:2506.02096v1)上發(fā)表,代碼已在GitHub上開源(github.com/NUS-TRAIL/SynthRL),模型和數(shù)據(jù)集也已在Hugging Face上公開(hf.co/collections/Jakumetsu/SynthRL)。這項研究為視覺推理領域帶來了全新的思路:如何通過智能生成更具挑戰(zhàn)性的訓練數(shù)據(jù)來提升模型的推理能力。
想象一下,如果你是一位教師,你希望你的學生能夠解決更復雜的數(shù)學問題。你可能會先給他們一些簡單的題目,然后根據(jù)他們的解題情況,逐步設計更有挑戰(zhàn)性的問題。而這正是SynthRL的核心思想——它能自動識別模型已經(jīng)掌握的簡單問題,然后將這些問題轉(zhuǎn)化為更具挑戰(zhàn)性的變體,同時保持原始答案不變,從而幫助模型學習更深層次的推理能力。
近年來,通過可驗證獎勵的強化學習(RLVR)已經(jīng)在提升視覺語言模型的推理能力方面取得了顯著進展。與此同時,以數(shù)據(jù)為中心的方法也被越來越多地認為是提升模型智能的關鍵。研究團隊敏銳地發(fā)現(xiàn)了一個重要但尚未充分探索的問題:我們能否在保證正確性和分布保證的前提下,擴展RLVR訓練數(shù)據(jù),以實現(xiàn)更好的性能?
面對這一挑戰(zhàn),直接將其表述為標準優(yōu)化問題并不容易。雖然現(xiàn)有的數(shù)據(jù)選擇方法可能在分布方面提供部分解決方案,但它們受限于原始數(shù)據(jù)量和分布,在數(shù)據(jù)本身稀缺且有偏差的情況下效果不佳。研究團隊選擇了一個互補且更實用的方向——數(shù)據(jù)合成。他們的直覺是,在RLVR設置下,更具挑戰(zhàn)性但仍然正確的訓練樣本可以提供更豐富的學習信號。
SynthRL是一個精心設計的三階段流程,專門用于為視覺語言模型的推理訓練生成高質(zhì)量的數(shù)據(jù)。第一階段是"基于難度的種子選擇",系統(tǒng)會分析目標模型對種子問題的解答情況,選擇那些模型能輕松解答的問題作為合成的起點,因為這些問題提供的學習信號有限,最適合進行復雜度提升。第二階段是"定向合成",利用強大的視覺語言模型生成更具挑戰(zhàn)性的問題變體,同時保持原始答案不變。這一過程通過最小化的提示實現(xiàn),強調(diào)通過要求更深層次的推理來增加難度。第三階段是"驗證",確保合成的數(shù)據(jù)既保持問題有效性和答案正確性,又確實增加了難度。通過"提出-解決"機制,這一驗證過程幾乎完美地保證了新合成訓練樣本的正確性。
研究團隊將SynthRL應用于MMK12數(shù)據(jù)集,從約8000個種子樣本生成了超過3300個經(jīng)過驗證的更具挑戰(zhàn)性的問題。實驗結果令人振奮:使用合成數(shù)據(jù)訓練的模型在五個視覺數(shù)學推理基準測試(MathVerse、MathVision、MathVista、WeMath和DynaMath)上均取得了明顯的性能提升。與僅使用種子數(shù)據(jù)訓練的基線模型相比,他們的模型在MathVerse上提升了1.9%,WeMath上提升了2.0%,DynaMath上提升了1.3%。更值得注意的是,這種性能提升在各種數(shù)據(jù)規(guī)模下都能一致觀察到,且在最具挑戰(zhàn)性的評估樣本上表現(xiàn)最為顯著,這證實了該方法在應對復雜推理場景方面的有效性。
讓我們深入了解SynthRL的具體工作原理,看看這個創(chuàng)新系統(tǒng)如何為視覺語言模型創(chuàng)造更有價值的訓練體驗。
一、SynthRL:一個可擴展的可驗證數(shù)據(jù)合成管道
SynthRL的核心是一個自動化且有保證的管道,專為推理導向的強化學習訓練自動擴展數(shù)據(jù)而設計。想象你是一位教練,想要訓練一位運動員應對更高難度的比賽。你會先觀察運動員已經(jīng)掌握的簡單動作,然后設計更復雜的訓練,同時確保這些訓練是合理且有效的。SynthRL正是這樣工作的:它首先分析模型已經(jīng)掌握的簡單問題,然后生成更具挑戰(zhàn)性的變體,并嚴格驗證這些變體的有效性和難度。
SynthRL的第一階段是基于難度的種子選擇。研究團隊采用蒙特卡洛隨機推理法來評估問題對于目標模型的難度。具體來說,對于每一個圖像-問題-答案三元組(I, Q, A),系統(tǒng)會讓目標模型πtarget對問題進行多次隨機回答,然后計算正確回答的次數(shù)。如果模型在16次中有12次或更多次正確回答了問題,說明這個問題對模型來說相對簡單,提供的學習信號有限,因此成為了提高復雜度的理想候選。
這就像是測試一個學生對某個知識點的掌握程度。如果學生在多次測試中幾乎總是能正確回答,那說明這個知識點對他來說已經(jīng)很簡單了,是時候給他一些更具挑戰(zhàn)性的問題了。這種方法確保了系統(tǒng)不會浪費資源去復雜化那些模型本就很難解決的問題,而是專注于提升模型已經(jīng)相對熟悉的問題領域的復雜度。
第二階段是數(shù)據(jù)合成器。在這一階段,系統(tǒng)會利用一個強大的視覺語言模型(如Gemini-2.5-Flash-Preview)來生成更具挑戰(zhàn)性的問題變體,同時保持原始答案不變。重要的是,在提示合成模型時,系統(tǒng)只提供圖像和原始問題,故意不提供答案。這迫使模型專注于問題與圖像之間的語義關系,而不是依賴答案來生成表面上的改寫。
這就像是讓一位經(jīng)驗豐富的教師重新設計問題,使其更具挑戰(zhàn)性但答案保持不變。例如,從"求直角三角形的斜邊長度"變成"如果一個直角三角形的兩條直角邊分別是3和4,那么這個三角形的周長是多少?"這兩個問題可能有相同的核心答案(斜邊長度5),但后者需要更多的推理步驟。
第三階段是正確性和難度保證驗證器。這一階段確保合成的問題既保持有效性,又確實增加了難度。對于每個候選問題,系統(tǒng)會應用與第一階段相同的蒙特卡洛隨機推理技術來評估其難度。一個有效的候選問題必須滿足兩個條件:首先,它必須在至少4次隨機推理中被正確回答,證明問題是有效的并保留了原始答案;其次,正確回答的次數(shù)必須比原始問題少至少2次,證明問題確實變得更加困難。
這種驗證方法的關鍵在于:合成器被指示創(chuàng)建答案相同但更難的問題,而驗證器通過讓目標模型嘗試解答來確認這一點。如果目標模型能夠在合理次數(shù)內(nèi)得到原始答案,這證實了問題既有效又保留了預期答案。同時,如果正確回答的次數(shù)明顯減少,這表明問題確實變得更具挑戰(zhàn)性。
最終,這個三階段管道產(chǎn)生了一系列經(jīng)過驗證的更具挑戰(zhàn)性的問題變體,每一個都保留了原始答案,但需要更深入的推理能力。這些問題為強化學習訓練提供了更有價值的學習信號,幫助模型開發(fā)更強大的推理能力。
二、數(shù)據(jù)集分析:合成數(shù)據(jù)的特點與質(zhì)量
研究團隊選擇了MMK12作為種子數(shù)據(jù)集,該數(shù)據(jù)集包含8099個問題-答案對。為了確保驗證過程的可靠性,他們對數(shù)據(jù)集進行了預處理,將多選題轉(zhuǎn)換為開放式答案格式,并移除了是/否問題,最終得到8072個開放式答案的種子數(shù)據(jù)集。此外,他們還創(chuàng)建了2k和4k版本的種子數(shù)據(jù)集,用于分析數(shù)據(jù)規(guī)模效應。
使用Gemini-2.5-Flash-Preview-04-17作為合成模型,研究團隊從種子數(shù)據(jù)中選擇了那些隨機推理通過率高的問題(16次中至少有12次成功預測)進行轉(zhuǎn)換。驗證階段,他們設置了可解性標準閾值Tmin=4,確保問題有效性和答案保留,以及難度標準ΔΤhard=2,確保候選問題明顯比原始版本更具挑戰(zhàn)性。通過這個過程,他們生成了3380個經(jīng)過驗證的更難變體,每一個都保留了原始的正確答案。研究團隊將原始MMK12問題及其合成變體的組合數(shù)據(jù)集稱為A-MMK12,總計11452個樣本。
那么,這些合成的問題有何特點?研究團隊進行了深入分析。首先,從難度分布上看,原始MMK12數(shù)據(jù)集的平均通過率為9.04,而A-MMK12的平均通過率降至8.24,表明整體難度有所增加。更顯著的是,選定的種子樣本通過率高達15.10,而合成的問題通過率僅為6.33,證明合成過程成功地創(chuàng)建了更具挑戰(zhàn)性的變體。
最顯著的差異體現(xiàn)在分布形狀上。種子數(shù)據(jù)集在0和16通過次數(shù)處顯示高度集中,這意味著大多數(shù)問題要么非常容易(總是能解決),要么非常困難(幾乎無法解決)。相比之下,合成的問題在中等難度水平(4到14次通過)上展現(xiàn)出更為平衡的分布。這種更廣泛的分布在訓練過程中提供了更平滑的難度漸進,有助于模型發(fā)展更好的推理能力。
除了難度分布,研究團隊還分析了推理步驟的復雜度。合成的問題平均需要34.90個推理步驟,而原始種子問題平均僅需26.16個,增加了約33%。這表明合成過程創(chuàng)建了需要更復雜推理鏈的問題。具有多步推理的問題更好地鍛煉了模型分解問題和維持連貫推理的能力,這對于健壯的視覺推理能力至關重要。
這些分析結果表明,SynthRL不僅增加了訓練數(shù)據(jù)的數(shù)量,更重要的是,它創(chuàng)建了質(zhì)量更高、更具挑戰(zhàn)性的問題,這些問題能夠更有效地鍛煉模型的推理能力。
三、實驗設置與模型訓練
研究團隊采用了嚴格的實驗設計來評估SynthRL的有效性。他們以Qwen2.5-VL-7B-Instruct為基礎模型,這個模型具有強大的基礎能力,適合后續(xù)的強化學習訓練。值得注意的是,同一個模型同時擔任了目標模型和驗證器模型的角色。
對于強化學習訓練,研究團隊使用了基于verl的EasyR1框架,該框架專為視覺語言模型設計。所有實驗在8個NVIDIA H100 80GB HBM3 GPU上進行,全局批量大小為128,隨機推理批量大小為512,隨機推理溫度為1.0,一致的學習率為1e-6,以及8次隨機推理。
根據(jù)最新研究發(fā)現(xiàn),團隊移除了GRPO算法中與參考模型的KL散度約束,以促進更廣泛的探索。在訓練過程中,模型的所有部分(包括視覺編碼器)都被解鎖,以最大化視覺推理任務的性能。主要實驗比較了兩種配置:(1)僅使用原始種子數(shù)據(jù)集訓練的基線模型,和(2)使用A-MMK12訓練的SynthRL模型。
為了全面評估模型性能,研究團隊采用了多個基準測試來檢驗模型的域外泛化能力。他們選擇了五個專門的視覺推理數(shù)據(jù)集:MathVerse、MathVision、MathVista、WeMath和DynaMath。為了確??缒P偷囊恢略u估,他們開發(fā)了一個標準化的評估套件,能夠評估他們訓練的檢查點和大多數(shù)公開可用的R1相關檢查點。他們使用vLLM進行高效推理加速,并采用Gemini-2.0-Flash-001作為判斷模型來解析生成的輸出。
研究團隊遵循了每個模型提供的系統(tǒng)提示和輸出格式規(guī)則,盡管由于特定的判斷模型和評估設置,可能與已發(fā)布結果存在小差異。他們報告了在5個基準測試上獲得最佳平均性能的檢查點的性能。
四、實驗結果與分析
SynthRL的主要實驗結果令人振奮,證明了這種方法在提升視覺推理能力方面的有效性。在8K數(shù)據(jù)規(guī)模下,使用A-MMK12數(shù)據(jù)集訓練的模型在五個域外視覺推理基準上平均準確率達到58.0%,比僅使用種子MMK12數(shù)據(jù)集訓練的基線模型的57.0%有所提升。在各個單獨的基準測試中,研究團隊觀察到了顯著的改進,MathVerse準確率從51.6%提高到53.5%,WeMath從70.6%提高到72.6%。這些結果表明,合成數(shù)據(jù)確實增強了模型泛化到未見過的問題分布的能力。
數(shù)據(jù)規(guī)模效應分析顯示,A-MMK12和MMK12之間的性能差距在2K規(guī)模下相對適中(56.0%對55.8%),但隨著更多種子數(shù)據(jù)的可用性,差距明顯擴大,在4K規(guī)模下達到+0.7%,在8K規(guī)模下達到+1.0%。這一模式表明,合成方法在有更大、更多樣化的種子池時變得更加有效。此外,雖然兩個數(shù)據(jù)集最初導致相似的學習模式,但使用A-MMK12訓練的模型在所有數(shù)據(jù)規(guī)模下都達到了更高的峰值性能。
這些發(fā)現(xiàn)表明,合成方法與傳統(tǒng)數(shù)據(jù)擴展方法互補,提供了超出簡單增加原始數(shù)據(jù)量所能實現(xiàn)的額外收益。SynthRL針對性地生成具挑戰(zhàn)性的變體,為發(fā)展強大的視覺推理能力創(chuàng)造了更有效的訓練分布。
為了精確測量方法在哪里提供最大價值,研究團隊建立了基于Bradley-Terry模型和Elo評分系統(tǒng)的客觀難度排名。他們?yōu)槊總€樣本收集了多達128個兩兩比較,以建立統(tǒng)計上穩(wěn)健的難度分數(shù),然后將每個基準數(shù)據(jù)集劃分為三個難度層次:簡單、中等和困難。
結果表明,A-MMK12在中等和困難子集上產(chǎn)生了最大的改進。在完整的8K數(shù)據(jù)集上,雖然A-MMK12在簡單樣本上表現(xiàn)略低(-0.5%),但在中等(+1.7%)和困難(+1.6%)樣本上顯示出明顯的收益。這種模式在各個數(shù)據(jù)規(guī)模上都保持一致,A-MMK12在具挑戰(zhàn)性的問題上展示出最強的優(yōu)勢。
這些結果表明,合成方法成功地針對了復雜推理挑戰(zhàn),這些挑戰(zhàn)在僅用種子數(shù)據(jù)訓練時無法充分解決。性能從簡單到困難樣本的轉(zhuǎn)變與研究目標一致,即提高模型在更具挑戰(zhàn)性的推理任務上的能力。
研究團隊還進行了驗證器的消融研究。當使用非目標模型(Gemini-2.0-Flash-001而非Qwen2.5-VL-7B-Instruct)作為驗證器時,平均準確率從57.2%下降到55.7%。這表明有效驗證需要與目標模型的能力保持一致,以正確校準難度。單次驗證(使用目標模型但每個問題只進行一次驗證而非多次蒙特卡洛隨機推理)達到56.5%的平均準確率,而完全無驗證的合成僅達到55.8%。
這些結果確認了與目標模型一致且使用蒙特卡洛隨機推理的驗證對SynthRL的總體性能增益貢獻約1.4%,突顯了驗證在SynthRL有效性中的重要作用。
研究團隊還研究了不同的數(shù)據(jù)集成策略。他們將增強方法A-MMK12與替換策略R-MMK12進行比較,后者用合成樣本替換相應的種子樣本,同時保持相同的數(shù)據(jù)集大小。結果顯示,A-MMK12在五個基準測試上達到最高的平均準確率57.2%,而R-MMK12的表現(xiàn)甚至低于原始基線(56.1%對56.5%)。這表明合成問題在補充而非替換原始分布時提供最大收益,性能差距證實了SynthRL的改進源于數(shù)據(jù)擴展和有針對性的難度增強的結合。
五、SynthRL在視覺推理研究中的地位與意義
將SynthRL與其他視覺語言模型推理方法進行比較,可以更好地理解其在當前研究格局中的位置。視覺語言模型從基礎集成技術(如Alayrac等人的Flamingo)和有效的視覺指令調(diào)優(yōu)(如Liu等人的工作)發(fā)展到專門的數(shù)學推理方法(如Shi等人的Math-LLaVA和Zhang等人的MAVIS)。雖然像GPT-4o和Gemini這樣的先進模型展示了強大的一般視覺理解能力,但在需要復雜分析和推理的視覺推理方面仍存在差距。
強化學習正在成為解決這一問題的新興方法,擴展了增強LLM推理的方法(如Guo等人的DeepSeek-R1和Kimi團隊的工作)。對于視覺語言模型,R1型強化學習應用已在幾何和物體計數(shù)等特定子領域取得成功(如Peng等人和Huang等人的工作)。值得注意的是,最近的研究(如Meng等人的MM-Eureka和Yang等人的工作)已將基于規(guī)則的強化學習應用于視覺語言模型的更廣泛多模態(tài)數(shù)學推理,而無需領域內(nèi)訓練數(shù)據(jù)。
數(shù)據(jù)合成對視覺語言模型至關重要,提供可擴展、多樣化和高質(zhì)量的訓練數(shù)據(jù)來增強性能。最初專注于改善指令跟隨能力和通過多輪對話和反饋機制與人類偏好保持一致,最近的研究越來越多地使用數(shù)據(jù)合成來推進視覺推理。這種較新的重點包括為復雜指令生成復雜數(shù)據(jù)集,或使用逆向思維鏈等技術解決幾何、數(shù)學和導航推理等任務,從而顯著擴展視覺語言模型的推理能力。然而,利用數(shù)據(jù)合成進行視覺語言模型的強化學習訓練仍然是一個很大程度上未被探索的前沿領域。
SynthRL的貢獻在于它填補了這一研究空白,提供了一種自動化且有保證的方法來為視覺語言模型的強化學習生成更具挑戰(zhàn)性的訓練數(shù)據(jù)。通過結合難度評估、定向合成和嚴格驗證,SynthRL創(chuàng)建了既保持答案正確性又顯著增加推理復雜性的高質(zhì)量訓練樣本。實驗結果證明了這種方法在提升模型推理能力方面的有效性,尤其是在最具挑戰(zhàn)性的問題上。
六、總結與展望
SynthRL提供了一種自動化管道,通過合成更具挑戰(zhàn)性的訓練數(shù)據(jù)來提升視覺語言模型的推理能力。通過三階段過程——基于難度選擇種子問題,生成保留答案的更難變體,以及驗證正確性和難度增加——SynthRL能夠創(chuàng)建高質(zhì)量的訓練樣本,無需人工干預。
應用于MMK12數(shù)據(jù)集,這種方法從8072個種子樣本生成了超過3380個可驗證、更具挑戰(zhàn)性的問題。使用這些數(shù)據(jù)訓練的模型在五個域外視覺數(shù)學推理基準上取得了顯著性能提升,尤其是在最具挑戰(zhàn)性的樣本上表現(xiàn)最為突出。
這項研究的意義在于它證明了針對性地增強訓練數(shù)據(jù)的復雜性可以有效提升模型的推理能力,尤其是在處理復雜推理任務方面。SynthRL提供了一種可擴展、數(shù)據(jù)中心的方法來增強視覺語言模型的推理能力,無需大量人工標注或領域?qū)<抑R。
展望未來,SynthRL的方法可以應用于更多類型的推理任務和模型架構。研究團隊的工作為如何通過智能數(shù)據(jù)合成來提升人工智能系統(tǒng)的高級推理能力開辟了新的路徑,這對于發(fā)展真正能夠理解和推理復雜視覺場景的AI系統(tǒng)具有重要意義。
總的來說,SynthRL代表了一種新的思路:不僅要訓練更強大的模型,還要創(chuàng)建更有價值的訓練數(shù)據(jù)。通過自動識別和提升訓練數(shù)據(jù)中的挑戰(zhàn)性,這種方法可以幫助模型發(fā)展更深層次的推理能力,這對于視覺AI向真正的理解力邁進至關重要。
好文章,需要你的鼓勵
這項研究提出了"高效探測"方法,解決了掩碼圖像建模AI難以有效評估的問題。通過創(chuàng)新的多查詢交叉注意力機制,該方法在減少90%參數(shù)的同時實現(xiàn)10倍速度提升,在七個基準測試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強相關性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應性。團隊承諾開源全部代碼,推動技術普及應用。
伊利諾伊大學研究團隊開發(fā)了CLAIMSPECT系統(tǒng),通過層次化分解復雜爭議、智能檢索相關文獻、多角度收集觀點的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動構建爭議話題的分析框架,識別不同觀點及其支撐證據(jù),為科學和政治爭議提供更全面客觀的分析,已在生物醫(yī)學和國際關系領域驗證有效性。
清華大學研究團隊首次提出情感認知融合網(wǎng)絡(ECFN),讓AI能像人類一樣理解和表達情感。該系統(tǒng)通過多層次情感處理架構,在情感識別準確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實現(xiàn)了跨模態(tài)情感融合、動態(tài)情感追蹤和個性化情感建模,為醫(yī)療、教育、客服等領域帶來革命性應用前景。
哈佛大學研究團隊通過創(chuàng)新的多智能體強化學習方法,讓AI在戰(zhàn)略游戲中學會復雜推理。研究發(fā)現(xiàn)AI通過游戲競爭能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項突破性成果為未來AI在醫(yī)療、教育、城市管理等領域的應用奠定基礎,展現(xiàn)了通過模擬人類學習過程培養(yǎng)真正智能AI的新路徑。