在人工智能快速發(fā)展的2025年,當(dāng)我們正站在通用人工智能(AGI)發(fā)展的關(guān)鍵節(jié)點(diǎn)上,由清華大學(xué)深圳國(guó)際研究生院的孫浩源、吳佳琪、夏博等研究團(tuán)隊(duì)發(fā)表的一篇名為《強(qiáng)化微調(diào)賦能多模態(tài)大語(yǔ)言模型的推理能力》(Reinforcement Fine-Tuning Powers Reasoning Capability of Multimodal Large Language Models)的前沿研究,為我們揭示了人工智能如何更好地"思考"提供了重要洞見(jiàn)。這項(xiàng)研究已于2025年5月24日發(fā)布在預(yù)印本平臺(tái)arXiv上,感興趣的讀者可以通過(guò)項(xiàng)目鏈接https://github.com/Sun-Haoyuan23/Awesome-RL-based-Reasoning-MLLMs獲取更多信息。
讓我們先來(lái)理解這個(gè)研究的背景。想象一下,你有一個(gè)聰明的朋友,他不僅能看懂文字,還能理解圖片、視頻和聲音,甚至能通過(guò)這些信息進(jìn)行復(fù)雜的推理。這就是多模態(tài)大語(yǔ)言模型(MLLMs)想要實(shí)現(xiàn)的目標(biāo)。而研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)一種叫做"強(qiáng)化微調(diào)"(Reinforcement Fine-Tuning,簡(jiǎn)稱(chēng)RFT)的方法,可以顯著提升這些AI模型的"思考"能力。就像教孩子學(xué)習(xí)一樣,不僅告訴他們正確答案,還要引導(dǎo)他們學(xué)會(huì)如何思考得到這個(gè)答案。
一、強(qiáng)化學(xué)習(xí):AI如何從試錯(cuò)中學(xué)習(xí)
首先,我們需要了解強(qiáng)化學(xué)習(xí)的基本概念。想象一個(gè)小孩子學(xué)騎自行車(chē)的過(guò)程:他可能會(huì)多次摔倒(嘗試錯(cuò)誤的動(dòng)作),但每次成功保持平衡一小段時(shí)間(獲得正向反饋),他就會(huì)逐漸學(xué)會(huì)哪些動(dòng)作是有效的。這正是強(qiáng)化學(xué)習(xí)的核心理念——通過(guò)不斷嘗試和接收反饋來(lái)學(xué)習(xí)最佳行動(dòng)策略。
在過(guò)去四十年里,從最基礎(chǔ)的算法到如今的深度神經(jīng)網(wǎng)絡(luò),從基于價(jià)值的方法到基于策略的方法,強(qiáng)化學(xué)習(xí)領(lǐng)域不斷發(fā)展。到了2025年,近端策略?xún)?yōu)化(PPO)算法已成為社區(qū)中最有影響力的強(qiáng)化學(xué)習(xí)算法之一。
強(qiáng)化學(xué)習(xí)主要分為兩大類(lèi)方法:基于價(jià)值的方法和基于策略的方法?;趦r(jià)值的方法(如Q-Learning)主要關(guān)注學(xué)習(xí)一個(gè)價(jià)值函數(shù),然后從中導(dǎo)出策略。而基于策略的方法(如REINFORCE)則直接學(xué)習(xí)一個(gè)能最大化預(yù)期獎(jiǎng)勵(lì)的目標(biāo)策略。
近端策略?xún)?yōu)化(PPO)算法屬于基于策略的方法,它通過(guò)一種"信任區(qū)域"約束來(lái)確保策略更新時(shí)不會(huì)偏離太多,從而實(shí)現(xiàn)穩(wěn)定的學(xué)習(xí)過(guò)程。想象你在教一個(gè)孩子新技能,你不會(huì)一次教太多內(nèi)容讓他完全改變學(xué)習(xí)方式,而是在他已掌握的基礎(chǔ)上逐步改進(jìn)——這正是PPO的工作原理。
二、多模態(tài)推理:從語(yǔ)言為中心到協(xié)作推理
接下來(lái),讓我們了解多模態(tài)推理的發(fā)展趨勢(shì)。想象你去看一部外語(yǔ)電影,如果只看畫(huà)面不聽(tīng)對(duì)白,或只聽(tīng)對(duì)白不看畫(huà)面,你對(duì)劇情的理解都會(huì)受限。多模態(tài)大語(yǔ)言模型就像是能同時(shí)理解畫(huà)面和對(duì)白,并將它們?nèi)诤掀饋?lái)進(jìn)行思考的觀眾。
多模態(tài)推理主要有兩種范式:語(yǔ)言為中心的多模態(tài)推理和協(xié)作式多模態(tài)推理。
在語(yǔ)言為中心的范式中,模型將圖像、音頻等非語(yǔ)言?xún)?nèi)容視為獲取信息的來(lái)源,而實(shí)際的推理過(guò)程主要由語(yǔ)言模塊驅(qū)動(dòng)。這就像你看到一張照片,用語(yǔ)言在腦中描述并分析這張照片的內(nèi)容。根據(jù)多模態(tài)感知的觸發(fā)機(jī)制,這種范式又分為一次性多模態(tài)感知和主動(dòng)多模態(tài)感知。一次性多模態(tài)感知就像是你只看一眼照片,然后基于記憶進(jìn)行思考;而主動(dòng)多模態(tài)感知?jiǎng)t像是你在思考過(guò)程中會(huì)不斷回看照片的細(xì)節(jié)。
而在更先進(jìn)的協(xié)作式多模態(tài)推理范式中,推理過(guò)程需要多模態(tài)動(dòng)作推理和多模態(tài)狀態(tài)更新,各種模態(tài)不再只是被動(dòng)感知,而是與語(yǔ)言模態(tài)全程協(xié)作進(jìn)行推理。這就像你不僅能看懂電影畫(huà)面和對(duì)白,還能理解畫(huà)面構(gòu)圖、色彩、演員表情等視覺(jué)元素傳遞的情感和隱含信息,讓它們共同參與到你的思考過(guò)程中。
三、強(qiáng)化微調(diào):賦能模型的"思考"能力
強(qiáng)化微調(diào)(RFT)是一種后訓(xùn)練算法,旨在提升大語(yǔ)言模型和多模態(tài)大語(yǔ)言模型的推理能力。研究表明,即使沒(méi)有單獨(dú)學(xué)習(xí)的獎(jiǎng)勵(lì)模型,簡(jiǎn)單的基于規(guī)則的獎(jiǎng)勵(lì)也能幫助模型自主發(fā)展復(fù)雜的推理能力。
強(qiáng)化微調(diào)算法可以分為兩大類(lèi):基于評(píng)價(jià)模型的算法和無(wú)評(píng)價(jià)模型的算法。
基于評(píng)價(jià)模型的算法,如PPO,在訓(xùn)練過(guò)程中同時(shí)訓(xùn)練一個(gè)"評(píng)價(jià)模型"來(lái)估計(jì)每個(gè)動(dòng)作的價(jià)值,就像有一位教練不斷評(píng)估學(xué)習(xí)者的表現(xiàn)并給出反饋。在多模態(tài)大語(yǔ)言模型的背景下,PPO的目標(biāo)函數(shù)被修改為適應(yīng)多模態(tài)輸入和多步驟輸出的特點(diǎn)。
而無(wú)評(píng)價(jià)模型的算法,如群體相對(duì)策略?xún)?yōu)化(GRPO),則通過(guò)在一組輸出中采樣和標(biāo)準(zhǔn)化獎(jiǎng)勵(lì)來(lái)提高效率,并減少內(nèi)存消耗。這就像在一個(gè)學(xué)習(xí)小組中,通過(guò)比較組內(nèi)成員的表現(xiàn)來(lái)評(píng)價(jià)每個(gè)人,而不需要一個(gè)單獨(dú)的評(píng)判標(biāo)準(zhǔn)。GRPO還應(yīng)用了KL散度懲罰來(lái)限制優(yōu)化后的模型與初始模型的過(guò)度偏離,確保學(xué)習(xí)過(guò)程的穩(wěn)定性。
四、社區(qū)成果:RFT在多模態(tài)大語(yǔ)言模型中的廣泛應(yīng)用
自從DeepSeek-R1的出現(xiàn),強(qiáng)化微調(diào)在增強(qiáng)多模態(tài)大語(yǔ)言模型推理能力方面取得了顯著成功。研究團(tuán)隊(duì)將這些成功總結(jié)為五個(gè)關(guān)鍵點(diǎn):
首先是多樣化的模態(tài)應(yīng)用。強(qiáng)化微調(diào)已經(jīng)成功應(yīng)用于增強(qiáng)視覺(jué)、音頻、全模態(tài)、圖形用戶(hù)界面、元宇宙交互和代理等多種模態(tài)的大語(yǔ)言模型的推理能力。特別值得一提的是,除了在視覺(jué)模態(tài)取得實(shí)質(zhì)性進(jìn)展外,社區(qū)還在其他模態(tài)取得了重大突破。例如,Audio-Reasoner、R1-AQA和SARI利用強(qiáng)化微調(diào)增強(qiáng)了大型音頻語(yǔ)言模型在音頻問(wèn)答任務(wù)中的推理能力;R1-Omni和EchoInk-R1成功將強(qiáng)化微調(diào)應(yīng)用于全模態(tài)大語(yǔ)言模型;UI-R1、GUI-R1和InfiGUI-R1則將強(qiáng)化微調(diào)應(yīng)用于圖形用戶(hù)界面代理的行動(dòng)預(yù)測(cè)任務(wù);MetaSpatial在元宇宙場(chǎng)景中應(yīng)用強(qiáng)化微調(diào)增強(qiáng)3D空間推理;VAGEN通過(guò)多輪強(qiáng)化微調(diào)框架提升了基于視覺(jué)語(yǔ)言模型的視覺(jué)代理訓(xùn)練。
其次是多樣化的任務(wù)和領(lǐng)域。僅在視覺(jué)模態(tài)內(nèi),強(qiáng)化微調(diào)就在各種任務(wù)和領(lǐng)域取得了顯著成功。數(shù)學(xué)視覺(jué)推理和學(xué)術(shù)多學(xué)科推理是社區(qū)高度關(guān)注的任務(wù),這些任務(wù)需要精確整合符號(hào)處理、視覺(jué)分析和邏輯推理。社區(qū)已經(jīng)在這一領(lǐng)域開(kāi)展了許多開(kāi)創(chuàng)性工作,如InternVL2-MPO、Mulberry、Virgo等。同時(shí),視覺(jué)驅(qū)動(dòng)任務(wù)也吸引了社區(qū)的廣泛關(guān)注,如VLM-R1將強(qiáng)化微調(diào)應(yīng)用于視覺(jué)理解任務(wù),CrowdVLM-R1將其應(yīng)用于人群計(jì)數(shù)任務(wù),VisualThinker-R1-Zero將其用于視覺(jué)中心的空間推理任務(wù)等。此外,還有大量工作專(zhuān)注于多任務(wù)和多領(lǐng)域聯(lián)合訓(xùn)練,以同時(shí)提升模型在多個(gè)任務(wù)和領(lǐng)域的性能,如Insight-V、Visual-RFT、Reason-RFT等。在時(shí)序視覺(jué)(視頻)領(lǐng)域,強(qiáng)化微調(diào)也成功增強(qiáng)了視頻推理能力,如Open-R1-Video、TimeZero、Temporal-R1等。在特定領(lǐng)域?qū)W科中,強(qiáng)化微調(diào)也成功增強(qiáng)了領(lǐng)域特定多模態(tài)大語(yǔ)言模型的推理能力,如醫(yī)療視覺(jué)中的MedVLM-R1、Med-R1和ChestX-Reasoner,以及具身視覺(jué)中的Embodied-Reasoner和Embodied-R。
第三是更好的訓(xùn)練算法。除了探索GRPO在各種模態(tài)、任務(wù)和領(lǐng)域的應(yīng)用外,社區(qū)還深入研究了更好的算法。這些探索主要集中在訓(xùn)練范式、算法策略和數(shù)據(jù)選擇上。例如,Curr-ReFT提出了一種新的后訓(xùn)練范式,包括課程強(qiáng)化學(xué)習(xí)和基于拒絕采樣的自我改進(jìn);MM-EUREKA引入了在線過(guò)濾范式,消除了在訓(xùn)練過(guò)程中產(chǎn)生被認(rèn)為完全正確或完全錯(cuò)誤的響應(yīng)的提示;OpenVLThinker迭代使用SFT和GRPO,利用前幾輪迭代的推理數(shù)據(jù)實(shí)現(xiàn)自我改進(jìn);VL-Rethinker引入了選擇性樣本重放(SSR)來(lái)緩解GRPO中的優(yōu)勢(shì)消失問(wèn)題,并引入了強(qiáng)制重新思考來(lái)顯式執(zhí)行自反思推理步驟;NoisyRollout集成了來(lái)自干凈圖像和適度失真圖像的軌跡,以促進(jìn)視覺(jué)感知和由此產(chǎn)生的推理模式的有針對(duì)性的多樣性;OThink-MR1引入了GRPO-D,通過(guò)融入受經(jīng)典強(qiáng)化學(xué)習(xí)中ε-貪婪策略啟發(fā)的動(dòng)態(tài)KL散度策略來(lái)增強(qiáng)GRPO;R1-VL引入了StepGRPO,該算法同時(shí)融入了步驟推理準(zhǔn)確性獎(jiǎng)勵(lì)和步驟推理有效性獎(jiǎng)勵(lì),從而有效緩解了稀疏獎(jiǎng)勵(lì)挑戰(zhàn);FAST引入了FAST-GRPO,集成了三個(gè)關(guān)鍵組件:基于模型的問(wèn)題特征化指標(biāo)、自適應(yīng)思考獎(jiǎng)勵(lì)機(jī)制和難度感知KL正則化;ThinkLite-VL引入了基于蒙特卡洛樹(shù)搜索的數(shù)據(jù)過(guò)濾方法,根據(jù)模型解決每個(gè)問(wèn)題所需的迭代次數(shù)量化樣本難度。
第四是豐富的基準(zhǔn)測(cè)試。豐富的基準(zhǔn)測(cè)試在通往未來(lái)通用人工智能的道路上至關(guān)重要。在多模態(tài)大語(yǔ)言模型推理領(lǐng)域,特別是在視覺(jué)推理方面,社區(qū)內(nèi)已經(jīng)有一些公認(rèn)的基準(zhǔn)測(cè)試。在最近的調(diào)查中,這些基準(zhǔn)測(cè)試已經(jīng)被廣泛總結(jié),這里不再詳細(xì)討論。此外,分析發(fā)現(xiàn),繼DeepSeek-R1出現(xiàn)后,多模態(tài)推理基準(zhǔn)測(cè)試呈現(xiàn)出以下六個(gè)令人興奮的趨勢(shì):基準(zhǔn)測(cè)試難度的增加(如在ZeroBench上,所有當(dāng)代前沿多模態(tài)大語(yǔ)言模型都完全失?。?;評(píng)估類(lèi)人推理能力的基準(zhǔn)測(cè)試(如V1-33K通過(guò)實(shí)施輔助任務(wù)評(píng)估多模態(tài)大語(yǔ)言模型的推理能力);針對(duì)經(jīng)典領(lǐng)域的更全面的基準(zhǔn)測(cè)試(如MDK12-Bench擴(kuò)展了多學(xué)科領(lǐng)域的數(shù)據(jù)規(guī)模和領(lǐng)域覆蓋范圍);面向更現(xiàn)實(shí)應(yīng)用場(chǎng)景的基準(zhǔn)測(cè)試(如Video-MMLU評(píng)估多模態(tài)大語(yǔ)言模型在多學(xué)科講座任務(wù)上的表現(xiàn));從以語(yǔ)言為中心的基準(zhǔn)測(cè)試向以多模態(tài)為中心(特別是以視覺(jué)為中心)的轉(zhuǎn)變(如VisuLogic代表了一個(gè)強(qiáng)大的視覺(jué)推理基準(zhǔn)測(cè)試,在語(yǔ)言中表達(dá)固有的顯著難度);以及引入交互元素的基準(zhǔn)測(cè)試(如iVISPAR引入了一個(gè)新穎的交互式基準(zhǔn)測(cè)試,旨在評(píng)估作為代理的視覺(jué)語(yǔ)言模型的空間推理能力)。
第五是繁榮的工程框架。在社區(qū)中,工程訓(xùn)練框架的增強(qiáng)對(duì)降低研究障礙和提高開(kāi)發(fā)效率至關(guān)重要。自DeepSeek-R1出現(xiàn)以來(lái),幾個(gè)框架顯著推動(dòng)了社區(qū)的發(fā)展。Open-R1-Multimodal是這一領(lǐng)域的先驅(qū)努力,它建立在Open-R1和TRL之上,通過(guò)GRPO算法有效實(shí)現(xiàn)多模態(tài)模型訓(xùn)練。R1-V更進(jìn)一步,支持Qwen2.5-VL模型、GEOQA任務(wù)和用于訓(xùn)練加速的vLLM。EasyR1是原始veRL項(xiàng)目的一個(gè)干凈分支,它具有廣泛支持模型、算法和數(shù)據(jù)集的特點(diǎn),同時(shí)支持無(wú)填充訓(xùn)練、檢查點(diǎn)恢復(fù)和工具集成。MAYA提供了一個(gè)透明且可重現(xiàn)的框架,以及一個(gè)用于將強(qiáng)化學(xué)習(xí)應(yīng)用于多模態(tài)大語(yǔ)言模型的綜合評(píng)估方案;此外,它還作為一個(gè)輕量級(jí)和教育性框架,闡明了強(qiáng)化學(xué)習(xí)訓(xùn)練的核心邏輯。
五、未來(lái)方向:社區(qū)下一步可以做什么
盡管在強(qiáng)化微調(diào)賦能多模態(tài)大語(yǔ)言模型的推理能力方面已經(jīng)取得了顯著成功,研究團(tuán)隊(duì)認(rèn)為以下五個(gè)方向仍然值得社區(qū)進(jìn)一步研究:
首先,實(shí)現(xiàn)跨模態(tài)、任務(wù)和領(lǐng)域的更好泛化。雖然已經(jīng)有相當(dāng)多的研究專(zhuān)注于跨任務(wù)推理,但現(xiàn)有工作仍然局限于特定領(lǐng)域和模態(tài),而且這些任務(wù)的范圍有限,通常只包含兩三個(gè)任務(wù)。然而,在追求通用人工智能的過(guò)程中,我們一直希望開(kāi)發(fā)一個(gè)能夠適應(yīng)各種模態(tài)、任務(wù)和領(lǐng)域的單一模型。因此,研究可泛化推理具有重要價(jià)值。X-Reasoner是這一領(lǐng)域的先驅(qū),證明了基于通用領(lǐng)域文本的后訓(xùn)練可以實(shí)現(xiàn)可泛化推理,并且在專(zhuān)門(mén)領(lǐng)域的性能可以通過(guò)訓(xùn)練特定領(lǐng)域(如醫(yī)學(xué)特定)的純文本數(shù)據(jù)進(jìn)一步增強(qiáng)。此外,在這一領(lǐng)域還有更多值得探索的點(diǎn):首先,除了文本和視覺(jué)之外的其他模態(tài)尚未得到解決;因此,未來(lái)工作可以進(jìn)一步探索更復(fù)雜模態(tài)的可泛化推理能力。其次,從感知視覺(jué)任務(wù)(圖像)到時(shí)序視覺(jué)任務(wù)(視頻)等更廣泛任務(wù)的推理能力泛化,值得在社區(qū)內(nèi)進(jìn)一步探索。最后,跨更廣泛領(lǐng)域的推理能力泛化,如從通用領(lǐng)域到具身特定設(shè)置,仍然是一個(gè)未被充分探索的領(lǐng)域,需要進(jìn)一步系統(tǒng)研究。
其次,結(jié)合結(jié)果獎(jiǎng)勵(lì)范式和過(guò)程獎(jiǎng)勵(lì)范式。結(jié)果獎(jiǎng)勵(lì)范式提供了高效率和易于實(shí)現(xiàn)的特點(diǎn),但其獎(jiǎng)勵(lì)的稀疏性在推理過(guò)程中沒(méi)有中間反饋。對(duì)于過(guò)程獎(jiǎng)勵(lì)范式,雖然為中間推理步驟提供了密集獎(jiǎng)勵(lì),但過(guò)程獎(jiǎng)勵(lì)模型(PRM)的訓(xùn)練仍然相對(duì)具有挑戰(zhàn)性和不穩(wěn)定性。因此,社區(qū)可以考慮將結(jié)果獎(jiǎng)勵(lì)范式與過(guò)程獎(jiǎng)勵(lì)范式相結(jié)合。一方面,PRM訓(xùn)練可以通過(guò)結(jié)果獎(jiǎng)勵(lì)范式來(lái)增強(qiáng)。關(guān)于多模態(tài)獎(jiǎng)勵(lì)模型訓(xùn)練,R1-Reward、UnifiedReward-Think和Skywork-VL Reward已經(jīng)進(jìn)行了開(kāi)創(chuàng)性研究,證明強(qiáng)化微調(diào)可以導(dǎo)致更穩(wěn)定的訓(xùn)練動(dòng)態(tài)和增強(qiáng)的性能;因此,未來(lái)研究可以研究結(jié)果獎(jiǎng)勵(lì)范式的整合來(lái)增強(qiáng)PRM訓(xùn)練。另一方面,在結(jié)果獎(jiǎng)勵(lì)范式中提供有效和密集獎(jiǎng)勵(lì)的進(jìn)一步探索是有必要的。StepGRPO代表了這一領(lǐng)域的開(kāi)創(chuàng)性方法,特別是通過(guò)融入密集的步驟獎(jiǎng)勵(lì);然而,它僅限于視覺(jué)數(shù)學(xué)推理任務(wù),這種方法在其他任務(wù)、領(lǐng)域和模態(tài)中的適用性需要進(jìn)一步研究。
第三,更加關(guān)注推理多模態(tài)大語(yǔ)言模型的安全性。保護(hù)多模態(tài)大語(yǔ)言模型免受安全漏洞和對(duì)抗性威脅是一個(gè)已被社區(qū)廣泛探索的關(guān)鍵研究領(lǐng)域。最近有跡象表明,推理大語(yǔ)言模型由于其訓(xùn)練算法、在推理過(guò)程中對(duì)對(duì)抗性攻擊的暴露以及其部署環(huán)境中固有的漏洞而面臨新的安全挑戰(zhàn)。然而,專(zhuān)門(mén)針對(duì)推理多模態(tài)大語(yǔ)言模型的安全研究仍然明顯有限,這是一個(gè)需要社區(qū)增加關(guān)注的關(guān)鍵領(lǐng)域。未來(lái)研究可以進(jìn)一步專(zhuān)注于為推理多模態(tài)大語(yǔ)言模型開(kāi)發(fā)先進(jìn)的檢測(cè)和防御機(jī)制。這一點(diǎn)通??梢苑譃槿齻€(gè)組成部分:首先,獎(jiǎng)勵(lì)黑客,一個(gè)社區(qū)內(nèi)持續(xù)存在的挑戰(zhàn),值得進(jìn)一步關(guān)注和努力;其次,對(duì)推理多模態(tài)大語(yǔ)言模型的越獄攻擊和防御的探索值得社區(qū)更多關(guān)注;最后,過(guò)度思考的問(wèn)題,如No-Thinking-RL和FAST等開(kāi)創(chuàng)性工作所強(qiáng)調(diào)的,也是社區(qū)內(nèi)一個(gè)關(guān)鍵挑戰(zhàn),可以在更多樣化的模態(tài)、任務(wù)和領(lǐng)域中進(jìn)行進(jìn)一步研究。
第四,為多模態(tài)探索更多數(shù)據(jù)增強(qiáng)嘗試。數(shù)據(jù)增強(qiáng)已被證明是多模態(tài)大語(yǔ)言模型訓(xùn)練的有效技術(shù),可以潛在地增強(qiáng)模型的性能和魯棒性。在強(qiáng)化微調(diào)設(shè)置中,數(shù)據(jù)通常很稀缺;因此,內(nèi)部數(shù)據(jù)增強(qiáng)可能會(huì)增強(qiáng)模型的感知能力。NoisyRollout在這一領(lǐng)域開(kāi)創(chuàng)先河,證明在訓(xùn)練期間加入高斯噪聲可以增強(qiáng)視覺(jué)數(shù)學(xué)任務(wù)的推理性能。因此,在以下幾點(diǎn)上進(jìn)行進(jìn)一步探索可能是有價(jià)值的:首先,為更廣泛的視覺(jué)任務(wù)(如視覺(jué)計(jì)數(shù)任務(wù))探索適當(dāng)?shù)臄?shù)據(jù)增強(qiáng)方法;其次,為所有這些任務(wù)進(jìn)一步探索更適當(dāng)和多樣化的數(shù)據(jù)增強(qiáng)方法(如RandomResizedCrop、RandomCrop、CenterCrop、RandFlip、RandomAffine、RandomInvert等);最后,將數(shù)據(jù)增強(qiáng)方法應(yīng)用于其他模態(tài)并評(píng)估其在這些上下文中的有效性,值得進(jìn)一步研究。
第五,探索更好的算法、獎(jiǎng)勵(lì)范式及其他應(yīng)用。如前所述,社區(qū)在開(kāi)發(fā)改進(jìn)的訓(xùn)練算法方面取得了實(shí)質(zhì)性進(jìn)展。此外,這應(yīng)該繼續(xù)是社區(qū)努力的關(guān)鍵領(lǐng)域之一。關(guān)于獎(jiǎng)勵(lì)范式,當(dāng)前算法通常采用基于規(guī)則的獎(jiǎng)勵(lì)。在未來(lái)研究中,進(jìn)一步探索設(shè)計(jì)任務(wù)特定獎(jiǎng)勵(lì)函數(shù)的自動(dòng)框架是有價(jià)值的。最后,探索強(qiáng)化微調(diào)的推理多模態(tài)大語(yǔ)言模型在各種學(xué)術(shù)學(xué)科(如建筑、航空航天、電氣工程等)中的實(shí)施是一個(gè)有前途的領(lǐng)域,需要來(lái)自各種學(xué)科社區(qū)的協(xié)作努力。
通過(guò)這些深入研究和未來(lái)展望,清華深圳國(guó)際研究生院的研究團(tuán)隊(duì)為我們描繪了一幅多模態(tài)人工智能發(fā)展的清晰圖景。強(qiáng)化微調(diào)作為一種有效的訓(xùn)練方法,正在賦能多模態(tài)大語(yǔ)言模型獲得更強(qiáng)的推理能力,讓它們不僅能"看"、能"聽(tīng)",還能像人類(lèi)一樣進(jìn)行深度思考和推理,為通用人工智能的實(shí)現(xiàn)邁出了重要一步。
好文章,需要你的鼓勵(lì)
這項(xiàng)研究提出了"高效探測(cè)"方法,解決了掩碼圖像建模AI難以有效評(píng)估的問(wèn)題。通過(guò)創(chuàng)新的多查詢(xún)交叉注意力機(jī)制,該方法在減少90%參數(shù)的同時(shí)實(shí)現(xiàn)10倍速度提升,在七個(gè)基準(zhǔn)測(cè)試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類(lèi)性能的強(qiáng)相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊(duì)承諾開(kāi)源全部代碼,推動(dòng)技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了CLAIMSPECT系統(tǒng),通過(guò)層次化分解復(fù)雜爭(zhēng)議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點(diǎn)的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動(dòng)構(gòu)建爭(zhēng)議話題的分析框架,識(shí)別不同觀點(diǎn)及其支撐證據(jù),為科學(xué)和政治爭(zhēng)議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國(guó)際關(guān)系領(lǐng)域驗(yàn)證有效性。
清華大學(xué)研究團(tuán)隊(duì)首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類(lèi)一樣理解和表達(dá)情感。該系統(tǒng)通過(guò)多層次情感處理架構(gòu),在情感識(shí)別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實(shí)現(xiàn)了跨模態(tài)情感融合、動(dòng)態(tài)情感追蹤和個(gè)性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來(lái)革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊(duì)通過(guò)創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會(huì)復(fù)雜推理。研究發(fā)現(xiàn)AI通過(guò)游戲競(jìng)爭(zhēng)能發(fā)展出類(lèi)人思維能力,在邏輯推理、創(chuàng)造性解決問(wèn)題等方面表現(xiàn)顯著提升。這項(xiàng)突破性成果為未來(lái)AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過(guò)模擬人類(lèi)學(xué)習(xí)過(guò)程培養(yǎng)真正智能AI的新路徑。