**一項(xiàng)由人民大學(xué)高瓴人工智能學(xué)院團(tuán)隊(duì)領(lǐng)導(dǎo)的突破性研究**
你有沒(méi)有好奇過(guò),為什么人工智能在識(shí)別圖片、生成文本方面已經(jīng)如此強(qiáng)大,但在理解空間關(guān)系和物體變化方面卻顯得笨拙?這就像一個(gè)能流利背誦詩(shī)歌的孩子,卻無(wú)法理解積木是如何從一種形狀變成另一種的。這種AI與人類智能之間的差距,正是人民大學(xué)宗昭李、馬宗陽(yáng)等研究者們關(guān)注的焦點(diǎn)。他們最新的研究成果《STAR-R1: Spatial TrAnsformation Reasoning by Reinforcing Multimodal LLMs》發(fā)表于arXiv(預(yù)印本編號(hào):2505.15804v2),為解決這一問(wèn)題提供了創(chuàng)新方案。
空間變化推理能力是人類智能的基本元素之一。想象一下,當(dāng)你看到一個(gè)玩具積木從紅色變成藍(lán)色,或者從方形變成圓形,你能輕松識(shí)別這種變化。但對(duì)于當(dāng)今最先進(jìn)的多模態(tài)大語(yǔ)言模型(MLLMs)來(lái)說(shuō),這卻是一項(xiàng)巨大挑戰(zhàn),尤其是當(dāng)視角發(fā)生變化時(shí),比如你從不同角度觀察這些物體時(shí)。這種名為"變換驅(qū)動(dòng)的視覺(jué)推理"(TVR)的任務(wù),需要AI像偵探一樣,仔細(xì)分析兩張圖片,找出哪些物體發(fā)生了什么變化。
令人驚訝的是,即使是當(dāng)前頂尖的商業(yè)AI模型如GPT-4o在這項(xiàng)任務(wù)上的準(zhǔn)確率也僅有23.5%,遠(yuǎn)遠(yuǎn)不及人類。為什么會(huì)這樣呢?研究團(tuán)隊(duì)發(fā)現(xiàn),傳統(tǒng)的監(jiān)督微調(diào)(SFT)方法雖然能夠提高模型性能,但它們只是讓AI模仿人類的答案,而沒(méi)有真正教會(huì)它如何像偵探一樣思考和推理。而現(xiàn)有的強(qiáng)化學(xué)習(xí)方法則往往因?yàn)楠?jiǎng)勵(lì)機(jī)制過(guò)于簡(jiǎn)單(只有對(duì)錯(cuò)兩種結(jié)果),導(dǎo)致AI難以找到正確的探索方向。
面對(duì)這些挑戰(zhàn),人民大學(xué)和中科院自動(dòng)化所的研究團(tuán)隊(duì)提出了一種名為STAR-R1的全新方法。這個(gè)方法就像是為AI設(shè)計(jì)了一個(gè)更加細(xì)致的學(xué)習(xí)計(jì)劃,通過(guò)精心設(shè)計(jì)的獎(jiǎng)勵(lì)機(jī)制引導(dǎo)AI一步步掌握空間推理能力。與其簡(jiǎn)單地告訴AI"你全對(duì)了"或"你全錯(cuò)了",STAR-R1會(huì)根據(jù)AI回答的部分正確程度給予相應(yīng)的獎(jiǎng)勵(lì),同時(shí)懲罰它過(guò)度列舉答案或消極不作為的行為。
這種方法就像是教孩子學(xué)習(xí)一樣,不僅鼓勵(lì)他們嘗試回答問(wèn)題,還會(huì)針對(duì)部分正確的回答給予適當(dāng)?shù)目隙ǎ龑?dǎo)他們逐步接近完全正確的答案。研究結(jié)果表明,這種方法在所有11個(gè)評(píng)估指標(biāo)上都取得了最佳表現(xiàn),特別是在跨視角場(chǎng)景下,比傳統(tǒng)SFT方法提高了23%的準(zhǔn)確率。
更令人驚訝的是,研究團(tuán)隊(duì)發(fā)現(xiàn),經(jīng)過(guò)STAR-R1訓(xùn)練的AI表現(xiàn)出了人類般的行為模式。面對(duì)簡(jiǎn)單場(chǎng)景時(shí),它會(huì)快速做出判斷;而面對(duì)復(fù)雜場(chǎng)景(如視角變化)時(shí),它會(huì)像人類一樣更加仔細(xì)地比較所有物體,確保準(zhǔn)確匹配。這種行為完全是AI自主學(xué)習(xí)得來(lái)的,而非人為編程的結(jié)果。
這項(xiàng)研究不僅提供了提升AI空間推理能力的有效方法,還為我們理解AI如何通過(guò)強(qiáng)化學(xué)習(xí)逐步接近人類認(rèn)知能力提供了寶貴洞察。接下來(lái),讓我們一起深入了解STAR-R1是如何工作的,以及它為什么能取得如此顯著的進(jìn)步。
**二、任務(wù)與挑戰(zhàn):物體變換推理的艱難問(wèn)題**
想象你正在玩一個(gè)"找不同"的游戲。游戲給你兩張照片,上面有各種各樣的物體——方塊、球體、圓柱體,它們有著不同的顏色、大小和材質(zhì)。你的任務(wù)是找出哪些物體發(fā)生了變化,以及變化的具體內(nèi)容。聽(tīng)起來(lái)簡(jiǎn)單,對(duì)吧?但現(xiàn)在,讓我們?cè)黾佑螒螂y度:第二張照片是從不同角度拍攝的。突然間,原本簡(jiǎn)單的任務(wù)變得復(fù)雜起來(lái)了,因?yàn)槟悴粌H需要找出變化,還要先確定兩張照片中哪些物體是對(duì)應(yīng)的。
這就是研究團(tuán)隊(duì)所面對(duì)的"變換驅(qū)動(dòng)的視覺(jué)推理"(TVR)任務(wù)。在這個(gè)任務(wù)中,AI需要分析一張初始圖像和一張最終圖像,識(shí)別出哪些物體的哪些屬性(顏色、形狀、大小或材質(zhì))發(fā)生了什么樣的變化。比如,AI需要能夠識(shí)別出"編號(hào)為2的物體從木質(zhì)變成了金屬"或"編號(hào)為1的物體從綠色變成了紅色"這樣的轉(zhuǎn)換。
這個(gè)任務(wù)之所以困難,主要有兩個(gè)原因。首先,即使在相同視角下,AI也需要正確識(shí)別每個(gè)物體并比較其屬性變化。其次,當(dāng)視角改變時(shí)(例如,從中心視角變?yōu)樽笠暯腔蛴乙暯牵?,物體在圖像中的位置和外觀也會(huì)隨之變化,這使得匹配變得更加困難。
研究團(tuán)隊(duì)針對(duì)這一問(wèn)題進(jìn)行了深入分析。他們發(fā)現(xiàn),即使是當(dāng)前最先進(jìn)的商業(yè)AI模型如GPT-4o在這項(xiàng)任務(wù)上的表現(xiàn)也令人失望,準(zhǔn)確率僅為23.5%。這一數(shù)據(jù)充分說(shuō)明了空間推理對(duì)AI來(lái)說(shuō)確實(shí)是一個(gè)巨大挑戰(zhàn)。
為什么現(xiàn)有方法難以解決這個(gè)問(wèn)題呢?研究團(tuán)隊(duì)指出了兩個(gè)主要原因:
首先,傳統(tǒng)的監(jiān)督微調(diào)(SFT)方法雖然能夠通過(guò)模仿人類標(biāo)注的答案來(lái)提高AI的表現(xiàn),但它們無(wú)法使AI形成有效的推理鏈。這就像是讓學(xué)生記住答案,而不是教會(huì)他們解題方法。特別是在視角變化的場(chǎng)景下,這種方法的局限性更加明顯。
其次,現(xiàn)有的強(qiáng)化學(xué)習(xí)方法往往采用稀疏獎(jiǎng)勵(lì)機(jī)制,即只有當(dāng)AI給出完全正確的答案時(shí)才會(huì)獲得獎(jiǎng)勵(lì)。這種方法就像是告訴學(xué)生"你全對(duì)了"或"你全錯(cuò)了",而不給出任何中間反饋。在復(fù)雜的TVR任務(wù)中,這種獎(jiǎng)勵(lì)機(jī)制導(dǎo)致AI很難找到正確的探索方向,學(xué)習(xí)效率低下且收斂速度慢。
研究團(tuán)隊(duì)通過(guò)在TRANCE數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)驗(yàn)證了這些問(wèn)題。他們發(fā)現(xiàn),當(dāng)AI需要識(shí)別多個(gè)物體的多種屬性變化時(shí),如果完全正確的情況較少,稀疏獎(jiǎng)勵(lì)機(jī)制幾乎不會(huì)給AI提供有效的學(xué)習(xí)信號(hào)。這就導(dǎo)致AI在訓(xùn)練早期幾乎無(wú)法獲得正面反饋,無(wú)法判斷哪些嘗試是有效的,從而嚴(yán)重阻礙了學(xué)習(xí)過(guò)程。
面對(duì)這些挑戰(zhàn),研究團(tuán)隊(duì)提出了STAR-R1方法,旨在通過(guò)更加細(xì)致的獎(jiǎng)勵(lì)機(jī)制和懲罰機(jī)制,引導(dǎo)AI更有效地探索和學(xué)習(xí)空間推理能力。下面,我們將詳細(xì)介紹這一創(chuàng)新方法的設(shè)計(jì)理念和實(shí)現(xiàn)方式。
**三、STAR-R1方法:如何訓(xùn)練AI進(jìn)行空間推理**
想象你正在教一個(gè)孩子學(xué)習(xí)如何識(shí)別物體的變化。你不會(huì)僅僅告訴他答案對(duì)了或錯(cuò)了,而是會(huì)給予更詳細(xì)的指導(dǎo):「你正確發(fā)現(xiàn)了這個(gè)方塊變色了,真棒!但它不是變成了綠色,而是藍(lán)色?!埂改悴粌H找出了顏色變化,還注意到了大小變化,做得很好!」這種漸進(jìn)式的反饋?zhàn)寣W(xué)習(xí)變得更加高效。STAR-R1正是基于這種理念設(shè)計(jì)的。
STAR-R1的核心是一套精心設(shè)計(jì)的獎(jiǎng)勵(lì)機(jī)制,它不再簡(jiǎn)單地判斷AI的回答是對(duì)是錯(cuò),而是根據(jù)回答的不同正確程度給予相應(yīng)的獎(jiǎng)勵(lì)。具體來(lái)說(shuō),這套獎(jiǎng)勵(lì)機(jī)制包含兩大部分:格式獎(jiǎng)勵(lì)和準(zhǔn)確性獎(jiǎng)勵(lì)。
格式獎(jiǎng)勵(lì)確保AI的回答遵循特定的結(jié)構(gòu)。就像在考試中,即使答案不完全正確,但如果書寫格式規(guī)范也會(huì)得到一定的分?jǐn)?shù)。STAR-R1要求AI在標(biāo)簽內(nèi)記錄推理過(guò)程,在標(biāo)簽內(nèi)給出最終答案。如果AI正確使用了這些標(biāo)簽,就會(huì)獲得1分的格式獎(jiǎng)勵(lì),否則為0分。
準(zhǔn)確性獎(jiǎng)勵(lì)則是STAR-R1的核心創(chuàng)新,它為AI的部分正確回答提供了細(xì)致的反饋。具體來(lái)說(shuō),對(duì)于每一個(gè)物體變換預(yù)測(cè)(如「2號(hào)物體的材質(zhì)變成了金屬」),STAR-R1會(huì)根據(jù)其正確程度給予不同級(jí)別的獎(jiǎng)勵(lì):
如果AI正確識(shí)別了物體編號(hào)、變化的屬性和具體變化值(如「2號(hào)物體的材質(zhì)變成了金屬」完全正確),它將獲得最高獎(jiǎng)勵(lì)5.0分。這相當(dāng)于在考試中得到了滿分。
如果AI正確識(shí)別了物體編號(hào)和變化的屬性,但變化值不正確(如「2號(hào)物體的材質(zhì)變了」,但沒(méi)有正確指出變成了金屬),它將獲得1.5分的部分獎(jiǎng)勵(lì)。這就像是在考試中答對(duì)了一半的問(wèn)題。
如果AI僅正確識(shí)別了物體編號(hào)但屬性和變化值都錯(cuò)了,它仍然會(huì)獲得0.5分的最低獎(jiǎng)勵(lì),以鼓勵(lì)它在正確的方向上繼續(xù)探索。
除了獎(jiǎng)勵(lì)機(jī)制外,STAR-R1還引入了懲罰機(jī)制,以防止AI采取投機(jī)取巧的策略。如果AI預(yù)測(cè)了不存在的變換(例如,聲稱3號(hào)物體變成了紅色,但實(shí)際上它沒(méi)有任何變化),每一個(gè)錯(cuò)誤預(yù)測(cè)都會(huì)被扣除1分。此外,如果AI預(yù)測(cè)的變換數(shù)量少于實(shí)際變換數(shù)量,也會(huì)受到懲罰,以鼓勵(lì)它積極探索所有可能的變換。
這種設(shè)計(jì)理念背后的思想是:寧可嘗試可能錯(cuò)誤的答案,也不要漏掉正確的答案。就像偵探工作,寧可多調(diào)查一些線索,也不要放過(guò)任何可能的證據(jù)。通過(guò)這種方式,STAR-R1鼓勵(lì)A(yù)I進(jìn)行全面而細(xì)致的探索,而不是消極被動(dòng)地避免錯(cuò)誤。
在訓(xùn)練過(guò)程中,STAR-R1采用了GRPO(Group-based Reward-optimal Policy Optimization)算法,這是一種高效的強(qiáng)化學(xué)習(xí)方法。與傳統(tǒng)的PPO算法不同,GRPO不需要訓(xùn)練額外的價(jià)值網(wǎng)絡(luò),而是通過(guò)對(duì)比同一批次內(nèi)不同回答的獎(jiǎng)勵(lì)來(lái)計(jì)算優(yōu)勢(shì)值,大大提高了訓(xùn)練效率。
具體來(lái)說(shuō),對(duì)于每個(gè)訓(xùn)練樣本,STAR-R1會(huì)生成一組不同的回答,然后計(jì)算每個(gè)回答的總獎(jiǎng)勵(lì)(格式獎(jiǎng)勵(lì)+準(zhǔn)確性獎(jiǎng)勵(lì))。接著,它會(huì)計(jì)算這組回答的平均獎(jiǎng)勵(lì)和標(biāo)準(zhǔn)差,并據(jù)此為每個(gè)回答計(jì)算一個(gè)相對(duì)優(yōu)勢(shì)值。優(yōu)勢(shì)值越高的回答,模型就會(huì)被鼓勵(lì)生成更多類似的回答,而優(yōu)勢(shì)值低的回答則會(huì)被抑制。通過(guò)這種方式,模型能夠逐步學(xué)會(huì)生成更加準(zhǔn)確的空間變換推理。
STAR-R1的另一個(gè)創(chuàng)新之處在于,它采用了單階段純強(qiáng)化學(xué)習(xí)訓(xùn)練范式,無(wú)需像其他方法那樣先進(jìn)行監(jiān)督微調(diào)再進(jìn)行強(qiáng)化學(xué)習(xí)。這種方法不僅簡(jiǎn)化了訓(xùn)練流程,還避免了監(jiān)督微調(diào)可能引入的偏見(jiàn)和限制,使AI能夠更加自由地探索和發(fā)現(xiàn)最優(yōu)的推理策略。
通過(guò)這套精心設(shè)計(jì)的訓(xùn)練方法,STAR-R1能夠有效地引導(dǎo)AI學(xué)習(xí)如何進(jìn)行空間變換推理,特別是在具有視角變化的復(fù)雜場(chǎng)景中。接下來(lái),我們將探討這種方法在實(shí)際實(shí)驗(yàn)中的表現(xiàn),以及它帶來(lái)的驚人結(jié)果。
**四、實(shí)驗(yàn)結(jié)果:STAR-R1如何超越現(xiàn)有模型**
想象一場(chǎng)智力競(jìng)賽,參賽者需要找出兩張照片中物體的變化。有些選手只看表面,有些卻深入分析。這場(chǎng)競(jìng)賽中,STAR-R1表現(xiàn)卓越,不僅在簡(jiǎn)單題目上拿高分,在難題上更是遙遙領(lǐng)先。讓我們看看它是如何擊敗其他選手的。
研究團(tuán)隊(duì)對(duì)STAR-R1進(jìn)行了全面而嚴(yán)格的評(píng)估,選擇了4.5K個(gè)測(cè)試樣本,包括相同視角(In-Domain)和不同視角(Out-of-Domain)的場(chǎng)景。為了確保評(píng)估的全面性,他們?cè)O(shè)計(jì)了11個(gè)評(píng)估指標(biāo),覆蓋了不同的角度和難度級(jí)別。
評(píng)估結(jié)果令人印象深刻。在所有11個(gè)指標(biāo)上,STAR-R1都取得了最佳表現(xiàn),遠(yuǎn)超其他模型。特別是與商業(yè)模型相比,STAR-R1的總體準(zhǔn)確率(TAcc)達(dá)到了61.4%,比GPT-4o高出37.9個(gè)百分點(diǎn),比Gemini-1.5-pro高出45.5個(gè)百分點(diǎn)。這一成績(jī)充分證明了STAR-R1方法的有效性和優(yōu)越性。
在屬性準(zhǔn)確率方面,STAR-R1在顏色、形狀、大小和材質(zhì)這四類屬性上都表現(xiàn)出色,準(zhǔn)確率分別達(dá)到81.3%、83.2%、86.1%和85.5%。這種均衡的表現(xiàn)表明,STAR-R1能夠全面理解物體的各種屬性變化,而不是僅僅擅長(zhǎng)某一類特定的變化。
更令人驚訝的是,當(dāng)場(chǎng)景中物體數(shù)量增加時(shí),STAR-R1的性能下降得比其他模型要慢得多。在含有1-3個(gè)物體的場(chǎng)景中,它的準(zhǔn)確率高達(dá)91.0%;即使在含有9-10個(gè)物體的復(fù)雜場(chǎng)景中,它仍然保持了37.5%的準(zhǔn)確率。相比之下,其他模型在復(fù)雜場(chǎng)景中的表現(xiàn)急劇下降,有些甚至接近于隨機(jī)猜測(cè)。
但最令人矚目的是STAR-R1在跨視角(Out-of-Domain)任務(wù)上的表現(xiàn)。在這種更加困難的場(chǎng)景下,STAR-R1的準(zhǔn)確率達(dá)到了53.9%,比基于監(jiān)督微調(diào)(SFT)的方法高出23個(gè)百分點(diǎn)。這一巨大差距表明,STAR-R1不僅能夠理解物體的變化,還能夠在視角變化的情況下正確匹配對(duì)應(yīng)的物體,這是一項(xiàng)遠(yuǎn)超其他模型的能力。
為什么STAR-R1在跨視角任務(wù)上表現(xiàn)如此出色?研究團(tuán)隊(duì)通過(guò)深入分析發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:STAR-R1會(huì)像人類一樣,根據(jù)場(chǎng)景的復(fù)雜程度調(diào)整其推理策略。
在相同視角的簡(jiǎn)單場(chǎng)景中,STAR-R1會(huì)進(jìn)行有限的物體比較,因?yàn)樽兓ǔ:苋菀鬃R(shí)別。但在跨視角的復(fù)雜場(chǎng)景中,它會(huì)系統(tǒng)地比較所有物體,以確保正確匹配。具體來(lái)說(shuō),在相同視角場(chǎng)景中,STAR-R1在67%的案例中會(huì)進(jìn)行全面物體比較;而在跨視角場(chǎng)景中,這一比例上升到81%。
這種自適應(yīng)行為完全是模型自主學(xué)習(xí)得來(lái)的,而非人為編程的結(jié)果。它表明,STAR-R1通過(guò)強(qiáng)化學(xué)習(xí),不僅學(xué)會(huì)了如何識(shí)別物體變化,還學(xué)會(huì)了如何根據(jù)場(chǎng)景復(fù)雜度調(diào)整其推理策略,這是一種接近人類認(rèn)知的行為模式。
研究團(tuán)隊(duì)還觀察到了一個(gè)有趣的現(xiàn)象:STAR-R1在訓(xùn)練過(guò)程中,其回答的長(zhǎng)度先減少后增加,最終趨于穩(wěn)定。這表明,模型在訓(xùn)練初期會(huì)嘗試各種推理策略,并逐漸簡(jiǎn)化其語(yǔ)言表達(dá);但隨后,它意識(shí)到僅關(guān)注少數(shù)幾個(gè)物體可能導(dǎo)致匹配錯(cuò)誤,于是開(kāi)始系統(tǒng)地比較所有物體,最終找到了平衡點(diǎn)。這種動(dòng)態(tài)變化進(jìn)一步證明了STAR-R1學(xué)習(xí)過(guò)程的自然性和有效性。
最后,研究團(tuán)隊(duì)還進(jìn)行了廣泛的消融實(shí)驗(yàn),以驗(yàn)證STAR-R1各組件的重要性。結(jié)果表明,無(wú)論是移除物體獎(jiǎng)勵(lì)、屬性獎(jiǎng)勵(lì)還是懲罰機(jī)制,都會(huì)導(dǎo)致模型性能顯著下降。這充分證明了STAR-R1設(shè)計(jì)的合理性和必要性。
總的來(lái)說(shuō),STAR-R1在空間變換推理任務(wù)上的卓越表現(xiàn),特別是在跨視角場(chǎng)景中的顯著優(yōu)勢(shì),為提高AI的空間理解能力提供了一種有效方法,也為我們理解AI如何通過(guò)強(qiáng)化學(xué)習(xí)逐步接近人類認(rèn)知能力提供了寶貴洞察。
**五、人類化行為:強(qiáng)化學(xué)習(xí)與監(jiān)督學(xué)習(xí)的對(duì)比**
想象兩個(gè)學(xué)生學(xué)習(xí)同一門課程。第一個(gè)學(xué)生只是死記硬背老師給的答案,第二個(gè)學(xué)生則通過(guò)不斷嘗試和反饋來(lái)理解解題方法。當(dāng)面對(duì)新問(wèn)題時(shí),哪個(gè)學(xué)生更有可能找到解決方案呢?這正是監(jiān)督學(xué)習(xí)(SFT)和強(qiáng)化學(xué)習(xí)(RL)的區(qū)別所在。
研究團(tuán)隊(duì)進(jìn)行了一項(xiàng)深入比較,探究了基于強(qiáng)化學(xué)習(xí)(STAR-R1)和基于監(jiān)督學(xué)習(xí)(STAR-SFT)的模型之間的差異。他們發(fā)現(xiàn),兩種方法在相同視角(In-Domain)和不同視角(Out-of-Domain)的任務(wù)上表現(xiàn)出明顯的差異。
在相同視角的任務(wù)中,STAR-SFT的準(zhǔn)確率達(dá)到了84.2%,略高于STAR-R1的76.3%。這是合理的,因?yàn)楸O(jiān)督學(xué)習(xí)善于記憶訓(xùn)練數(shù)據(jù)中的模式,而相同視角的任務(wù)與訓(xùn)練數(shù)據(jù)更為相似。然而,當(dāng)轉(zhuǎn)向更具挑戰(zhàn)性的跨視角任務(wù)時(shí),情況發(fā)生了戲劇性的逆轉(zhuǎn):STAR-R1的準(zhǔn)確率達(dá)到53.9%,而STAR-SFT僅為30.9%,相差高達(dá)23個(gè)百分點(diǎn)。
為什么會(huì)出現(xiàn)如此大的差距?研究團(tuán)隊(duì)通過(guò)案例研究揭示了一個(gè)關(guān)鍵原因:STAR-R1和STAR-SFT采用了截然不同的推理策略。
STAR-SFT模型傾向于進(jìn)行快速但不全面的比較,通常只關(guān)注少數(shù)幾個(gè)物體。在相同視角的簡(jiǎn)單場(chǎng)景中,這種策略足夠有效,因?yàn)樽兓ǔ:苋菀鬃R(shí)別。但在跨視角的復(fù)雜場(chǎng)景中,這種方法會(huì)導(dǎo)致嚴(yán)重的錯(cuò)誤。
例如,當(dāng)視角變化時(shí),STAR-SFT錯(cuò)誤地認(rèn)為兩張圖片中相同位置的物體就是同一個(gè)物體,而忽略了視角變化會(huì)導(dǎo)致物體在圖像中的位置發(fā)生變化。這就像一個(gè)人只看物體在照片中的位置而不考慮實(shí)際場(chǎng)景中的位置關(guān)系一樣,這種方法在視角變化時(shí)必然會(huì)失敗。
相比之下,STAR-R1會(huì)像偵探一樣,系統(tǒng)地比較兩張圖片中的所有物體,包括那些未發(fā)生變化的物體。在具有多個(gè)物體的場(chǎng)景中,這種全面比較使它能夠建立準(zhǔn)確的物體對(duì)應(yīng)關(guān)系,即使在視角變化的情況下也能正確匹配物體。
研究團(tuán)隊(duì)通過(guò)具體案例展示了這種差異。在一個(gè)案例中,STAR-SFT錯(cuò)誤地將最終圖像中的物體0、3和5識(shí)別為物體3、5和6,導(dǎo)致完全錯(cuò)誤的推理結(jié)果。而STAR-R1則通過(guò)系統(tǒng)比較所有物體的狀態(tài),成功建立了正確的對(duì)應(yīng)關(guān)系,從而得出準(zhǔn)確的推理結(jié)果。
這種行為差異揭示了強(qiáng)化學(xué)習(xí)的獨(dú)特價(jià)值:它不僅僅讓AI學(xué)會(huì)了回答問(wèn)題,還讓AI學(xué)會(huì)了如何思考和推理。更令人驚訝的是,STAR-R1表現(xiàn)出的自適應(yīng)行為與人類非常相似。在簡(jiǎn)單場(chǎng)景中,它會(huì)進(jìn)行有限的比較;而在復(fù)雜場(chǎng)景中,它會(huì)更加全面地比較所有物體,就像人類會(huì)根據(jù)任務(wù)難度調(diào)整思考深度一樣。
這種人類化的行為完全是模型通過(guò)強(qiáng)化學(xué)習(xí)自主發(fā)展出來(lái)的,而非人為設(shè)計(jì)的結(jié)果。這表明,通過(guò)適當(dāng)?shù)莫?jiǎng)勵(lì)機(jī)制,AI可以自主學(xué)習(xí)發(fā)展出類似人類的認(rèn)知策略,而不需要明確的指導(dǎo)或規(guī)則。
研究團(tuán)隊(duì)還嘗試將強(qiáng)化學(xué)習(xí)應(yīng)用于已經(jīng)接受監(jiān)督微調(diào)的模型(STAR-SFT&RL),結(jié)果表明,這種方法確實(shí)能夠提升模型在跨視角任務(wù)上的表現(xiàn),從30.9%提高到36.5%。但這一提升仍遠(yuǎn)低于純強(qiáng)化學(xué)習(xí)模型STAR-R1的53.9%。這一發(fā)現(xiàn)暗示,監(jiān)督微調(diào)可能會(huì)使模型鎖定某種推理模式,限制其在后續(xù)強(qiáng)化學(xué)習(xí)中的探索空間。
總的來(lái)說(shuō),STAR-R1與STAR-SFT的對(duì)比研究不僅證明了強(qiáng)化學(xué)習(xí)在提高AI空間推理能力方面的卓越表現(xiàn),還揭示了AI可以通過(guò)強(qiáng)化學(xué)習(xí)自主發(fā)展出人類化的認(rèn)知策略。這一發(fā)現(xiàn)為我們理解AI如何逐步接近人類認(rèn)知能力提供了寶貴洞察,也為未來(lái)AI研究指明了方向。
**六、訓(xùn)練動(dòng)態(tài):AI如何學(xué)會(huì)推理**
學(xué)習(xí)一項(xiàng)新技能通常不是一條直線,而是充滿起伏的旅程。STAR-R1的學(xué)習(xí)過(guò)程也是如此。研究團(tuán)隊(duì)對(duì)模型的訓(xùn)練過(guò)程進(jìn)行了深入分析,發(fā)現(xiàn)了一些有趣的現(xiàn)象,這些現(xiàn)象揭示了AI如何逐步掌握空間推理能力。
最引人注目的是模型回答長(zhǎng)度的變化。在訓(xùn)練初期,STAR-R1的回答非常冗長(zhǎng),充滿了詳細(xì)的多物體描述,如:"第3號(hào)物體在第一張圖像中是一個(gè)灰色的大型圓柱體。在第二張圖像中,它變成了金屬金色。這表明顏色和材質(zhì)發(fā)生了變化。第1號(hào)物體在第一張圖像中是..."。
隨著訓(xùn)練的進(jìn)行,模型的回答逐漸變得簡(jiǎn)潔,轉(zhuǎn)向了單物體推理,如:"棕色小球改變了顏色,變成了灰色"。這一階段,模型的回答長(zhǎng)度達(dá)到最低點(diǎn)。但有趣的是,在此之后,回答長(zhǎng)度又開(kāi)始增加,最終趨于穩(wěn)定。
研究團(tuán)隊(duì)分析認(rèn)為,這種動(dòng)態(tài)變化反映了模型探索策略的演變。在訓(xùn)練初期,模型嘗試各種推理方式并逐漸簡(jiǎn)化其語(yǔ)言表達(dá)。但隨后,它意識(shí)到僅關(guān)注少數(shù)幾個(gè)物體可能導(dǎo)致匹配錯(cuò)誤,特別是在視角變化的情況下。因此,它開(kāi)始系統(tǒng)地比較所有物體的狀態(tài),包括那些未發(fā)生變化的物體,以建立更準(zhǔn)確的物體對(duì)應(yīng)關(guān)系。
這種轉(zhuǎn)變使模型最終形成了一種平衡的推理策略:為每個(gè)物體保持簡(jiǎn)潔的推理風(fēng)格,同時(shí)系統(tǒng)地比較所有物體。例如:"大型紫色玻璃立方體(索引2)變成了大型紫色玻璃立方體。小型紫色金屬圓柱體(索引0)變成了小型紫色金屬圓柱體。..."。這種策略不僅提高了準(zhǔn)確率,還保持了推理的清晰度和可解釋性。
研究團(tuán)隊(duì)還發(fā)現(xiàn),模型在訓(xùn)練過(guò)程中的獎(jiǎng)勵(lì)曲線穩(wěn)步上升,最終穩(wěn)定在一個(gè)較高水平。這表明STAR-R1的獎(jiǎng)勵(lì)設(shè)計(jì)成功地引導(dǎo)模型持續(xù)改進(jìn),而不是陷入局部最優(yōu)解。
此外,研究團(tuán)隊(duì)通過(guò)比較不同屬性(顏色、形狀、大小和材質(zhì))的準(zhǔn)確率變化,發(fā)現(xiàn)所有屬性的準(zhǔn)確率都呈現(xiàn)類似的增長(zhǎng)趨勢(shì),最終穩(wěn)定在較高水平。這種均衡的進(jìn)步表明,模型能夠全面理解各種屬性變化,而不是偏向某一特定類型的變化。
為了驗(yàn)證模型性能與訓(xùn)練數(shù)據(jù)量的關(guān)系,研究團(tuán)隊(duì)還進(jìn)行了數(shù)據(jù)量消融實(shí)驗(yàn)。結(jié)果表明,隨著訓(xùn)練數(shù)據(jù)量從1,000增加到9,000,模型的準(zhǔn)確率從13.8%提升到61.4%,表現(xiàn)出明顯的數(shù)據(jù)量效應(yīng)。但有趣的是,準(zhǔn)確率增長(zhǎng)率呈現(xiàn)先增后減的趨勢(shì),暗示在數(shù)據(jù)量較少時(shí),增加數(shù)據(jù)能帶來(lái)顯著提升;而當(dāng)數(shù)據(jù)量達(dá)到一定水平后,增益開(kāi)始減少。
研究團(tuán)隊(duì)還研究了模型規(guī)模對(duì)性能的影響。他們將基礎(chǔ)模型從Qwen-2.5VL-7B替換為Qwen-2.5VL-3B,發(fā)現(xiàn)較小的模型在相同訓(xùn)練設(shè)置下,雖然也能從強(qiáng)化學(xué)習(xí)中獲益,但性能提升要小得多。這表明基礎(chǔ)模型的能力對(duì)最終性能有重要影響,更強(qiáng)大的基礎(chǔ)模型能夠達(dá)到更高的推理能力上限。
總的來(lái)說(shuō),STAR-R1的訓(xùn)練動(dòng)態(tài)分析不僅揭示了模型如何逐步掌握空間推理能力,還為我們理解AI學(xué)習(xí)過(guò)程中的策略演變提供了寶貴洞察。這些發(fā)現(xiàn)既有實(shí)際價(jià)值,能指導(dǎo)未來(lái)模型的設(shè)計(jì)和訓(xùn)練,也有理論意義,有助于我們理解AI如何通過(guò)強(qiáng)化學(xué)習(xí)自主發(fā)展出有效的認(rèn)知策略。
**七、結(jié)論與未來(lái)展望**
想象一個(gè)孩子從只會(huì)機(jī)械記憶答案,到能夠理解并解決問(wèn)題的過(guò)程——這正是STAR-R1所展現(xiàn)的AI進(jìn)化之路。這項(xiàng)研究不僅在技術(shù)上取得了突破,更展示了AI如何逐步發(fā)展出類似人類的推理能力。
STAR-R1通過(guò)創(chuàng)新的獎(jiǎng)勵(lì)設(shè)計(jì)和強(qiáng)化學(xué)習(xí)方法,成功提高了AI在空間變換推理任務(wù)上的表現(xiàn),尤其是在具有視角變化的復(fù)雜場(chǎng)景中。它在所有11個(gè)評(píng)估指標(biāo)上都取得了最佳表現(xiàn),比最先進(jìn)的商業(yè)模型如GPT-4o和Gemini-1.5-pro高出30-40個(gè)百分點(diǎn),比基于監(jiān)督微調(diào)的方法在跨視角任務(wù)上高出23個(gè)百分點(diǎn)。
更重要的是,STAR-R1展現(xiàn)出了人類化的行為模式。它能夠根據(jù)場(chǎng)景復(fù)雜度自適應(yīng)地調(diào)整推理策略,在簡(jiǎn)單場(chǎng)景中進(jìn)行有限比較,在復(fù)雜場(chǎng)景中進(jìn)行全面比較,這種行為與人類處理不同難度任務(wù)的方式極為相似。而這種行為完全是模型通過(guò)強(qiáng)化學(xué)習(xí)自主發(fā)展出來(lái)的,而非人為設(shè)計(jì)的結(jié)果。
這項(xiàng)研究的意義遠(yuǎn)超過(guò)提高AI在特定任務(wù)上的表現(xiàn)。它為我們理解AI如何通過(guò)強(qiáng)化學(xué)習(xí)逐步接近人類認(rèn)知能力提供了寶貴洞察。特別是,它證明了通過(guò)適當(dāng)設(shè)計(jì)的獎(jiǎng)勵(lì)機(jī)制,AI可以自主學(xué)習(xí)發(fā)展出有效的推理策略,而不需要明確的指導(dǎo)或規(guī)則。
當(dāng)然,這項(xiàng)研究也存在一些局限性。首先,當(dāng)前的模型只能處理單時(shí)間戳的物體變換,而現(xiàn)實(shí)世界中的變換往往是隨時(shí)間延展的序列,具有潛在的依賴關(guān)系。其次,雖然STAR-R1在視覺(jué)推理方面取得了顯著進(jìn)步,但它仍主要關(guān)注物體的基本屬性變化,而沒(méi)有處理更復(fù)雜的空間關(guān)系和交互。
未來(lái)的研究方向可能包括將這種方法擴(kuò)展到時(shí)間序列變換,考慮物體間的相互作用,以及整合更復(fù)雜的空間關(guān)系理解。此外,研究團(tuán)隊(duì)還計(jì)劃探索將這種基于強(qiáng)化學(xué)習(xí)的方法應(yīng)用到其他多模態(tài)推理任務(wù)中,如視頻理解、場(chǎng)景描述等。
更廣泛地說(shuō),這項(xiàng)研究為AI朝著更加接近人類認(rèn)知能力的方向邁進(jìn)提供了一條可行路徑。通過(guò)結(jié)合視覺(jué)感知和邏輯推理,AI可以逐步發(fā)展出更加全面和深入的世界理解。這不僅有助于提高AI在各種實(shí)際應(yīng)用中的表現(xiàn),還可能為我們理解人類認(rèn)知過(guò)程提供新的視角。
正如研究團(tuán)隊(duì)所言,STAR-R1驗(yàn)證了R1-Zero范式(純強(qiáng)化學(xué)習(xí)訓(xùn)練)在高級(jí)推理任務(wù)中的潛力。這一發(fā)現(xiàn)可能為未來(lái)的AI研究指明方向,推動(dòng)AI從簡(jiǎn)單的模式匹配向真正的理解和推理能力轉(zhuǎn)變。
這項(xiàng)由人民大學(xué)高瓴人工智能學(xué)院宗昭李、馬宗陽(yáng)等研究人員領(lǐng)導(dǎo)的工作,不僅是AI技術(shù)的一次重要突破,更是我們理解智能本質(zhì)的一次寶貴探索。隨著研究的深入,我們或許能夠解開(kāi)更多關(guān)于智能形成和發(fā)展的奧秘,無(wú)論是人工的還是自然的。
好文章,需要你的鼓勵(lì)
這項(xiàng)研究提出了"高效探測(cè)"方法,解決了掩碼圖像建模AI難以有效評(píng)估的問(wèn)題。通過(guò)創(chuàng)新的多查詢交叉注意力機(jī)制,該方法在減少90%參數(shù)的同時(shí)實(shí)現(xiàn)10倍速度提升,在七個(gè)基準(zhǔn)測(cè)試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強(qiáng)相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊(duì)承諾開(kāi)源全部代碼,推動(dòng)技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了CLAIMSPECT系統(tǒng),通過(guò)層次化分解復(fù)雜爭(zhēng)議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點(diǎn)的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動(dòng)構(gòu)建爭(zhēng)議話題的分析框架,識(shí)別不同觀點(diǎn)及其支撐證據(jù),為科學(xué)和政治爭(zhēng)議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國(guó)際關(guān)系領(lǐng)域驗(yàn)證有效性。
清華大學(xué)研究團(tuán)隊(duì)首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類一樣理解和表達(dá)情感。該系統(tǒng)通過(guò)多層次情感處理架構(gòu),在情感識(shí)別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實(shí)現(xiàn)了跨模態(tài)情感融合、動(dòng)態(tài)情感追蹤和個(gè)性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來(lái)革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊(duì)通過(guò)創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會(huì)復(fù)雜推理。研究發(fā)現(xiàn)AI通過(guò)游戲競(jìng)爭(zhēng)能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問(wèn)題等方面表現(xiàn)顯著提升。這項(xiàng)突破性成果為未來(lái)AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過(guò)模擬人類學(xué)習(xí)過(guò)程培養(yǎng)真正智能AI的新路徑。