這項(xiàng)由新加坡國(guó)立大學(xué)的劉博、里昂·格特勒等研究人員領(lǐng)導(dǎo),聯(lián)合A*STAR前沿AI研究中心、東北大學(xué)、Sea AI Lab、Plastic Labs和華盛頓大學(xué)的團(tuán)隊(duì)共同完成的研究,于2025年6月發(fā)表在arXiv預(yù)印本平臺(tái)上。有興趣深入了解的讀者可以通過(guò)論文編號(hào)arXiv:2506.24119v1訪問(wèn)完整論文。
這項(xiàng)研究解決了一個(gè)讓AI研究人員頭疼不已的問(wèn)題:如何讓人工智能真正學(xué)會(huì)推理,而不是簡(jiǎn)單地背答案。傳統(tǒng)的訓(xùn)練方法就像讓學(xué)生死記硬背標(biāo)準(zhǔn)答案,雖然能在考試中得高分,但遇到新問(wèn)題就束手無(wú)策。更麻煩的是,這種方法需要大量的專家來(lái)設(shè)計(jì)題目、提供標(biāo)準(zhǔn)答案,成本高昂且難以擴(kuò)展。
研究團(tuán)隊(duì)提出了一個(gè)令人眼前一亮的解決方案:讓AI通過(guò)玩游戲來(lái)學(xué)習(xí)推理。他們開發(fā)了一個(gè)叫做SPIRAL的訓(xùn)練框架,讓AI模型通過(guò)與自己的復(fù)制版本對(duì)弈零和游戲來(lái)提升推理能力。這就好比讓一個(gè)人通過(guò)與鏡子中的自己下棋來(lái)提高棋藝,隨著自己水平的提升,對(duì)手的水平也在同步提升,形成了一個(gè)不斷進(jìn)步的良性循環(huán)。
最令人驚訝的是實(shí)驗(yàn)結(jié)果:僅僅通過(guò)訓(xùn)練AI玩簡(jiǎn)單的撲克游戲Kuhn Poker,AI在數(shù)學(xué)推理測(cè)試中的表現(xiàn)提升了8.6%,在通用推理測(cè)試中提升了8.4%。更重要的是,這種提升完全不需要任何數(shù)學(xué)題目作為訓(xùn)練材料。研究人員發(fā)現(xiàn),游戲中培養(yǎng)的三種核心推理模式——系統(tǒng)性分解、期望值計(jì)算和逐案分析——能夠完美轉(zhuǎn)移到數(shù)學(xué)問(wèn)題求解中。
**一、游戲訓(xùn)練的巧妙設(shè)計(jì)**
要理解這項(xiàng)研究的精妙之處,我們可以把AI的學(xué)習(xí)過(guò)程想象成運(yùn)動(dòng)員的訓(xùn)練。傳統(tǒng)的AI訓(xùn)練方法就像讓運(yùn)動(dòng)員反復(fù)練習(xí)比賽中的標(biāo)準(zhǔn)動(dòng)作,雖然能掌握基本技能,但缺乏應(yīng)變能力。而SPIRAL框架則像讓運(yùn)動(dòng)員在實(shí)戰(zhàn)對(duì)抗中成長(zhǎng),每一次對(duì)弈都是一次新的挑戰(zhàn)。
研究團(tuán)隊(duì)精心選擇了三款具有不同認(rèn)知要求的游戲作為訓(xùn)練環(huán)境。井字棋要求空間推理能力,玩家需要識(shí)別獲勝模式、阻擋對(duì)手威脅并規(guī)劃多步強(qiáng)制序列。這種確定性的完全信息游戲能夠訓(xùn)練純粹的策略推理,避免了不確定性管理的干擾。
Kuhn Poker則引入了概率推理的挑戰(zhàn)。這是一個(gè)簡(jiǎn)化版的撲克游戲,只使用三張牌(J、Q、K),每位玩家獲得一張牌,剩余一張不發(fā)。游戲的精髓在于隱藏信息下的決策制定,玩家需要計(jì)算期望值、建模對(duì)手行為,并在不確定性中做出選擇。這些能力直接對(duì)應(yīng)著數(shù)學(xué)中涉及概率、期望值和策略不確定性的問(wèn)題。
簡(jiǎn)單談判游戲則培養(yǎng)了多約束優(yōu)化能力。兩名玩家交換木材和黃金資源,各自擁有不同的估值函數(shù),形成天然的利益對(duì)立。成功需要理解對(duì)手偏好、規(guī)劃多步交易,以及通過(guò)提議和反提議進(jìn)行策略性溝通。研究人員假設(shè)這些技能能夠轉(zhuǎn)移到優(yōu)化問(wèn)題、資源分配任務(wù)以及需要平衡競(jìng)爭(zhēng)目標(biāo)的多約束推理中。
更巧妙的是訓(xùn)練機(jī)制的設(shè)計(jì)。與傳統(tǒng)的監(jiān)督學(xué)習(xí)不同,SPIRAL采用了完全在線的多智能體強(qiáng)化學(xué)習(xí)系統(tǒng)。系統(tǒng)使用分布式演員-學(xué)習(xí)者架構(gòu),多個(gè)并行演員從不同游戲中采樣軌跡,而集中式學(xué)習(xí)者處理這些軌跡并執(zhí)行策略更新。這種設(shè)計(jì)讓AI能夠在真實(shí)的競(jìng)爭(zhēng)環(huán)境中學(xué)習(xí),而不是簡(jiǎn)單地模仿專家行為。
**二、自對(duì)弈的無(wú)限課程效應(yīng)**
自對(duì)弈訓(xùn)練的魅力在于它創(chuàng)造了一個(gè)永不停止的自適應(yīng)課程。當(dāng)AI與固定對(duì)手訓(xùn)練時(shí),很容易陷入兩種困境。一種是"格式學(xué)習(xí)的回合詛咒":面對(duì)隨機(jī)對(duì)手時(shí),AI必須在每個(gè)回合都生成正確格式的有效動(dòng)作才能獲得正面獎(jiǎng)勵(lì),但生成完全有效軌跡的概率隨著回合長(zhǎng)度呈指數(shù)下降,使得探索和學(xué)習(xí)變得極其困難。另一種是"靜態(tài)策略利用":固定的模型對(duì)手雖然能幫助學(xué)習(xí)動(dòng)作格式,但AI很快就會(huì)找到針對(duì)性的獲勝策略,導(dǎo)致過(guò)擬合而無(wú)法泛化。
自對(duì)弈巧妙地避免了這兩個(gè)陷阱。由于對(duì)手和自己共享同一個(gè)策略網(wǎng)絡(luò),隨著AI能力的提升,對(duì)手的水平也在同步增長(zhǎng)。這創(chuàng)造了一個(gè)始終維持在50%左右勝率的平衡狀態(tài),確保挑戰(zhàn)難度始終適中。更重要的是,這種動(dòng)態(tài)平衡迫使AI不斷開發(fā)新的策略,而不是停留在固定的獲勝套路上。
實(shí)驗(yàn)數(shù)據(jù)清楚地展示了這種差異。在與固定對(duì)手Gemini的訓(xùn)練中,AI在前128步幾乎沒有任何學(xué)習(xí)(勝率為0%,意味著沒有正面獎(jiǎng)勵(lì)信號(hào)),直到第384步才學(xué)會(huì)擊敗這個(gè)固定對(duì)手,勝率達(dá)到62.5%。然而,一旦掌握了獲勝策略,進(jìn)步就停滯不前。相比之下,自對(duì)弈訓(xùn)練始終維持50-52%的勝率,表明對(duì)手在持續(xù)進(jìn)化以匹配當(dāng)前能力。
這種持續(xù)適應(yīng)性訓(xùn)練在推理能力轉(zhuǎn)移方面表現(xiàn)得更加出色。自對(duì)弈在數(shù)學(xué)推理測(cè)試中達(dá)到40%的成績(jī),在通用推理測(cè)試中達(dá)到45%,分別比最佳固定對(duì)手訓(xùn)練高出5個(gè)和3個(gè)百分點(diǎn)。這種相對(duì)提升證明了多樣化策略比利用靜態(tài)弱點(diǎn)更能培養(yǎng)可泛化的推理模式。
**三、推理模式的意外轉(zhuǎn)移**
研究團(tuán)隊(duì)通過(guò)深入分析發(fā)現(xiàn),游戲訓(xùn)練過(guò)程中自然涌現(xiàn)出三種核心推理模式,這些模式能夠以不同程度轉(zhuǎn)移到數(shù)學(xué)問(wèn)題求解中。
逐案分析展現(xiàn)了近乎完美的轉(zhuǎn)移效果,從游戲中的72%使用率幾乎無(wú)損地轉(zhuǎn)移到數(shù)學(xué)中的71%。這種系統(tǒng)性枚舉的元認(rèn)知技能代表著一種領(lǐng)域無(wú)關(guān)的結(jié)構(gòu)化思維方式,能夠普遍改善推理表現(xiàn)。無(wú)論是分析撲克中的對(duì)手可能性,還是分析數(shù)學(xué)中的解決方案分支,核心技能都是相同的。一個(gè)具體的例子是,在游戲中AI學(xué)會(huì)了"情況1-棄牌:你失去1個(gè)籌碼,現(xiàn)在有2個(gè)籌碼。情況2-跟注:你有0%的獲勝機(jī)會(huì),如果輸了會(huì)有1個(gè)籌碼"的分析方式,在數(shù)學(xué)中則轉(zhuǎn)化為"情況n=0:m?+2=m,無(wú)實(shí)數(shù)解。情況n=1:m?+6=3m,無(wú)實(shí)數(shù)解"的系統(tǒng)性枚舉。
期望值計(jì)算顯示了有限但有意義的轉(zhuǎn)移,從游戲中的78%使用率轉(zhuǎn)移到數(shù)學(xué)中的28%。雖然游戲特定的概率推理在數(shù)學(xué)中出現(xiàn)頻率較低,但這主要是因?yàn)榇蠖鄶?shù)數(shù)學(xué)問(wèn)題缺乏顯式的決策理論結(jié)構(gòu)。然而,在涉及概率和優(yōu)化的數(shù)學(xué)問(wèn)題中,這種推理方式直接適用且非常有效。
最有趣的是模式識(shí)別展現(xiàn)出的放大效應(yīng),從游戲中的35%使用率實(shí)際增強(qiáng)到數(shù)學(xué)中的45%。研究人員認(rèn)為這是因?yàn)閿?shù)學(xué)本質(zhì)上需要模式識(shí)別,游戲訓(xùn)練增強(qiáng)了一個(gè)已經(jīng)存在的核心數(shù)學(xué)技能,使其在面對(duì)數(shù)學(xué)問(wèn)題時(shí)部署得比游戲中更加頻繁。
**四、多游戲訓(xùn)練的協(xié)同效應(yīng)**
單獨(dú)游戲訓(xùn)練已經(jīng)令人印象深刻,但多游戲組合訓(xùn)練展現(xiàn)出了更加強(qiáng)大的協(xié)同效應(yīng)。研究團(tuán)隊(duì)發(fā)現(xiàn),不同游戲培養(yǎng)的專門技能能夠互補(bǔ)協(xié)作,創(chuàng)造出比單一游戲更強(qiáng)的綜合能力。
在專家對(duì)專家的對(duì)決中,這種專業(yè)化分工表現(xiàn)得淋漓盡致。井字棋專家在需要類似認(rèn)知技能的游戲中表現(xiàn)出色,在訓(xùn)練游戲中獲得57.5%的勝率,在未見過(guò)的貪吃蛇游戲中保持56.0%的表現(xiàn),證明了空間推理能力的穩(wěn)健轉(zhuǎn)移。Kuhn Poker專家在概率推理方面獨(dú)領(lǐng)風(fēng)騷,不僅在訓(xùn)練游戲中達(dá)到64.2%的勝率,在未見過(guò)的豬骰子游戲中更是創(chuàng)造了驚人的91.7%勝率。簡(jiǎn)單談判專家則在策略優(yōu)化方面見長(zhǎng),在訓(xùn)練游戲中獲得62.7%勝率,在真相與欺騙游戲中達(dá)到55.8%。
然而,真正的魔力在多游戲模型中展現(xiàn)。這個(gè)綜合訓(xùn)練的模型在面對(duì)新挑戰(zhàn)時(shí)展現(xiàn)出超越任何專家的適應(yīng)能力。在騙子骰子游戲中,各個(gè)專家的表現(xiàn)都不盡如人意,Kuhn Poker專家只有24.9%的勝率,簡(jiǎn)單談判專家更是只有12.3%。但多游戲模型卻達(dá)到了51.4%的勝率,證明了多樣化訓(xùn)練創(chuàng)造的涌現(xiàn)能力遠(yuǎn)超單一技能的簡(jiǎn)單疊加。
這種協(xié)同效應(yīng)在標(biāo)準(zhǔn)推理基準(zhǔn)測(cè)試中得到了進(jìn)一步驗(yàn)證。多游戲訓(xùn)練將Qwen3-4B模型的平均表現(xiàn)從33.1%提升到42.3%,提升幅度達(dá)到9.2個(gè)百分點(diǎn)。更令人印象深刻的是,即使對(duì)于已經(jīng)表現(xiàn)優(yōu)異的強(qiáng)推理模型DeepSeek-R1-Distill-Qwen-7B,多游戲訓(xùn)練仍然能夠帶來(lái)從59.7%到61.7%的2.0個(gè)百分點(diǎn)提升,證明游戲訓(xùn)練教授的認(rèn)知技能即使對(duì)已經(jīng)擅長(zhǎng)數(shù)學(xué)推理的模型也具有互補(bǔ)價(jià)值。
**五、技術(shù)創(chuàng)新的關(guān)鍵支撐**
整個(gè)研究的成功離不開一項(xiàng)關(guān)鍵的技術(shù)創(chuàng)新:角色條件優(yōu)勢(shì)估計(jì)(RAE)。這項(xiàng)技術(shù)解決了多智能體自對(duì)弈訓(xùn)練中的一個(gè)根本性挑戰(zhàn)——高方差梯度導(dǎo)致的訓(xùn)練不穩(wěn)定。
傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法在多智能體設(shè)置中面臨嚴(yán)重的方差問(wèn)題,特別是當(dāng)兩個(gè)玩家共享同一個(gè)策略網(wǎng)絡(luò)時(shí)。即使在共享策略的情況下,不同角色可能因?yàn)橛螒虿粚?duì)稱性(如井字棋的先手優(yōu)勢(shì)、Kuhn Poker的信息不對(duì)稱)而具有不同的期望回報(bào)。RAE通過(guò)為每個(gè)游戲和角色維護(hù)獨(dú)立的基線來(lái)解決這個(gè)問(wèn)題,使用指數(shù)移動(dòng)平均來(lái)估計(jì)每個(gè)角色在特定游戲中的期望回報(bào)。
這種看似簡(jiǎn)單的改進(jìn)產(chǎn)生了巨大的影響。沒有RAE的訓(xùn)練會(huì)導(dǎo)致災(zāi)難性的"思維崩潰"現(xiàn)象:模型在200步訓(xùn)練后開始截?cái)嗤评磉^(guò)程,生成空洞的推理軌跡如"下注"。這種崩潰伴隨著梯度范數(shù)的不穩(wěn)定,先是出現(xiàn)高初值和峰值,然后在200步后崩潰至接近零,表明模型已收斂到退化策略。
相比之下,使用RAE的訓(xùn)練始終維持穩(wěn)定的梯度范數(shù)(約0.1),確保持續(xù)學(xué)習(xí)。更重要的是,RAE防止了推理放棄行為,維持了對(duì)泛化至關(guān)重要的實(shí)質(zhì)性推理。實(shí)驗(yàn)清楚地顯示,沒有RAE的模型學(xué)會(huì)了單純玩游戲但放棄了鏈?zhǔn)剿季S,導(dǎo)致泛化失敗。數(shù)學(xué)推理性能從35%暴跌至12%(相對(duì)下降66%),通用推理從44%下降至40%。
**六、實(shí)驗(yàn)驗(yàn)證的全面性**
研究團(tuán)隊(duì)的實(shí)驗(yàn)設(shè)計(jì)展現(xiàn)了令人敬佩的全面性和嚴(yán)謹(jǐn)性。他們不滿足于單一維度的驗(yàn)證,而是從多個(gè)角度確保發(fā)現(xiàn)的可靠性。
在游戲外泛化測(cè)試中,他們精心選擇了七款未見過(guò)的游戲來(lái)測(cè)試學(xué)習(xí)技能的遷移。貪吃蛇和四子棋測(cè)試空間推理,豬骰子和騙子骰子測(cè)試概率推理,真相與欺騙測(cè)試策略優(yōu)化。這些游戲?qū)iT探測(cè)從井字棋、Kuhn Poker和簡(jiǎn)單談判中學(xué)到的空間推理、概率推理和策略優(yōu)化是否能遷移到新的游戲機(jī)制。
在標(biāo)準(zhǔn)推理基準(zhǔn)測(cè)試中,他們使用了廣泛的數(shù)學(xué)和通用推理評(píng)估套件。數(shù)學(xué)推理涵蓋MATH500、AIME24、AIME25、OlympiadBench、AMC-23和Minerva Math等數(shù)據(jù)集,覆蓋從基礎(chǔ)數(shù)學(xué)到競(jìng)賽級(jí)難題的各個(gè)層次。通用推理則使用GPQA(研究生級(jí)科學(xué)問(wèn)題)和MMLU-Pro(多學(xué)科知識(shí)基準(zhǔn))進(jìn)行評(píng)估。所有評(píng)估都采用零樣本設(shè)置,確保游戲誘導(dǎo)的推理能夠成功遷移到通用問(wèn)題解決中。
更為重要的是,他們通過(guò)大規(guī)模的推理模式分析來(lái)理解遷移機(jī)制。使用GPT-4.1作為評(píng)判器,他們分析了290個(gè)游戲軌跡和46,792個(gè)數(shù)學(xué)問(wèn)題解答中的推理軌跡,將推理策略分類為三種核心模式。通過(guò)跟蹤這些模式在訓(xùn)練檢查點(diǎn)(早期:步驟0,中期:步驟128,后期:步驟400)的演變,他們測(cè)量了從游戲到數(shù)學(xué)領(lǐng)域的遷移率。
實(shí)驗(yàn)結(jié)果的一致性令人信服。SPIRAL訓(xùn)練僅在Kuhn Poker上就在數(shù)學(xué)推理(MATH500提升10.6%,AIME'25提升6.7%,AMC-23提升7.5%)和通用推理(GPQA提升6.4%,MMLU-Pro提升10.5%)方面實(shí)現(xiàn)了一致的提升。特別值得注意的是,SPIRAL實(shí)現(xiàn)了這些收益,盡管在整個(gè)訓(xùn)練過(guò)程中從未見過(guò)單一的數(shù)學(xué)方程、學(xué)術(shù)問(wèn)題或領(lǐng)域特定的訓(xùn)練示例。Minerva Math上18.1%的提升和數(shù)學(xué)基準(zhǔn)平均8.7%的收益證明,競(jìng)爭(zhēng)游戲環(huán)境成功地促使發(fā)現(xiàn)了在各個(gè)領(lǐng)域廣泛遷移的推理模式。
**七、研究意義與未來(lái)展望**
這項(xiàng)研究的意義遠(yuǎn)超其技術(shù)貢獻(xiàn)本身,它揭示了一個(gè)關(guān)于智能本質(zhì)的深刻洞察:復(fù)雜的推理能力可能不是來(lái)自精密的監(jiān)督,而是來(lái)自迫使模型思考的環(huán)境挑戰(zhàn)。
從實(shí)用角度來(lái)看,SPIRAL為AI訓(xùn)練提供了一條全新的道路。傳統(tǒng)方法需要專家設(shè)計(jì)復(fù)雜的獎(jiǎng)勵(lì)函數(shù)、策劃訓(xùn)練問(wèn)題并驗(yàn)證推理軌跡,每個(gè)新的推理領(lǐng)域都需要專家來(lái)設(shè)計(jì)評(píng)估指標(biāo)、策劃訓(xùn)練問(wèn)題并驗(yàn)證推理軌跡。這種手工過(guò)程隨著我們追求更通用的智能而變得越來(lái)越不可持續(xù),限制了模型能夠?qū)W習(xí)的推理挑戰(zhàn)的規(guī)模和多樣性。SPIRAL通過(guò)游戲動(dòng)態(tài)單獨(dú)生成無(wú)限訓(xùn)練數(shù)據(jù),消除了對(duì)人工策劃問(wèn)題-答案對(duì)的依賴。
從理論角度來(lái)看,這項(xiàng)研究支持了一個(gè)重要觀點(diǎn):智能的涌現(xiàn)可能不需要復(fù)雜的架構(gòu)設(shè)計(jì),而需要合適的環(huán)境壓力。競(jìng)爭(zhēng)壓力剝奪了記憶,因?yàn)樽詫?duì)弈對(duì)手不斷演進(jìn),迫使模型發(fā)展真正的推理而非模式匹配。游戲隔離了純推理,沒有領(lǐng)域復(fù)雜性,游戲教授了有效泛化的基本認(rèn)知操作(枚舉、評(píng)估、綜合)。在游戲中學(xué)到的結(jié)構(gòu)化輸出格式為模型重用數(shù)學(xué)問(wèn)題提供了推理腳手架。
當(dāng)然,研究也存在一些局限性。雖然消除了人工策劃的問(wèn)題,但SPIRAL仍然需要設(shè)計(jì)游戲環(huán)境。實(shí)驗(yàn)使用簡(jiǎn)單游戲(井字棋、Kuhn Poker、簡(jiǎn)單談判),擴(kuò)展到復(fù)雜環(huán)境仍有待探索。計(jì)算要求相當(dāng)大(每個(gè)實(shí)驗(yàn)需要8個(gè)H100 GPU運(yùn)行25小時(shí))。性能在延長(zhǎng)訓(xùn)練后趨于平穩(wěn),評(píng)估重點(diǎn)關(guān)注學(xué)術(shù)基準(zhǔn)而非需要常識(shí)或倫理判斷的現(xiàn)實(shí)推理任務(wù)。
盡管如此,這項(xiàng)工作開啟了幾個(gè)激動(dòng)人心的研究方向。擴(kuò)展到合作游戲、納入部分可觀察性、設(shè)計(jì)針對(duì)特定推理弱點(diǎn)的游戲都是值得探索的領(lǐng)域。理解為什么某些游戲發(fā)展特定技能可能實(shí)現(xiàn)有原則的環(huán)境設(shè)計(jì)。研究團(tuán)隊(duì)甚至設(shè)想了自我改進(jìn)智能體生態(tài)系統(tǒng),生成越來(lái)越復(fù)雜的挑戰(zhàn),創(chuàng)造超越人類監(jiān)督的自主推理發(fā)展。
說(shuō)到底,SPIRAL證明了簡(jiǎn)單游戲可以解鎖復(fù)雜推理,而無(wú)需領(lǐng)域特定數(shù)據(jù)。通過(guò)利用競(jìng)爭(zhēng)壓力,研究團(tuán)隊(duì)創(chuàng)造了發(fā)現(xiàn)自己課程并持續(xù)改進(jìn)的系統(tǒng)。從游戲到數(shù)學(xué)的遷移表明,智能的涌現(xiàn)可能不是來(lái)自精密的監(jiān)督,而是來(lái)自迫使模型思考的環(huán)境挑戰(zhàn)。這種范式轉(zhuǎn)換指向了AI系統(tǒng)自主推動(dòng)推理邊界并通過(guò)自對(duì)弈持續(xù)演進(jìn)的未來(lái)。
當(dāng)我們站在AI發(fā)展的十字路口時(shí),SPIRAL提醒我們,有時(shí)候最簡(jiǎn)單的想法——讓AI通過(guò)游戲?qū)W習(xí)——可能蘊(yùn)含著最深刻的洞察。正如人類通過(guò)游戲?qū)W會(huì)了策略思維和問(wèn)題解決,AI也許能夠通過(guò)同樣的方式發(fā)展出真正的智能。這不僅是技術(shù)的進(jìn)步,更是我們對(duì)智能本質(zhì)理解的一次重要飛躍。
Q&A
Q1:SPIRAL是什么?它能做什么? A:SPIRAL是新加坡國(guó)立大學(xué)開發(fā)的AI訓(xùn)練框架,通過(guò)讓AI與自己的復(fù)制版本玩零和游戲來(lái)提升推理能力。它的核心能力是無(wú)需任何數(shù)學(xué)題目訓(xùn)練,僅通過(guò)游戲就能讓AI在數(shù)學(xué)和通用推理測(cè)試中提升8%以上的表現(xiàn)。
Q2:為什么玩游戲能提升AI的數(shù)學(xué)推理能力? A:研究發(fā)現(xiàn)游戲訓(xùn)練能培養(yǎng)三種核心推理模式:系統(tǒng)性分解、期望值計(jì)算和逐案分析。這些模式能完美轉(zhuǎn)移到數(shù)學(xué)問(wèn)題求解中。競(jìng)爭(zhēng)壓力迫使AI發(fā)展真正的推理能力而非簡(jiǎn)單記憶,就像人類通過(guò)下棋學(xué)會(huì)策略思維一樣。
Q3:這項(xiàng)技術(shù)會(huì)不會(huì)改變AI訓(xùn)練方式? A:很可能會(huì)。傳統(tǒng)AI訓(xùn)練需要專家設(shè)計(jì)大量題目和標(biāo)準(zhǔn)答案,成本高昂。SPIRAL通過(guò)自對(duì)弈游戲自動(dòng)生成無(wú)限訓(xùn)練數(shù)據(jù),大大降低了訓(xùn)練成本。雖然目前仍需要設(shè)計(jì)游戲環(huán)境,但已經(jīng)展現(xiàn)出替代傳統(tǒng)監(jiān)督學(xué)習(xí)的巨大潛力。
好文章,需要你的鼓勵(lì)
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過(guò)融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問(wèn)題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無(wú)法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過(guò)動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。
保加利亞研究團(tuán)隊(duì)通過(guò)創(chuàng)新的雙語(yǔ)訓(xùn)練方法,成功讓AI模型學(xué)會(huì)了在非英語(yǔ)環(huán)境下使用外部工具。他們開發(fā)的TUCAN模型在保加利亞語(yǔ)功能調(diào)用任務(wù)上實(shí)現(xiàn)了顯著提升,小模型改進(jìn)幅度達(dá)28.75%。更重要的是,團(tuán)隊(duì)開源了完整的方法論,為全球多語(yǔ)言AI工具使用能力的發(fā)展提供了可復(fù)制的解決方案。