在人工智能快速發(fā)展的今天,大型推理模型(Large Reasoning Models,簡(jiǎn)稱LRMs)越來越受到關(guān)注。這項(xiàng)由上海交通大學(xué)和加州大學(xué)圣地亞哥分校的研究團(tuán)隊(duì)聯(lián)合完成的研究于2025年5月26日發(fā)布在arXiv預(yù)印本平臺(tái)上(arXiv:2505.19788v1)。研究的主要作者包括曾子豪、黃旭耀、李博修、張浩和鄧志杰,他們提出了一個(gè)名為"多輪分解"(Multi-Turn Decomposition,簡(jiǎn)稱MinD)的創(chuàng)新方法,旨在解決當(dāng)前大型推理模型在生成答案過程中效率低下的問題。
想象一下,你請(qǐng)一位朋友幫你解決一道數(shù)學(xué)題。這位朋友思考了很久,反復(fù)檢查,考慮了各種可能的解法,最后才給你答案。雖然答案可能是正確的,但等待的過程確實(shí)讓人心急。現(xiàn)在的大型推理模型就像這樣——它們?cè)诮o出答案之前,會(huì)進(jìn)行漫長(zhǎng)的思考過程,這被稱為"思維鏈"(Chain-of-Thought,簡(jiǎn)稱CoT)。這種思維鏈往往冗長(zhǎng)而復(fù)雜,導(dǎo)致模型生成第一個(gè)答案標(biāo)記的時(shí)間(首個(gè)標(biāo)記延遲,Time to First Token,簡(jiǎn)稱TTFT)以及總體響應(yīng)時(shí)間大大增加。
研究團(tuán)隊(duì)發(fā)現(xiàn),這些冗長(zhǎng)的思維鏈中實(shí)際包含了多個(gè)"思考單元"(thinking units),有些單元以"等等"、"等一下"或"另外"等標(biāo)記詞分隔開。每個(gè)單元都試圖為原始問題生成一個(gè)候選答案。因此,一個(gè)自然的提升效率的方法就是減少這些單元的數(shù)量。但在傳統(tǒng)的CoT中,這些思考單元無法被明確管理,這使得優(yōu)化變得困難。
研究團(tuán)隊(duì)提出的MinD方法巧妙地將傳統(tǒng)CoT解碼為一系列明確、結(jié)構(gòu)化、輪次式的交互,從而解決了這一問題。在MinD中,模型對(duì)查詢提供多輪回應(yīng),每輪包含一個(gè)思考單元和相應(yīng)的答案。后續(xù)輪次可以對(duì)前面輪次的思考和答案部分進(jìn)行反思、驗(yàn)證、修改或探索替代方法。這不僅使答案能夠更快地傳遞,還可以對(duì)迭代推理過程進(jìn)行明確控制(即用戶可以在任何輪次選擇停止或繼續(xù))。
為了實(shí)現(xiàn)MinD,研究團(tuán)隊(duì)采用了先監(jiān)督微調(diào)(Supervised Fine-Tuning,簡(jiǎn)稱SFT)然后進(jìn)行強(qiáng)化學(xué)習(xí)(Reinforcement Learning,簡(jiǎn)稱RL)的范式。他們首先通過提示另一個(gè)大語言模型將LRM的輸出重新表述為多輪格式,然后用這些數(shù)據(jù)對(duì)LRM進(jìn)行微調(diào)。研究者發(fā)現(xiàn),微調(diào)后的模型往往比原始模型消耗更多標(biāo)記(可能是因?yàn)槎噍喐袷揭肓祟~外的答案標(biāo)記),因此他們建議利用GRPO(Group Relative Policy Optimization)等RL算法優(yōu)先考慮使用更少輪次生成正確輸出。
在MATH數(shù)據(jù)集上使用R1-Distill模型訓(xùn)練的MinD能夠在保持競(jìng)爭(zhēng)性能的同時(shí),實(shí)現(xiàn)輸出標(biāo)記使用量和首個(gè)標(biāo)記延遲(TTFT)最高減少約70%。這一成果在MATH-500、AIME24、AMC23和GPQA-Diamond等推理基準(zhǔn)測(cè)試中都得到了驗(yàn)證。
讓我們深入了解這項(xiàng)研究的細(xì)節(jié),看看MinD是如何實(shí)現(xiàn)"完成比完美更重要"這一理念的。
一、大型推理模型的效率挑戰(zhàn)
大型推理模型(LRMs)如OpenAI-o1、DeepSeek-R1和Kimi-1.5等,因其強(qiáng)大的推理能力而備受關(guān)注。這些模型采用"先思考后回答"的范式,在生成最終答案前先產(chǎn)生中間推理鏈。這種思維鏈(CoT)通過對(duì)潛在解決方案的迭代探索和驗(yàn)證,激活了上下文準(zhǔn)確的響應(yīng)。
然而,這些優(yōu)勢(shì)伴隨著顯著的效率問題。與普通大語言模型相比,LRMs的CoT往往過于冗長(zhǎng),導(dǎo)致計(jì)算成本和延遲大幅增加。想象一下,如果你向朋友請(qǐng)教一個(gè)簡(jiǎn)單問題,但他花了20分鐘仔細(xì)思考每個(gè)可能的答案,反復(fù)檢查,最終才給你一個(gè)答案——即使答案是正確的,等待過程也會(huì)讓人感到沮喪。
研究人員發(fā)現(xiàn),LRMs的CoT推理過程通常由多個(gè)思考單元組成——這些單元是離散的認(rèn)知步驟,如初始嘗試、后續(xù)驗(yàn)證、反思和策略轉(zhuǎn)變。每個(gè)單元都可能產(chǎn)生一個(gè)候選答案,而當(dāng)前的LRMs往往使用冗余單元來確保最終答案盡可能"完美"。
為了直觀理解這個(gè)問題,研究團(tuán)隊(duì)對(duì)DeepSeek-R1-Distill-Qwen-1.5B/7B模型進(jìn)行了詳細(xì)分析。他們從MATH和GSM8K訓(xùn)練集中提取CoT軌跡,并使用GPT-4o將每個(gè)軌跡分割成離散的思考單元。對(duì)于每個(gè)分割后的軌跡,他們構(gòu)建了前綴子軌跡,并讓模型為每個(gè)前綴生成中間答案。
研究團(tuán)隊(duì)定義了"單元級(jí)冗余率"(Unit-level Redundancy Rate,簡(jiǎn)稱URR)來量化冗余程度。具體來說,URR=(n-n*)/n,其中n是思考單元的總數(shù),n*是產(chǎn)生正確最終答案所需的最小單元數(shù)。一個(gè)更高的URR表示更大比例的推理步驟是不必要的。
分析結(jié)果令人驚訝:1.5B模型的平均單元級(jí)冗余率高達(dá)69.8%,7B模型為35.8%。這意味著當(dāng)前LRMs的推理過程中有相當(dāng)大一部分是冗余的,突顯了通過明確減少單元級(jí)冗余來提高推理效率的巨大潛力。
這就像一個(gè)學(xué)生解數(shù)學(xué)題時(shí),已經(jīng)找到了正確答案,卻仍然嘗試多種不同方法,反復(fù)驗(yàn)證,最終耗費(fèi)了大量不必要的時(shí)間和精力。MinD的核心理念就是——完成比完美更重要,讓模型盡快得出候選答案,而不是過于謹(jǐn)慎地追求完美解答。
二、多輪分解:從思考鏈到結(jié)構(gòu)化對(duì)話
MinD的核心創(chuàng)新在于將傳統(tǒng)的"思考然后回答"的CoT推理轉(zhuǎn)變?yōu)橐幌盗卸噍喗换?,從而?shí)現(xiàn)對(duì)思考單元數(shù)量的明確控制。這就像將一個(gè)長(zhǎng)篇獨(dú)白轉(zhuǎn)變?yōu)橐粋€(gè)結(jié)構(gòu)化的對(duì)話,每輪對(duì)話都包含一個(gè)完整的思考-回答對(duì)。
在傳統(tǒng)的CoT中,LRM的輸出形式通常是: ``` 問題 → 輸出 = 思考過程 答案 ```
這種格式中,思考過程混合了多個(gè)思考單元,但這些單元之間的邊界并不明確,難以管理和控制。
相比之下,MinD將輸出重新格式化為: ``` 單元1 答案1 單元2 答案2 ... 單元n 答案n ```
在這種多輪格式中,原始CoT中的思考單元被分布到一系列推理輪次中。每個(gè)輪次包含一個(gè)思考單元和一個(gè)中間答案。后續(xù)輪次可以對(duì)前面輪次的思考和答案進(jìn)行反思、驗(yàn)證、修改或探索替代方法。
為了構(gòu)建多輪SFT的訓(xùn)練數(shù)據(jù),研究團(tuán)隊(duì)首先將原始思考過程分割成(單元1, 單元2, ..., 單元n),然后在每個(gè)單元后生成一個(gè)中間答案。這個(gè)過程通過一個(gè)精心設(shè)計(jì)的管道實(shí)現(xiàn),包括四個(gè)步驟: 1. 篩選出具有正確最終答案的響應(yīng) 2. 使用GPT-4o將CoT分割成離散的推理單元 3. 為每個(gè)前綴子軌跡提取答案 4. 使用SFT將LRMs與多輪格式對(duì)齊
訓(xùn)練后,學(xué)習(xí)到的多輪LRM可以靈活管理思考單元,但研究者發(fā)現(xiàn),如果不進(jìn)行控制,模型往往會(huì)生成比原始模型更多的輸出標(biāo)記。這是因?yàn)镾FT主要重塑了推理格式,而沒有直接解決單元級(jí)冗余問題,而且答案也會(huì)導(dǎo)致進(jìn)一步的標(biāo)記使用。為了彌補(bǔ)這一差距,研究團(tuán)隊(duì)建議利用GRPO來優(yōu)先考慮高效的推理軌跡。
三、強(qiáng)化學(xué)習(xí)優(yōu)化:讓模型學(xué)會(huì)"適可而止"
為了解決SFT后模型可能產(chǎn)生更多標(biāo)記的問題,研究團(tuán)隊(duì)引入了GRPO(Group Relative Policy Optimization)來鼓勵(lì)模型生成更簡(jiǎn)潔的推理過程。GRPO是一種強(qiáng)化學(xué)習(xí)算法,通過獎(jiǎng)勵(lì)更簡(jiǎn)潔、更有效的輸出來優(yōu)化模型行為。
研究團(tuán)隊(duì)為GRPO定義了一個(gè)由三個(gè)組件組成的獎(jiǎng)勵(lì)函數(shù): 1. 格式一致性獎(jiǎng)勵(lì)(Rformat):確保生成的輸出遵循多輪結(jié)構(gòu) 2. 答案準(zhǔn)確性獎(jiǎng)勵(lì)(Raccuracy):根據(jù)最終答案是否正確來獎(jiǎng)勵(lì)模型 3. 單元緊湊性獎(jiǎng)勵(lì)(Runit):懲罰包含多個(gè)探索軌跡的單個(gè)推理單元,鼓勵(lì)推理單元之間的清晰分離
值得注意的是,研究團(tuán)隊(duì)沒有引入顯式獎(jiǎng)勵(lì)項(xiàng)來限制輪次數(shù)量,因?yàn)镚RPO本身就會(huì)引入一種隱式偏好,傾向于生成產(chǎn)生正確答案的更短CoT。具體來說,對(duì)于固定的優(yōu)勢(shì)值,GRPO中的每標(biāo)記歸一化會(huì)導(dǎo)致更短輸出的每標(biāo)記更新更大,從而鼓勵(lì)模型生成更簡(jiǎn)潔、更高效的輸出。
這種策略就像教導(dǎo)一個(gè)學(xué)生:不必追求完美的解答過程,只要能夠正確解決問題即可。學(xué)生逐漸學(xué)會(huì)了如何在保證答案正確的同時(shí),避免不必要的冗長(zhǎng)推理。
四、實(shí)驗(yàn)設(shè)置與評(píng)估方法
研究團(tuán)隊(duì)使用DeepSeek-R1-Distill-Qwen-1.5B/7B模型進(jìn)行實(shí)驗(yàn)。訓(xùn)練過程包含兩個(gè)關(guān)鍵階段: 1. 監(jiān)督微調(diào)(SFT)階段:使用LLaMA-Factory代碼庫(kù),進(jìn)行2個(gè)epoch的全參數(shù)微調(diào),學(xué)習(xí)率為5e-5。 2. GRPO階段:使用veRL代碼庫(kù),訓(xùn)練1個(gè)epoch,actor學(xué)習(xí)率為1e-6。每個(gè)訓(xùn)練步驟為每個(gè)樣本生成10個(gè)展開完成。
研究團(tuán)隊(duì)使用來自GSM8K和MATH訓(xùn)練集的問題作為SFT訓(xùn)練數(shù)據(jù),通過拒絕采樣保留只有正確答案的模型生成響應(yīng)。對(duì)于GRPO,他們專門使用MATH訓(xùn)練集。
為了評(píng)估MinD的效率,研究團(tuán)隊(duì)將其與以下基線進(jìn)行比較: 1. 原始LRM:本研究中使用的基礎(chǔ)模型,即DeepSeek-R1-Distill-Qwen-1.5B和7B。 2. ThinkPrune:在GRPO獎(jiǎng)勵(lì)中添加長(zhǎng)度裁剪,在標(biāo)記級(jí)別逐漸修剪輸出以減少響應(yīng)長(zhǎng)度。 3. DEER:一種無需訓(xùn)練的方法,檢測(cè)"動(dòng)作轉(zhuǎn)換點(diǎn)"(如"等等"、"另外"、"嗯")以觸發(fā)答案生成,當(dāng)平均標(biāo)記概率超過置信度閾值時(shí)停止解碼。 4. Dynasor:定期插入探針(如每32、64或128個(gè)標(biāo)記)以提取中間答案并評(píng)估它們的一致性,從而實(shí)現(xiàn)生成的提前終止。
研究團(tuán)隊(duì)使用三個(gè)主要指標(biāo)評(píng)估MinD:準(zhǔn)確率、平均輸出標(biāo)記使用量和首個(gè)標(biāo)記延遲(TTFT)。TTFT衡量從發(fā)送提示到模型生成響應(yīng)的第一個(gè)答案標(biāo)記所需的時(shí)間——這是用戶體驗(yàn)的關(guān)鍵決定因素。評(píng)估使用Open-R1評(píng)估腳本進(jìn)行,最大序列長(zhǎng)度為32,768個(gè)標(biāo)記,溫度設(shè)置為0.6,top-p值為0.95,在四個(gè)NVIDIA A100 GPU上運(yùn)行。
五、實(shí)驗(yàn)結(jié)果:高效推理的突破
研究團(tuán)隊(duì)在多個(gè)推理基準(zhǔn)測(cè)試上評(píng)估了MinD的標(biāo)記效率。結(jié)果表明,MinD在保持強(qiáng)大性能的同時(shí),顯著減少了輸出標(biāo)記使用量。
在MATH-500(領(lǐng)域內(nèi))基準(zhǔn)測(cè)試上,MinD將1.5B模型的平均標(biāo)記使用量降至1719個(gè)——比原始LRM(5389個(gè)標(biāo)記)減少了68%——同時(shí)保持82.8%的準(zhǔn)確率。雖然ThinkPrune達(dá)到了類似的準(zhǔn)確率(83.2%),但它需要更多的標(biāo)記(1938個(gè))。DEER實(shí)現(xiàn)了最低的標(biāo)記使用量(1118個(gè)),但準(zhǔn)確率大幅下降至73.2%。對(duì)于7B模型,MinD將平均標(biāo)記使用量減少27%(2859 vs. 3928),準(zhǔn)確率高達(dá)91.6%,在準(zhǔn)確率和效率的平衡方面優(yōu)于Dynasor和DEER。
MinD的效率在領(lǐng)域外基準(zhǔn)測(cè)試上也表現(xiàn)良好。例如,在AMC23(1.5B)上,MinD達(dá)到了77.5%的準(zhǔn)確率,僅使用2384個(gè)標(biāo)記,在準(zhǔn)確率和標(biāo)記減少方面都明顯優(yōu)于ThinkPrune和DEER。在AIME24和GPQA-Diamond上也觀察到類似的趨勢(shì)。這些結(jié)果表明,MinD有效地消除了不必要的推理步驟,產(chǎn)生簡(jiǎn)潔、高效的輸出,同時(shí)不影響性能。
除了減少標(biāo)記使用量,MinD還顯著降低了TTFT和總響應(yīng)延遲。對(duì)于1.5B配置,原始1.5B模型需要35.4s的TTFT,經(jīng)過SFT后降至21.8s,使用MinD進(jìn)一步降至8.4s,實(shí)現(xiàn)4.2倍的加速??傃舆t同樣從35.8s(原始)降至25.8s(SFT)和11.3s(MinD),改進(jìn)了2.1倍。對(duì)于7B模型,TTFT從27.8s(原始)降至21.6s(SFT)和13.2s(MinD),實(shí)現(xiàn)2.1倍的加速??傃舆t從30.5s降至25.3s和18.9s,提高了1.6倍。這些結(jié)果表明,MinD縮短了首個(gè)答案標(biāo)記的時(shí)間和整體響應(yīng)延遲,使模型響應(yīng)更快。
六、深入分析與消融實(shí)驗(yàn)
為了更好地理解MinD的有效性,研究團(tuán)隊(duì)進(jìn)行了幾項(xiàng)消融實(shí)驗(yàn)和深入分析。
首先,他們比較了僅進(jìn)行SFT和完整MinD流程的性能。結(jié)果顯示,僅進(jìn)行SFT的訓(xùn)練往往會(huì)增加相對(duì)于原始LRM的平均輸出標(biāo)記使用量。相比之下,應(yīng)用GRPO進(jìn)一步導(dǎo)致標(biāo)記使用量大幅減少,同時(shí)保持準(zhǔn)確率,突顯了GRPO在實(shí)現(xiàn)簡(jiǎn)潔有效推理中的關(guān)鍵作用。
其次,研究團(tuán)隊(duì)分析了Runit(單元緊湊性獎(jiǎng)勵(lì))在維持多輪推理中的作用。如第三節(jié)所述,GRPO框架引入了Runit來確保每個(gè)推理輪次只包含一個(gè)單一、連貫的探索軌跡。這種機(jī)制對(duì)于防止模型退化為原始單一塊狀思考然后回答風(fēng)格至關(guān)重要。沒有針對(duì)多軌跡輪次的特定懲罰,模型可能會(huì)跳過中間答案,將多輪推理結(jié)構(gòu)崩潰為單一塊狀CoT。為了對(duì)抗這種情況,Runit懲罰包含多個(gè)探索軌跡的推理輪次,鼓勵(lì)每個(gè)輪次只包含一個(gè)探索軌跡——特別是在關(guān)鍵的第一輪——從而在整個(gè)訓(xùn)練過程中維持多輪范式。Runit的影響通過實(shí)驗(yàn)得到證明,結(jié)果顯示其缺失會(huì)導(dǎo)致輸出結(jié)構(gòu)和長(zhǎng)度的崩潰。
此外,研究團(tuán)隊(duì)研究了GRPO在減少冗余方面的有效性。他們繪制了MATH-500數(shù)據(jù)集上SFT和GRPO模型的推理輪次分布圖。結(jié)果清楚地表明,GRPO顯著減少了推理輪次數(shù)量,表明與純SFT訓(xùn)練模型相比,推理過程更加緊湊和高效。GRPO在MATH-500上將1.5B模型的平均輸出標(biāo)記減少了68.1%,7B模型減少了27.2%,這與這些模型分別報(bào)告的69.8%和35.8%的冗余率相符。雖然這些數(shù)字不能直接等同,但它們共同表明MinD通過GRPO顯著減輕了冗余,產(chǎn)生更簡(jiǎn)潔、更高效的輸出。
最后,研究團(tuán)隊(duì)評(píng)估了多輪設(shè)計(jì)的重要性。他們使用原始蒸餾1.5B模型的響應(yīng)進(jìn)行SFT,但沒有應(yīng)用任何多輪分割,然后使用僅有格式和結(jié)果獎(jiǎng)勵(lì)的GRPO。結(jié)果顯示,非多輪模型在領(lǐng)域內(nèi)MATH-500上達(dá)到了與MinD相當(dāng)?shù)慕Y(jié)果,但在領(lǐng)域外基準(zhǔn)測(cè)試上表現(xiàn)出明顯的準(zhǔn)確率下降和標(biāo)記使用量減少幅度較小。研究團(tuán)隊(duì)假設(shè),在傳統(tǒng)CoT格式下,模型缺乏調(diào)整思考單元數(shù)量的靈活性,使得學(xué)習(xí)既可控又可泛化的推理過程變得困難。
七、"完成比完美更重要"的哲學(xué)
MinD方法的核心哲學(xué)是"完成比完美更重要"(Done Is Better than Perfect)。這一理念強(qiáng)調(diào)在推理過程中,能夠快速提供一個(gè)合理的答案,比經(jīng)過長(zhǎng)時(shí)間的思考后提供一個(gè)"完美"的答案更有價(jià)值。
傳統(tǒng)的LRMs往往過于謹(jǐn)慎,它們會(huì)花費(fèi)大量時(shí)間和計(jì)算資源來探索多種解決方案,反復(fù)驗(yàn)證,尋找最優(yōu)答案。這就像一個(gè)學(xué)生在解答考試題時(shí),反復(fù)檢查、考慮各種可能的解法,最終耗費(fèi)了大量時(shí)間卻沒有提高答案質(zhì)量。
MinD方法鼓勵(lì)模型采取更加實(shí)用的方法——"適可而止"。通過多輪分解,模型可以在每一輪后提供一個(gè)候選答案,并在必要時(shí)在后續(xù)輪次中改進(jìn)。這使得用戶可以更快地獲得初步答案,并決定是否需要進(jìn)一步的推理。
這種方法還使得模型的推理過程更加透明和可控。用戶可以看到每一輪思考的具體內(nèi)容和對(duì)應(yīng)的答案,而不是面對(duì)一個(gè)黑盒式的長(zhǎng)篇思考過程。這種透明度不僅提高了用戶體驗(yàn),還使模型的決策過程更加可解釋。
更重要的是,實(shí)驗(yàn)結(jié)果表明,這種"完成比完美更重要"的方法不僅提高了效率,還在保持準(zhǔn)確率的同時(shí),顯著減少了資源消耗。這表明,許多傳統(tǒng)LRMs中的冗余思考確實(shí)是不必要的,一個(gè)更加精簡(jiǎn)的推理過程足以產(chǎn)生同樣高質(zhì)量的答案。
八、結(jié)論與未來展望
本研究提出的MinD方法通過將傳統(tǒng)CoT重構(gòu)為多輪交互結(jié)構(gòu),成功解決了大型推理模型的效率問題。通過實(shí)驗(yàn)證明,MinD可以在保持強(qiáng)大性能的同時(shí),顯著減少標(biāo)記使用量和響應(yīng)延遲。
MinD的核心貢獻(xiàn)在于提供了一種靈活、高效的推理框架,使模型能夠在必要時(shí)提供快速響應(yīng),同時(shí)允許進(jìn)一步的推理和改進(jìn)。這種方法不僅提高了模型的實(shí)用性,還增強(qiáng)了用戶對(duì)推理過程的控制和理解。
研究團(tuán)隊(duì)承認(rèn),他們的工作僅限于在1.5B和7B模型上進(jìn)行實(shí)驗(yàn),并主要專注于數(shù)學(xué)推理。未來的研究方向包括擴(kuò)展到更大的模型、拓展到其他推理領(lǐng)域,以及開發(fā)能夠根據(jù)問題難度或用戶偏好調(diào)整輪次數(shù)量的自適應(yīng)多輪策略。
總的來說,MinD展示了一種有效平衡效率和性能的方法,為大型語言模型的推理優(yōu)化提供了新的思路。通過擁抱"完成比完美更重要"的理念,MinD為構(gòu)建更加實(shí)用、響應(yīng)更快的AI系統(tǒng)鋪平了道路。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對(duì)弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。