av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<s id="x8ori"></s>

<ol id="x8ori"></ol>

<del id="x8ori"><b id="x8ori"></b></del>

首頁(yè)
對(duì)話創(chuàng)新
對(duì)話科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見證連接與計(jì)算的「力量」

干掉完美主義：多輪分解如何讓大語言模型推理更高效

人工智能大型推理模型強(qiáng)化學(xué)習(xí)

干掉完美主義：多輪分解如何讓大語言模型推理更高效

作者：科技行者

2025-05-29 14:48

分享至：

這項(xiàng)研究提出了"多輪分解"(MinD)方法，將大型推理模型的冗長(zhǎng)思維鏈重構(gòu)為結(jié)構(gòu)化的多輪對(duì)話形式，每輪包含一個(gè)思考單元和一個(gè)答案。通過監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)相結(jié)合的訓(xùn)練策略，MinD在MATH等基準(zhǔn)測(cè)試上實(shí)現(xiàn)了高達(dá)70%的標(biāo)記使用量和首個(gè)標(biāo)記延遲(TTFT)降低，同時(shí)保持了競(jìng)爭(zhēng)性能。研究表明，傳統(tǒng)推理模型中存在大量冗余思考過程，而MinD通過"完成比完美更重要"的理念，使模型學(xué)會(huì)生成更簡(jiǎn)潔高效的推理過程。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-29 14:48 ? 科技行者

在人工智能快速發(fā)展的今天，大型推理模型（Large Reasoning Models，簡(jiǎn)稱LRMs）越來越受到關(guān)注。這項(xiàng)由上海交通大學(xué)和加州大學(xué)圣地亞哥分校的研究團(tuán)隊(duì)聯(lián)合完成的研究于2025年5月26日發(fā)布在arXiv預(yù)印本平臺(tái)上（arXiv:2505.19788v1）。研究的主要作者包括曾子豪、黃旭耀、李博修、張浩和鄧志杰，他們提出了一個(gè)名為"多輪分解"（Multi-Turn Decomposition，簡(jiǎn)稱MinD）的創(chuàng)新方法，旨在解決當(dāng)前大型推理模型在生成答案過程中效率低下的問題。

想象一下，你請(qǐng)一位朋友幫你解決一道數(shù)學(xué)題。這位朋友思考了很久，反復(fù)檢查，考慮了各種可能的解法，最后才給你答案。雖然答案可能是正確的，但等待的過程確實(shí)讓人心急。現(xiàn)在的大型推理模型就像這樣——它們?cè)诮o出答案之前，會(huì)進(jìn)行漫長(zhǎng)的思考過程，這被稱為"思維鏈"（Chain-of-Thought，簡(jiǎn)稱CoT）。這種思維鏈往往冗長(zhǎng)而復(fù)雜，導(dǎo)致模型生成第一個(gè)答案標(biāo)記的時(shí)間（首個(gè)標(biāo)記延遲，Time to First Token，簡(jiǎn)稱TTFT）以及總體響應(yīng)時(shí)間大大增加。

研究團(tuán)隊(duì)發(fā)現(xiàn)，這些冗長(zhǎng)的思維鏈中實(shí)際包含了多個(gè)"思考單元"（thinking units），有些單元以"等等"、"等一下"或"另外"等標(biāo)記詞分隔開。每個(gè)單元都試圖為原始問題生成一個(gè)候選答案。因此，一個(gè)自然的提升效率的方法就是減少這些單元的數(shù)量。但在傳統(tǒng)的CoT中，這些思考單元無法被明確管理，這使得優(yōu)化變得困難。

研究團(tuán)隊(duì)提出的MinD方法巧妙地將傳統(tǒng)CoT解碼為一系列明確、結(jié)構(gòu)化、輪次式的交互，從而解決了這一問題。在MinD中，模型對(duì)查詢提供多輪回應(yīng)，每輪包含一個(gè)思考單元和相應(yīng)的答案。后續(xù)輪次可以對(duì)前面輪次的思考和答案部分進(jìn)行反思、驗(yàn)證、修改或探索替代方法。這不僅使答案能夠更快地傳遞，還可以對(duì)迭代推理過程進(jìn)行明確控制（即用戶可以在任何輪次選擇停止或繼續(xù)）。

為了實(shí)現(xiàn)MinD，研究團(tuán)隊(duì)采用了先監(jiān)督微調(diào)（Supervised Fine-Tuning，簡(jiǎn)稱SFT）然后進(jìn)行強(qiáng)化學(xué)習(xí)（Reinforcement Learning，簡(jiǎn)稱RL）的范式。他們首先通過提示另一個(gè)大語言模型將LRM的輸出重新表述為多輪格式，然后用這些數(shù)據(jù)對(duì)LRM進(jìn)行微調(diào)。研究者發(fā)現(xiàn)，微調(diào)后的模型往往比原始模型消耗更多標(biāo)記（可能是因?yàn)槎噍喐袷揭肓祟~外的答案標(biāo)記），因此他們建議利用GRPO（Group Relative Policy Optimization）等RL算法優(yōu)先考慮使用更少輪次生成正確輸出。

在MATH數(shù)據(jù)集上使用R1-Distill模型訓(xùn)練的MinD能夠在保持競(jìng)爭(zhēng)性能的同時(shí)，實(shí)現(xiàn)輸出標(biāo)記使用量和首個(gè)標(biāo)記延遲（TTFT）最高減少約70%。這一成果在MATH-500、AIME24、AMC23和GPQA-Diamond等推理基準(zhǔn)測(cè)試中都得到了驗(yàn)證。

讓我們深入了解這項(xiàng)研究的細(xì)節(jié)，看看MinD是如何實(shí)現(xiàn)"完成比完美更重要"這一理念的。

一、大型推理模型的效率挑戰(zhàn)

大型推理模型（LRMs）如OpenAI-o1、DeepSeek-R1和Kimi-1.5等，因其強(qiáng)大的推理能力而備受關(guān)注。這些模型采用"先思考后回答"的范式，在生成最終答案前先產(chǎn)生中間推理鏈。這種思維鏈（CoT）通過對(duì)潛在解決方案的迭代探索和驗(yàn)證，激活了上下文準(zhǔn)確的響應(yīng)。

然而，這些優(yōu)勢(shì)伴隨著顯著的效率問題。與普通大語言模型相比，LRMs的CoT往往過于冗長(zhǎng)，導(dǎo)致計(jì)算成本和延遲大幅增加。想象一下，如果你向朋友請(qǐng)教一個(gè)簡(jiǎn)單問題，但他花了20分鐘仔細(xì)思考每個(gè)可能的答案，反復(fù)檢查，最終才給你一個(gè)答案——即使答案是正確的，等待過程也會(huì)讓人感到沮喪。

研究人員發(fā)現(xiàn)，LRMs的CoT推理過程通常由多個(gè)思考單元組成——這些單元是離散的認(rèn)知步驟，如初始嘗試、后續(xù)驗(yàn)證、反思和策略轉(zhuǎn)變。每個(gè)單元都可能產(chǎn)生一個(gè)候選答案，而當(dāng)前的LRMs往往使用冗余單元來確保最終答案盡可能"完美"。

為了直觀理解這個(gè)問題，研究團(tuán)隊(duì)對(duì)DeepSeek-R1-Distill-Qwen-1.5B/7B模型進(jìn)行了詳細(xì)分析。他們從MATH和GSM8K訓(xùn)練集中提取CoT軌跡，并使用GPT-4o將每個(gè)軌跡分割成離散的思考單元。對(duì)于每個(gè)分割后的軌跡，他們構(gòu)建了前綴子軌跡，并讓模型為每個(gè)前綴生成中間答案。

研究團(tuán)隊(duì)定義了"單元級(jí)冗余率"（Unit-level Redundancy Rate，簡(jiǎn)稱URR）來量化冗余程度。具體來說，URR=(n-n*)/n，其中n是思考單元的總數(shù)，n*是產(chǎn)生正確最終答案所需的最小單元數(shù)。一個(gè)更高的URR表示更大比例的推理步驟是不必要的。

分析結(jié)果令人驚訝：1.5B模型的平均單元級(jí)冗余率高達(dá)69.8%，7B模型為35.8%。這意味著當(dāng)前LRMs的推理過程中有相當(dāng)大一部分是冗余的，突顯了通過明確減少單元級(jí)冗余來提高推理效率的巨大潛力。

這就像一個(gè)學(xué)生解數(shù)學(xué)題時(shí)，已經(jīng)找到了正確答案，卻仍然嘗試多種不同方法，反復(fù)驗(yàn)證，最終耗費(fèi)了大量不必要的時(shí)間和精力。MinD的核心理念就是——完成比完美更重要，讓模型盡快得出候選答案，而不是過于謹(jǐn)慎地追求完美解答。

二、多輪分解：從思考鏈到結(jié)構(gòu)化對(duì)話

MinD的核心創(chuàng)新在于將傳統(tǒng)的"思考然后回答"的CoT推理轉(zhuǎn)變?yōu)橐幌盗卸噍喗换?，從而?shí)現(xiàn)對(duì)思考單元數(shù)量的明確控制。這就像將一個(gè)長(zhǎng)篇獨(dú)白轉(zhuǎn)變?yōu)橐粋€(gè)結(jié)構(gòu)化的對(duì)話，每輪對(duì)話都包含一個(gè)完整的思考-回答對(duì)。

在傳統(tǒng)的CoT中，LRM的輸出形式通常是： ``` 問題 → 輸出 = 思考過程答案 ```

這種格式中，思考過程混合了多個(gè)思考單元，但這些單元之間的邊界并不明確，難以管理和控制。

相比之下，MinD將輸出重新格式化為： ``` 單元1 答案1 單元2 答案2 ... 單元n 答案n ```

在這種多輪格式中，原始CoT中的思考單元被分布到一系列推理輪次中。每個(gè)輪次包含一個(gè)思考單元和一個(gè)中間答案。后續(xù)輪次可以對(duì)前面輪次的思考和答案進(jìn)行反思、驗(yàn)證、修改或探索替代方法。

為了構(gòu)建多輪SFT的訓(xùn)練數(shù)據(jù)，研究團(tuán)隊(duì)首先將原始思考過程分割成(單元1, 單元2, ..., 單元n)，然后在每個(gè)單元后生成一個(gè)中間答案。這個(gè)過程通過一個(gè)精心設(shè)計(jì)的管道實(shí)現(xiàn)，包括四個(gè)步驟： 1. 篩選出具有正確最終答案的響應(yīng) 2. 使用GPT-4o將CoT分割成離散的推理單元 3. 為每個(gè)前綴子軌跡提取答案 4. 使用SFT將LRMs與多輪格式對(duì)齊

訓(xùn)練后，學(xué)習(xí)到的多輪LRM可以靈活管理思考單元，但研究者發(fā)現(xiàn)，如果不進(jìn)行控制，模型往往會(huì)生成比原始模型更多的輸出標(biāo)記。這是因?yàn)镾FT主要重塑了推理格式，而沒有直接解決單元級(jí)冗余問題，而且答案也會(huì)導(dǎo)致進(jìn)一步的標(biāo)記使用。為了彌補(bǔ)這一差距，研究團(tuán)隊(duì)建議利用GRPO來優(yōu)先考慮高效的推理軌跡。

三、強(qiáng)化學(xué)習(xí)優(yōu)化：讓模型學(xué)會(huì)"適可而止"

為了解決SFT后模型可能產(chǎn)生更多標(biāo)記的問題，研究團(tuán)隊(duì)引入了GRPO（Group Relative Policy Optimization）來鼓勵(lì)模型生成更簡(jiǎn)潔的推理過程。GRPO是一種強(qiáng)化學(xué)習(xí)算法，通過獎(jiǎng)勵(lì)更簡(jiǎn)潔、更有效的輸出來優(yōu)化模型行為。

研究團(tuán)隊(duì)為GRPO定義了一個(gè)由三個(gè)組件組成的獎(jiǎng)勵(lì)函數(shù)： 1. 格式一致性獎(jiǎng)勵(lì)（Rformat）：確保生成的輸出遵循多輪結(jié)構(gòu) 2. 答案準(zhǔn)確性獎(jiǎng)勵(lì)（Raccuracy）：根據(jù)最終答案是否正確來獎(jiǎng)勵(lì)模型 3. 單元緊湊性獎(jiǎng)勵(lì)（Runit）：懲罰包含多個(gè)探索軌跡的單個(gè)推理單元，鼓勵(lì)推理單元之間的清晰分離

值得注意的是，研究團(tuán)隊(duì)沒有引入顯式獎(jiǎng)勵(lì)項(xiàng)來限制輪次數(shù)量，因?yàn)镚RPO本身就會(huì)引入一種隱式偏好，傾向于生成產(chǎn)生正確答案的更短CoT。具體來說，對(duì)于固定的優(yōu)勢(shì)值，GRPO中的每標(biāo)記歸一化會(huì)導(dǎo)致更短輸出的每標(biāo)記更新更大，從而鼓勵(lì)模型生成更簡(jiǎn)潔、更高效的輸出。

這種策略就像教導(dǎo)一個(gè)學(xué)生：不必追求完美的解答過程，只要能夠正確解決問題即可。學(xué)生逐漸學(xué)會(huì)了如何在保證答案正確的同時(shí)，避免不必要的冗長(zhǎng)推理。

四、實(shí)驗(yàn)設(shè)置與評(píng)估方法

研究團(tuán)隊(duì)使用DeepSeek-R1-Distill-Qwen-1.5B/7B模型進(jìn)行實(shí)驗(yàn)。訓(xùn)練過程包含兩個(gè)關(guān)鍵階段： 1. 監(jiān)督微調(diào)（SFT）階段：使用LLaMA-Factory代碼庫(kù)，進(jìn)行2個(gè)epoch的全參數(shù)微調(diào)，學(xué)習(xí)率為5e-5。 2. GRPO階段：使用veRL代碼庫(kù)，訓(xùn)練1個(gè)epoch，actor學(xué)習(xí)率為1e-6。每個(gè)訓(xùn)練步驟為每個(gè)樣本生成10個(gè)展開完成。

研究團(tuán)隊(duì)使用來自GSM8K和MATH訓(xùn)練集的問題作為SFT訓(xùn)練數(shù)據(jù)，通過拒絕采樣保留只有正確答案的模型生成響應(yīng)。對(duì)于GRPO，他們專門使用MATH訓(xùn)練集。

為了評(píng)估MinD的效率，研究團(tuán)隊(duì)將其與以下基線進(jìn)行比較： 1. 原始LRM：本研究中使用的基礎(chǔ)模型，即DeepSeek-R1-Distill-Qwen-1.5B和7B。 2. ThinkPrune：在GRPO獎(jiǎng)勵(lì)中添加長(zhǎng)度裁剪，在標(biāo)記級(jí)別逐漸修剪輸出以減少響應(yīng)長(zhǎng)度。 3. DEER：一種無需訓(xùn)練的方法，檢測(cè)"動(dòng)作轉(zhuǎn)換點(diǎn)"（如"等等"、"另外"、"嗯"）以觸發(fā)答案生成，當(dāng)平均標(biāo)記概率超過置信度閾值時(shí)停止解碼。 4. Dynasor：定期插入探針（如每32、64或128個(gè)標(biāo)記）以提取中間答案并評(píng)估它們的一致性，從而實(shí)現(xiàn)生成的提前終止。

研究團(tuán)隊(duì)使用三個(gè)主要指標(biāo)評(píng)估MinD：準(zhǔn)確率、平均輸出標(biāo)記使用量和首個(gè)標(biāo)記延遲（TTFT）。TTFT衡量從發(fā)送提示到模型生成響應(yīng)的第一個(gè)答案標(biāo)記所需的時(shí)間——這是用戶體驗(yàn)的關(guān)鍵決定因素。評(píng)估使用Open-R1評(píng)估腳本進(jìn)行，最大序列長(zhǎng)度為32,768個(gè)標(biāo)記，溫度設(shè)置為0.6，top-p值為0.95，在四個(gè)NVIDIA A100 GPU上運(yùn)行。

五、實(shí)驗(yàn)結(jié)果：高效推理的突破

研究團(tuán)隊(duì)在多個(gè)推理基準(zhǔn)測(cè)試上評(píng)估了MinD的標(biāo)記效率。結(jié)果表明，MinD在保持強(qiáng)大性能的同時(shí)，顯著減少了輸出標(biāo)記使用量。

在MATH-500（領(lǐng)域內(nèi)）基準(zhǔn)測(cè)試上，MinD將1.5B模型的平均標(biāo)記使用量降至1719個(gè)——比原始LRM（5389個(gè)標(biāo)記）減少了68%——同時(shí)保持82.8%的準(zhǔn)確率。雖然ThinkPrune達(dá)到了類似的準(zhǔn)確率（83.2%），但它需要更多的標(biāo)記（1938個(gè)）。DEER實(shí)現(xiàn)了最低的標(biāo)記使用量（1118個(gè)），但準(zhǔn)確率大幅下降至73.2%。對(duì)于7B模型，MinD將平均標(biāo)記使用量減少27%（2859 vs. 3928），準(zhǔn)確率高達(dá)91.6%，在準(zhǔn)確率和效率的平衡方面優(yōu)于Dynasor和DEER。

MinD的效率在領(lǐng)域外基準(zhǔn)測(cè)試上也表現(xiàn)良好。例如，在AMC23（1.5B）上，MinD達(dá)到了77.5%的準(zhǔn)確率，僅使用2384個(gè)標(biāo)記，在準(zhǔn)確率和標(biāo)記減少方面都明顯優(yōu)于ThinkPrune和DEER。在AIME24和GPQA-Diamond上也觀察到類似的趨勢(shì)。這些結(jié)果表明，MinD有效地消除了不必要的推理步驟，產(chǎn)生簡(jiǎn)潔、高效的輸出，同時(shí)不影響性能。

除了減少標(biāo)記使用量，MinD還顯著降低了TTFT和總響應(yīng)延遲。對(duì)于1.5B配置，原始1.5B模型需要35.4s的TTFT，經(jīng)過SFT后降至21.8s，使用MinD進(jìn)一步降至8.4s，實(shí)現(xiàn)4.2倍的加速?？傃舆t同樣從35.8s（原始）降至25.8s（SFT）和11.3s（MinD），改進(jìn)了2.1倍。對(duì)于7B模型，TTFT從27.8s（原始）降至21.6s（SFT）和13.2s（MinD），實(shí)現(xiàn)2.1倍的加速?？傃舆t從30.5s降至25.3s和18.9s，提高了1.6倍。這些結(jié)果表明，MinD縮短了首個(gè)答案標(biāo)記的時(shí)間和整體響應(yīng)延遲，使模型響應(yīng)更快。

六、深入分析與消融實(shí)驗(yàn)

為了更好地理解MinD的有效性，研究團(tuán)隊(duì)進(jìn)行了幾項(xiàng)消融實(shí)驗(yàn)和深入分析。

首先，他們比較了僅進(jìn)行SFT和完整MinD流程的性能。結(jié)果顯示，僅進(jìn)行SFT的訓(xùn)練往往會(huì)增加相對(duì)于原始LRM的平均輸出標(biāo)記使用量。相比之下，應(yīng)用GRPO進(jìn)一步導(dǎo)致標(biāo)記使用量大幅減少，同時(shí)保持準(zhǔn)確率，突顯了GRPO在實(shí)現(xiàn)簡(jiǎn)潔有效推理中的關(guān)鍵作用。

其次，研究團(tuán)隊(duì)分析了Runit（單元緊湊性獎(jiǎng)勵(lì)）在維持多輪推理中的作用。如第三節(jié)所述，GRPO框架引入了Runit來確保每個(gè)推理輪次只包含一個(gè)單一、連貫的探索軌跡。這種機(jī)制對(duì)于防止模型退化為原始單一塊狀思考然后回答風(fēng)格至關(guān)重要。沒有針對(duì)多軌跡輪次的特定懲罰，模型可能會(huì)跳過中間答案，將多輪推理結(jié)構(gòu)崩潰為單一塊狀CoT。為了對(duì)抗這種情況，Runit懲罰包含多個(gè)探索軌跡的推理輪次，鼓勵(lì)每個(gè)輪次只包含一個(gè)探索軌跡——特別是在關(guān)鍵的第一輪——從而在整個(gè)訓(xùn)練過程中維持多輪范式。Runit的影響通過實(shí)驗(yàn)得到證明，結(jié)果顯示其缺失會(huì)導(dǎo)致輸出結(jié)構(gòu)和長(zhǎng)度的崩潰。

此外，研究團(tuán)隊(duì)研究了GRPO在減少冗余方面的有效性。他們繪制了MATH-500數(shù)據(jù)集上SFT和GRPO模型的推理輪次分布圖。結(jié)果清楚地表明，GRPO顯著減少了推理輪次數(shù)量，表明與純SFT訓(xùn)練模型相比，推理過程更加緊湊和高效。GRPO在MATH-500上將1.5B模型的平均輸出標(biāo)記減少了68.1%，7B模型減少了27.2%，這與這些模型分別報(bào)告的69.8%和35.8%的冗余率相符。雖然這些數(shù)字不能直接等同，但它們共同表明MinD通過GRPO顯著減輕了冗余，產(chǎn)生更簡(jiǎn)潔、更高效的輸出。

最后，研究團(tuán)隊(duì)評(píng)估了多輪設(shè)計(jì)的重要性。他們使用原始蒸餾1.5B模型的響應(yīng)進(jìn)行SFT，但沒有應(yīng)用任何多輪分割，然后使用僅有格式和結(jié)果獎(jiǎng)勵(lì)的GRPO。結(jié)果顯示，非多輪模型在領(lǐng)域內(nèi)MATH-500上達(dá)到了與MinD相當(dāng)?shù)慕Y(jié)果，但在領(lǐng)域外基準(zhǔn)測(cè)試上表現(xiàn)出明顯的準(zhǔn)確率下降和標(biāo)記使用量減少幅度較小。研究團(tuán)隊(duì)假設(shè)，在傳統(tǒng)CoT格式下，模型缺乏調(diào)整思考單元數(shù)量的靈活性，使得學(xué)習(xí)既可控又可泛化的推理過程變得困難。

七、"完成比完美更重要"的哲學(xué)

MinD方法的核心哲學(xué)是"完成比完美更重要"（Done Is Better than Perfect）。這一理念強(qiáng)調(diào)在推理過程中，能夠快速提供一個(gè)合理的答案，比經(jīng)過長(zhǎng)時(shí)間的思考后提供一個(gè)"完美"的答案更有價(jià)值。

傳統(tǒng)的LRMs往往過于謹(jǐn)慎，它們會(huì)花費(fèi)大量時(shí)間和計(jì)算資源來探索多種解決方案，反復(fù)驗(yàn)證，尋找最優(yōu)答案。這就像一個(gè)學(xué)生在解答考試題時(shí)，反復(fù)檢查、考慮各種可能的解法，最終耗費(fèi)了大量時(shí)間卻沒有提高答案質(zhì)量。

MinD方法鼓勵(lì)模型采取更加實(shí)用的方法——"適可而止"。通過多輪分解，模型可以在每一輪后提供一個(gè)候選答案，并在必要時(shí)在后續(xù)輪次中改進(jìn)。這使得用戶可以更快地獲得初步答案，并決定是否需要進(jìn)一步的推理。

這種方法還使得模型的推理過程更加透明和可控。用戶可以看到每一輪思考的具體內(nèi)容和對(duì)應(yīng)的答案，而不是面對(duì)一個(gè)黑盒式的長(zhǎng)篇思考過程。這種透明度不僅提高了用戶體驗(yàn)，還使模型的決策過程更加可解釋。

更重要的是，實(shí)驗(yàn)結(jié)果表明，這種"完成比完美更重要"的方法不僅提高了效率，還在保持準(zhǔn)確率的同時(shí)，顯著減少了資源消耗。這表明，許多傳統(tǒng)LRMs中的冗余思考確實(shí)是不必要的，一個(gè)更加精簡(jiǎn)的推理過程足以產(chǎn)生同樣高質(zhì)量的答案。

八、結(jié)論與未來展望

本研究提出的MinD方法通過將傳統(tǒng)CoT重構(gòu)為多輪交互結(jié)構(gòu)，成功解決了大型推理模型的效率問題。通過實(shí)驗(yàn)證明，MinD可以在保持強(qiáng)大性能的同時(shí)，顯著減少標(biāo)記使用量和響應(yīng)延遲。

MinD的核心貢獻(xiàn)在于提供了一種靈活、高效的推理框架，使模型能夠在必要時(shí)提供快速響應(yīng)，同時(shí)允許進(jìn)一步的推理和改進(jìn)。這種方法不僅提高了模型的實(shí)用性，還增強(qiáng)了用戶對(duì)推理過程的控制和理解。

研究團(tuán)隊(duì)承認(rèn)，他們的工作僅限于在1.5B和7B模型上進(jìn)行實(shí)驗(yàn)，并主要專注于數(shù)學(xué)推理。未來的研究方向包括擴(kuò)展到更大的模型、拓展到其他推理領(lǐng)域，以及開發(fā)能夠根據(jù)問題難度或用戶偏好調(diào)整輪次數(shù)量的自適應(yīng)多輪策略。

總的來說，MinD展示了一種有效平衡效率和性能的方法，為大型語言模型的推理優(yōu)化提供了新的思路。通過擁抱"完成比完美更重要"的理念，MinD為構(gòu)建更加實(shí)用、響應(yīng)更快的AI系統(tǒng)鋪平了道路。

人工智能大型推理模型強(qiáng)化學(xué)習(xí)

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

自對(duì)弈訓(xùn)練
推理能力提升
零和游戲?qū)W習(xí)

2025-07-02 14:26

AI玩游戲能讓推理變聰明？新加坡國(guó)立大學(xué)發(fā)現(xiàn)自對(duì)弈訓(xùn)練的神奇效果

新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架，通過讓AI與自己對(duì)弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示，僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%，通用推理提升8.4%，且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中，為AI訓(xùn)練提供了新思路。
計(jì)算機(jī)視覺
圖像降噪
3D相機(jī)技術(shù)

2025-07-02 14:26

同濟(jì)大學(xué)突破性研究：讓3D相機(jī)告別"噪點(diǎn)困擾"的智能降噪新技術(shù)

同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息，創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系，結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法，在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升，并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力，為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
人工智能
視覺語言模型
強(qiáng)化學(xué)習(xí)

2025-07-02 14:26

AI視覺推理模型的"頓悟時(shí)刻"真的存在嗎？伊利諾伊大學(xué)研究揭示令人意外的真相

伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對(duì)比實(shí)驗(yàn)發(fā)現(xiàn)，經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象，但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距"，即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力，且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息，為AI多模態(tài)推理發(fā)展提供了重要啟示。
大語言模型
稀疏性訓(xùn)練
計(jì)算效率優(yōu)化

2025-07-02 14:25

MIT團(tuán)隊(duì)發(fā)明"智能減肥法"讓AI訓(xùn)練快1.6倍：只需要一半的算力就能教會(huì)大模型新技能

MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù)，通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍，計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分，在保持模型性能的同時(shí)顯著提升訓(xùn)練效率，已在多個(gè)任務(wù)上驗(yàn)證有效性。

AI玩游戲能讓推理變聰明？新加坡國(guó)立大學(xué)發(fā)現(xiàn)自對(duì)弈訓(xùn)練的神奇效果

AI玩游戲能讓推理變聰明？新加坡國(guó)立大學(xué)發(fā)現(xiàn)自對(duì)弈訓(xùn)練的神奇效果

2025-07-02 14:26

同濟(jì)大學(xué)突破性研究：讓3D相機(jī)告別"噪點(diǎn)困擾"的智能降噪新技術(shù)

同濟(jì)大學(xué)突破性研究：讓3D相機(jī)告別"噪點(diǎn)困擾"的智能降噪新技術(shù)

2025-07-02 14:26

AI視覺推理模型的"頓悟時(shí)刻"真的存在嗎？伊利諾伊大學(xué)研究揭示令人意外的真相

AI視覺推理模型的"頓悟時(shí)刻"真的存在嗎？伊利諾伊大學(xué)研究揭示令人意外的真相

2025-07-02 14:26

MIT團(tuán)隊(duì)發(fā)明"智能減肥法"讓AI訓(xùn)練快1.6倍：只需要一半的算力就能教會(huì)大模型新技能

MIT團(tuán)隊(duì)發(fā)明"智能減肥法"讓AI訓(xùn)練快1.6倍：只需要一半的算力就能教會(huì)大模型新技能

2025-07-02 14:25

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專區(qū)：https://www.12377.cn

<track id="9k6xq"></track>

<tt id="9k6xq"><option id="9k6xq"><listing id="9k6xq"></listing></option></tt>