當(dāng)我們面對復(fù)雜問題時,會根據(jù)情況選擇不同的思考方式——有時需要逐步分析,有時需要跳躍性思維,有時需要類比推理。而現(xiàn)在的大型語言模型雖然很聰明,但在推理時往往依賴人工設(shè)計的固定提示詞,就像只會按照食譜做菜的廚師,缺乏靈活應(yīng)變的能力。
這項由大連理工大學(xué)的熊濤、浙江大學(xué)的張勝譽(通訊作者)以及獨立研究者胡澤維、浙江大學(xué)的范文燕共同完成的研究,發(fā)表于2025年7月1日的arXiv預(yù)印本服務(wù)器(論文編號:arXiv:2507.00606v1),并將在2025年6月30日至7月3日于芝加哥舉行的第48屆國際ACM信息檢索研究與發(fā)展會議(ICMR '25)上正式發(fā)表。感興趣的讀者可以通過DOI鏈接或arXiv平臺訪問完整論文。
這個研究團(tuán)隊提出了一個名為"推理混合"(Mixture of Reasoning,簡稱MoR)的全新訓(xùn)練框架,就像給AI裝上了一個"思維工具箱",讓它能夠根據(jù)不同問題自主選擇最合適的推理策略。這種方法不再需要人工為每種任務(wù)精心設(shè)計專門的提示詞,而是讓AI自己學(xué)會在面對問題時選擇最佳的思考路徑。
研究的核心創(chuàng)新在于將多種推理策略直接嵌入到語言模型的參數(shù)中,使其具備自主的、任務(wù)適應(yīng)性的推理能力。通過兩個關(guān)鍵階段的訓(xùn)練——思維生成和監(jiān)督微調(diào)數(shù)據(jù)集構(gòu)建,研究團(tuán)隊讓AI掌握了從多步推演到類比推理再到戰(zhàn)略思考等多種思維模式。實驗結(jié)果顯示,他們的最佳模型MoR150在鏈?zhǔn)剿季S提示下達(dá)到了0.730的性能(比基線提升2.2%),在直接輸入輸出模式下更是達(dá)到了0.734(提升13.5%),證明了這種方法的顯著效果。
一、傳統(tǒng)推理方法的局限:像被困在固定軌道上的火車
當(dāng)前的大型語言模型在處理復(fù)雜任務(wù)時主要依賴幾種經(jīng)典的推理技術(shù)。鏈?zhǔn)剿季S(Chain-of-Thought, CoT)就像一個嚴(yán)格按照步驟做事的人,會把復(fù)雜問題分解成一步步的推理過程。思維樹(Tree-of-Thought, ToT)則像一個棋手,會考慮多種可能的走法并探索不同的推理路徑。還有思維提示(Prompt-of-Thought, PoT)等方法,都在各自的領(lǐng)域展現(xiàn)出了不錯的效果。
然而,這些方法都有一個共同的致命弱點:它們嚴(yán)重依賴人工精心設(shè)計的任務(wù)特定提示詞。這就好比每次烹飪都需要一份詳細(xì)的食譜,而且不同的菜需要完全不同的食譜。當(dāng)面對新的任務(wù)類型時,研究人員必須重新設(shè)計提示詞,這個過程既耗時又需要大量的專業(yè)知識。更糟糕的是,通用的提示詞往往無法在所有任務(wù)上都表現(xiàn)出色,就像用做蛋糕的方法去炒菜,效果肯定不理想。
這種局限性在實際應(yīng)用中造成了嚴(yán)重的瓶頸。每當(dāng)遇到新的推理任務(wù),工程師們都需要花費大量時間來設(shè)計和調(diào)試專門的提示詞。這不僅增加了開發(fā)成本,也限制了AI系統(tǒng)的通用性和適應(yīng)性。正是在這樣的背景下,研究團(tuán)隊開始思考:能否讓AI自己學(xué)會選擇合適的推理方式,而不是總是依賴外部的指導(dǎo)?
二、MoR方法的核心理念:打造AI的"智慧工具箱"
面對傳統(tǒng)方法的局限,研究團(tuán)隊提出了一個革命性的想法:與其每次都從外部告訴AI該如何思考,不如直接教會它多種思考方式,讓它自己根據(jù)問題的特點來選擇最合適的推理策略。這就是MoR(Mixture of Reasoning)方法的核心理念。
可以把MoR想象成為AI構(gòu)建了一個內(nèi)置的"智慧工具箱"。傳統(tǒng)方法就像每次遇到問題都需要別人遞工具給AI,而MoR則是讓AI自己擁有了一整套工具,并且知道在什么情況下使用哪種工具。當(dāng)面對數(shù)學(xué)問題時,它可能會選擇逐步推演的方式;當(dāng)處理創(chuàng)意寫作時,它可能會采用類比思維;當(dāng)解決戰(zhàn)略問題時,它會運用更加復(fù)雜的多層次分析。
這種方法的巧妙之處在于,它通過監(jiān)督學(xué)習(xí)的方式將多種推理策略直接嵌入到模型的參數(shù)中。這意味著AI不再需要外部提示就能自主進(jìn)行復(fù)雜推理,就像一個經(jīng)驗豐富的醫(yī)生,不需要每次都查閱教科書就能根據(jù)病癥選擇合適的診斷方法。
研究團(tuán)隊設(shè)計的MoR框架包含兩個關(guān)鍵階段。第一個階段叫做"思維生成",就像為AI準(zhǔn)備各種思考模板。第二個階段是"監(jiān)督微調(diào)數(shù)據(jù)集構(gòu)建",相當(dāng)于用這些模板和實際問題來訓(xùn)練AI,讓它學(xué)會在什么情況下應(yīng)該使用哪種思考方式。
三、思維生成階段:構(gòu)建推理策略的寶庫
MoR方法的第一個關(guān)鍵階段是思維生成,這個過程就像為AI建造一個推理策略的圖書館。研究團(tuán)隊意識到,對于參數(shù)較小的模型來說,僅僅告訴它"讓我們一步步思考"是遠(yuǎn)遠(yuǎn)不夠的,就像對一個剛學(xué)會走路的孩子說"跑馬拉松"一樣不現(xiàn)實。
為了解決這個問題,研究團(tuán)隊采用了一個聰明的策略:利用GPT-4o這樣的先進(jìn)大模型來生成大量的推理鏈模板。這個過程類似于請一位經(jīng)驗豐富的老師為學(xué)生準(zhǔn)備各種解題思路的范例。他們總共生成了四套不同規(guī)模的推理鏈模板集合,分別包含50個、150個、300個和500個推理鏈,用數(shù)學(xué)符號表示為T = {t1, t2, ..., tM},其中M代表推理鏈的總數(shù)。
這些推理鏈模板覆蓋了廣泛的思維模式。有些模板專門用于多步邏輯推演,就像解數(shù)學(xué)題時的步驟分解;有些擅長類比推理,能夠在不同概念之間建立聯(lián)系;還有一些專注于戰(zhàn)略思考,適合處理需要全局規(guī)劃的復(fù)雜問題。每個模板都是一種特定的思考路徑,為AI提供了豐富的推理工具選擇。
這種方法的優(yōu)勢在于,它充分利用了現(xiàn)有先進(jìn)模型的推理能力,將這些能力以模板的形式保存下來,然后傳授給較小的模型。這就像將大師的技藝以口訣的形式記錄下來,讓學(xué)徒們能夠?qū)W習(xí)和掌握。通過這種方式,即使是參數(shù)相對較少的模型也能獲得多樣化的推理能力。
四、數(shù)據(jù)集構(gòu)建階段:讓AI學(xué)會"因地制宜"
有了豐富的推理鏈模板之后,接下來的挑戰(zhàn)是如何讓AI學(xué)會在合適的時機(jī)使用合適的推理策略。這就是MoR方法的第二個關(guān)鍵階段——監(jiān)督微調(diào)數(shù)據(jù)集構(gòu)建,這個過程就像教會一個學(xué)生如何根據(jù)不同類型的題目選擇相應(yīng)的解題方法。
在這個階段,研究團(tuán)隊首先精心挑選了幾個具有代表性的推理數(shù)據(jù)集,包括HotpotQA(多跳問答)、StrategyQA(策略問答)、MMLU(大規(guī)模多任務(wù)語言理解)、BigTom(心理理論推理)和Trivial Creative Writing(創(chuàng)意寫作)。這些數(shù)據(jù)集就像不同類型的考試題目,涵蓋了從事實問答到創(chuàng)意思維的廣泛范圍。
數(shù)據(jù)集構(gòu)建的過程相當(dāng)巧妙。對于每一個訓(xùn)練樣本,系統(tǒng)首先從推理鏈模板庫中隨機(jī)選擇5個候選模板,然后利用GPT模型來判斷哪個模板最適合解決當(dāng)前問題。這就像請一位經(jīng)驗豐富的老師來判斷,面對某道特定的題目,應(yīng)該采用哪種解題思路最有效。
一旦確定了最佳的推理鏈模板,系統(tǒng)就會將這個模板與具體的問題結(jié)合起來,生成完整的推理過程。但這里還有一個重要的質(zhì)量控制步驟:只有那些能夠產(chǎn)生正確答案的推理過程才會被納入最終的訓(xùn)練數(shù)據(jù)集。這確保了AI學(xué)習(xí)到的都是有效的推理模式,而不是錯誤的思考路徑。
整個算法的核心邏輯可以用一個簡單的流程來理解:拿到一個問題后,先從眾多推理模板中挑選幾個候選者,然后讓"評判員"選擇最合適的那個,接著用這個模板來解決問題,最后驗證答案的正確性。只有通過驗證的問題-推理-答案組合才會成為訓(xùn)練材料。這種嚴(yán)格的篩選機(jī)制確保了訓(xùn)練數(shù)據(jù)的高質(zhì)量。
五、實驗設(shè)計:全方位驗證MoR的有效性
為了全面驗證MoR方法的效果,研究團(tuán)隊設(shè)計了一系列細(xì)致的實驗。他們選擇了Qwen2.5-7B-Instruct作為基礎(chǔ)模型,這是一個在業(yè)界廣受認(rèn)可的中等規(guī)模語言模型,具有良好的基礎(chǔ)性能和代表性。
實驗涵蓋了五個不同類型的推理任務(wù),每個任務(wù)都代表了推理能力的不同方面。HotpotQA專門測試多跳推理能力,就像解決需要多個步驟才能得出答案的復(fù)雜問題;StrategyQA要求模型進(jìn)行戰(zhàn)略性思考,類似于制定解決方案時需要考慮多個因素;MMLU是一個覆蓋57個不同知識領(lǐng)域的綜合性測試,就像一場跨學(xué)科的綜合考試;BigTom專門評估模型的心理理論推理能力,即理解他人想法和信念的能力;而Trivial Creative Writing則測試模型在創(chuàng)意寫作方面的表現(xiàn)。
研究團(tuán)隊分別訓(xùn)練了四個不同版本的MoR模型,使用的推理鏈模板數(shù)量分別為50個、150個、300個和500個,分別命名為MoR50、MoR150、MoR300和MoR500。這種設(shè)計允許他們研究推理鏈數(shù)量對性能的影響,就像測試不同大小的工具箱對工作效率的影響。
在測試階段,研究團(tuán)隊采用了兩種不同的提示策略。一種是鏈?zhǔn)剿季S(CoT)提示,相當(dāng)于告訴模型"讓我們一步步思考";另一種是輸入輸出(IO)提示,即直接要求模型給出答案而不提供額外指導(dǎo)。這種設(shè)計幫助研究人員理解MoR方法在不同指導(dǎo)程度下的表現(xiàn)。
六、實驗結(jié)果:MoR展現(xiàn)出顯著優(yōu)勢
實驗結(jié)果證實了MoR方法的顯著效果,就像一個精心訓(xùn)練的多面手在各種挑戰(zhàn)中都表現(xiàn)出色。最引人注目的發(fā)現(xiàn)是MoR150模型的卓越表現(xiàn),它在鏈?zhǔn)剿季S提示下達(dá)到了0.730的整體性能,比基礎(chǔ)模型的0.708提升了2.2%。更令人驚喜的是,在直接輸入輸出模式下,MoR150達(dá)到了0.700的性能,而MoR500更是達(dá)到了0.734,相比基礎(chǔ)模型的0.599有了13.5%的顯著提升。
這些數(shù)字背后反映了MoR方法的幾個重要特點。首先,即使在沒有明確推理指導(dǎo)的情況下,經(jīng)過MoR訓(xùn)練的模型也能自主進(jìn)行有效推理,這說明推理策略已經(jīng)成功地內(nèi)化到了模型參數(shù)中。其次,不同規(guī)模的推理鏈模板集合表現(xiàn)出了不同的特點,MoR150在多數(shù)情況下表現(xiàn)最佳,這提示存在一個最優(yōu)的模板數(shù)量平衡點。
在具體任務(wù)上,MoR方法展現(xiàn)出了明顯的任務(wù)適應(yīng)性。在相對簡單的HotpotQA任務(wù)上,多個模型都達(dá)到了接近完美的性能,這表明基礎(chǔ)推理能力已經(jīng)足夠應(yīng)對直接的問答任務(wù)。但在更復(fù)雜的StrategyQA和MMLU任務(wù)上,MoR模型尤其是在使用鏈?zhǔn)剿季S提示時,顯示出了明顯的優(yōu)勢,這證明了結(jié)構(gòu)化推理鏈對于復(fù)雜任務(wù)的重要性。
特別值得關(guān)注的是BigTom任務(wù)的結(jié)果,這個任務(wù)要求模型理解他人的心理狀態(tài)和錯誤信念。在這個具有挑戰(zhàn)性的任務(wù)上,MoR模型展現(xiàn)出了強(qiáng)大的心理理論推理能力,這對于AI系統(tǒng)理解人類行為和社會交互具有重要意義。
為了進(jìn)一步驗證結(jié)果的可靠性,研究團(tuán)隊將測試集從50個樣本擴(kuò)展到200個樣本,對基礎(chǔ)模型和MoR150進(jìn)行了更大規(guī)模的比較。擴(kuò)展測試的結(jié)果證實了之前的發(fā)現(xiàn),MoR150繼續(xù)保持著對基礎(chǔ)模型的一致優(yōu)勢,證明了這種改進(jìn)不是偶然現(xiàn)象,而是方法本身的內(nèi)在優(yōu)勢。
七、深度分析:揭示MoR成功的奧秘
通過對實驗結(jié)果的深入分析,研究團(tuán)隊發(fā)現(xiàn)了幾個有趣的現(xiàn)象,這些發(fā)現(xiàn)就像解開了一個復(fù)雜謎題的關(guān)鍵線索。
首先,推理鏈模板的數(shù)量并不是越多越好。雖然直覺上可能認(rèn)為更多的推理策略意味著更強(qiáng)的能力,但實驗結(jié)果顯示MoR150往往比MoR300和MoR500表現(xiàn)更好。這種現(xiàn)象類似于工具箱效應(yīng)——當(dāng)工具太多時,選擇合適工具反而變得困難,而且在訓(xùn)練數(shù)據(jù)有限的情況下,過多的模板可能導(dǎo)致每種策略都沒有得到充分的訓(xùn)練。
其次,鏈?zhǔn)剿季S提示和直接輸入輸出提示在不同情況下各有優(yōu)勢。對于復(fù)雜的推理任務(wù),鏈?zhǔn)剿季S提示通常能夠引導(dǎo)模型產(chǎn)生更好的結(jié)果,因為它明確鼓勵了step-by-step的思考過程。但有趣的是,經(jīng)過MoR訓(xùn)練的模型在直接輸入輸出模式下也表現(xiàn)出色,這說明推理能力已經(jīng)深度內(nèi)化,不再嚴(yán)重依賴外部提示。
第三個重要發(fā)現(xiàn)涉及任務(wù)復(fù)雜性的影響。在簡單任務(wù)如HotpotQA上,大多數(shù)模型都能達(dá)到很高的性能,這表明基礎(chǔ)模型已經(jīng)具備了處理直接問答的能力。但在需要多步推理和策略思考的復(fù)雜任務(wù)上,MoR方法的優(yōu)勢就變得非常明顯。這說明MoR方法特別適合那些需要深度思考和復(fù)雜推理的場景。
研究團(tuán)隊還通過具體案例深入分析了MoR方法的工作機(jī)制。在一個BigTom任務(wù)的例子中,基礎(chǔ)模型在面對關(guān)于人物信念推理的問題時,雖然試圖采用step-by-step的方法,但最終給出了錯誤答案。相比之下,MoR150模型采用了更加系統(tǒng)的邏輯分析方法,將復(fù)雜情境分解為事件序列,然后基于觀察和推理得出正確結(jié)論。這個案例生動地展示了MoR方法如何幫助模型選擇更有效的推理策略。
八、方法論價值:重新定義AI推理能力的培養(yǎng)方式
MoR方法的價值不僅僅在于性能的提升,更在于它代表了一種全新的AI推理能力培養(yǎng)思路。傳統(tǒng)的方法依賴于外部提示工程,就像每次都需要詳細(xì)的使用說明書才能操作復(fù)雜設(shè)備。而MoR方法則是將"使用說明書"直接內(nèi)置到了設(shè)備中,讓AI系統(tǒng)具備了自主選擇最佳操作方式的能力。
這種方法論上的轉(zhuǎn)變具有深遠(yuǎn)的意義。在實際應(yīng)用中,用戶不再需要為每種任務(wù)精心設(shè)計專門的提示詞,這大大降低了AI系統(tǒng)的使用門檻。同時,由于推理策略已經(jīng)內(nèi)化到模型參數(shù)中,系統(tǒng)的推理能力變得更加穩(wěn)定和可靠,不會因為提示詞的細(xì)微變化而出現(xiàn)性能波動。
從技術(shù)發(fā)展的角度來看,MoR方法代表了從"外部指導(dǎo)"向"內(nèi)在能力"的重要轉(zhuǎn)變。這種轉(zhuǎn)變類似于從需要教練在旁邊指導(dǎo)的新手司機(jī),成長為能夠根據(jù)路況自主選擇駕駛策略的熟練司機(jī)。這種內(nèi)在化的推理能力是AI系統(tǒng)走向真正智能化的重要標(biāo)志。
更重要的是,MoR方法提供了一個可擴(kuò)展的框架。研究團(tuán)隊可以持續(xù)添加新的推理策略模板,就像為工具箱添加新工具一樣。這種可擴(kuò)展性確保了方法能夠適應(yīng)未來出現(xiàn)的新任務(wù)類型和推理需求。
九、局限性與改進(jìn)空間:完善這個"智慧工具箱"
盡管MoR方法表現(xiàn)出色,但研究團(tuán)隊也誠實地指出了當(dāng)前方法的一些局限性,這些局限性就像一個優(yōu)秀工具仍有改進(jìn)空間一樣。
首先,推理鏈模板的生成目前主要依賴于GPT-4o等閉源大模型。這種依賴性在一定程度上限制了方法的獨立性和可控性。雖然這些先進(jìn)模型能夠生成高質(zhì)量的推理模板,但這種依賴關(guān)系可能在實際應(yīng)用中造成成本和訪問上的限制。
其次,當(dāng)前的實驗主要在中等規(guī)模的數(shù)據(jù)集上進(jìn)行,每個任務(wù)類型只選擇了相對較少的樣本進(jìn)行測試。雖然這種設(shè)計足以證明方法的有效性,但在更大規(guī)模、更多樣化的數(shù)據(jù)集上的表現(xiàn)仍需進(jìn)一步驗證。
第三,推理鏈模板的選擇機(jī)制目前相對簡單,主要依賴于隨機(jī)選擇和基于問題結(jié)構(gòu)的匹配。未來可能需要開發(fā)更加智能的模板選擇策略,讓AI能夠更精準(zhǔn)地判斷哪種推理策略最適合特定問題。
此外,不同數(shù)量推理鏈模板的最優(yōu)配置仍需更深入的研究。雖然實驗顯示MoR150表現(xiàn)最佳,但這個結(jié)論可能受到具體任務(wù)類型和訓(xùn)練數(shù)據(jù)規(guī)模的影響。在不同應(yīng)用場景下,最優(yōu)的模板數(shù)量可能有所不同。
十、未來發(fā)展方向:構(gòu)建更強(qiáng)大的AI推理生態(tài)
基于MoR方法的成功,研究團(tuán)隊為未來的發(fā)展描繪了幾個令人興奮的方向,這些方向就像為已經(jīng)成功的技術(shù)開辟更廣闊的應(yīng)用天地。
首先是推理策略的多樣化擴(kuò)展。目前的推理鏈模板主要覆蓋了邏輯推理、類比推理和戰(zhàn)略思考等基礎(chǔ)類型,未來可以繼續(xù)添加更多專門化的推理策略,比如創(chuàng)意思維、批判性思考、科學(xué)推理等。這將使AI系統(tǒng)能夠處理更加廣泛和復(fù)雜的任務(wù)類型。
其次是與其他先進(jìn)訓(xùn)練方法的結(jié)合。MoR方法可以與強(qiáng)化學(xué)習(xí)、對比學(xué)習(xí)等其他訓(xùn)練范式相結(jié)合,形成更加強(qiáng)大的綜合訓(xùn)練框架。這種組合方法有望進(jìn)一步提升AI系統(tǒng)的推理能力和適應(yīng)性。
第三個方向是動態(tài)推理策略選擇的研究。目前的方法在訓(xùn)練階段確定推理策略,未來可以研究如何讓AI在推理過程中動態(tài)調(diào)整策略,就像人類在解決復(fù)雜問題時會根據(jù)中間結(jié)果調(diào)整思考方法一樣。
第四是多模態(tài)推理能力的擴(kuò)展。當(dāng)前的MoR方法主要針對文本推理,未來可以擴(kuò)展到圖像、音頻、視頻等多模態(tài)信息的推理,構(gòu)建更加全面的AI推理能力。
最后是個性化推理模式的開發(fā)。不同的用戶和應(yīng)用場景可能需要不同風(fēng)格的推理模式,未來可以研究如何為特定用戶或領(lǐng)域定制專門的推理策略集合。
說到底,這項研究為AI推理能力的發(fā)展開辟了一條全新的道路。通過將多種推理策略內(nèi)化到模型參數(shù)中,MoR方法讓AI系統(tǒng)獲得了更加靈活和自主的思考能力。這不僅顯著提升了性能,更重要的是降低了使用門檻,讓AI技術(shù)能夠更好地服務(wù)于各種實際應(yīng)用。
從更宏觀的角度來看,MoR方法代表了AI發(fā)展的一個重要趨勢:從依賴外部指導(dǎo)轉(zhuǎn)向內(nèi)在智能。這種轉(zhuǎn)變讓我們看到了通用人工智能的一些雛形——一個能夠根據(jù)情況自主選擇最合適思考方式的智能系統(tǒng)。當(dāng)然,這只是漫長征程中的一小步,但它為我們指明了正確的方向。
對于普通人來說,這項研究意味著未來的AI助手將變得更加智能和易用。你不再需要學(xué)習(xí)復(fù)雜的提示工程技巧,也不用為不同任務(wù)準(zhǔn)備不同的指令模板。AI系統(tǒng)將能夠像一個經(jīng)驗豐富的助手一樣,自動理解你的需求并選擇最合適的方式來幫助你解決問題。
這項研究的完整細(xì)節(jié)和技術(shù)實現(xiàn)可以通過arXiv:2507.00606v1獲取,感興趣的讀者也可以關(guān)注即將在ICMR 2025會議上的正式發(fā)表。隨著更多研究團(tuán)隊加入這個方向的探索,我們有理由相信,AI推理能力將迎來更加蓬勃的發(fā)展。
Q&A
Q1:MoR方法和傳統(tǒng)的Chain-of-Thought有什么區(qū)別? A:傳統(tǒng)CoT需要人工為每種任務(wù)設(shè)計專門的提示詞,就像每次做菜都需要新食譜。而MoR方法是將多種推理策略直接嵌入到AI模型中,讓它自己根據(jù)問題類型選擇最合適的思考方式,不再依賴外部提示。
Q2:MoR150為什么比MoR300和MoR500表現(xiàn)更好? A:這類似于工具箱效應(yīng)——工具太多反而難以選擇。在訓(xùn)練數(shù)據(jù)有限的情況下,150個推理鏈模板達(dá)到了最佳的平衡點,既提供了足夠的多樣性,又確保每種策略都得到充分訓(xùn)練。模板過多可能導(dǎo)致訓(xùn)練不充分。
Q3:普通用戶什么時候能用上MoR技術(shù)? A:目前MoR還處于研究階段,主要在學(xué)術(shù)論文中展示效果。要真正應(yīng)用到消費級產(chǎn)品中,還需要進(jìn)一步的工程優(yōu)化和產(chǎn)品化開發(fā)。不過考慮到AI技術(shù)的快速發(fā)展,預(yù)計在未來幾年內(nèi)就可能在各種AI助手和工具中看到類似技術(shù)。
好文章,需要你的鼓勵
浙江大學(xué)團(tuán)隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實驗顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機(jī)制和高效訓(xùn)練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個AI模型。實驗結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。