這項由浙江大學(xué)楊易教授團隊和南洋理工大學(xué)合作完成的研究發(fā)表于2025年9月,論文編號為arXiv:2509.22572v1。想要深入了解技術(shù)細節(jié)的讀者可以通過這個編號查詢完整論文。
考試的時候,你是否想過如果能根據(jù)不同題目臨時調(diào)整答題策略會有多好?比如遇到數(shù)學(xué)題時多動用邏輯思維,碰到語文題時更多發(fā)揮創(chuàng)意想象?,F(xiàn)在,研究人員把這個想法應(yīng)用到了人工智能身上,讓AI在解題時能夠靈活調(diào)整自己的"專家團隊"配置。
當(dāng)前最先進的大語言模型很多都采用了一種叫做"專家混合"的架構(gòu),就像一個超級智能體內(nèi)部住著很多個不同領(lǐng)域的專家。平時這些專家中只有固定數(shù)量的幾個會同時工作,就好比一個咨詢公司每次項目都派出相同數(shù)量的顧問,不管項目難易程度如何。
研究團隊發(fā)現(xiàn)了一個有趣的現(xiàn)象:如果讓不同數(shù)量的專家參與同一個問題,雖然整體準(zhǔn)確率差不多,但每種配置能解決的具體問題卻大不相同。這就像不同的醫(yī)生組合擅長診斷不同的疾病一樣,三個醫(yī)生的組合可能擅長心臟病,五個醫(yī)生的組合可能更擅長腦科疾病。
基于這個發(fā)現(xiàn),研究團隊開發(fā)了一套名為"動態(tài)專家搜索"的方法。這個方法的核心思想是讓AI在解題過程中能夠靈活調(diào)整參與工作的專家數(shù)量,而不是始終使用固定的配置。
整個過程就像組織一場頭腦風(fēng)暴會議。首先,系統(tǒng)會同時嘗試多種不同的專家配置來解決同一個問題。有些配置可能派出4個專家,有些派出8個,還有些派出10個。每種配置都會產(chǎn)生自己的解題思路和答案。
接下來,系統(tǒng)中有一個"評委"角色,專門負責(zé)評判這些不同解題方案的質(zhì)量。就像比賽中的裁判一樣,評委會給每個方案打分,分數(shù)高的方案更容易在下一輪中繼續(xù)發(fā)展。
這里有個巧妙的設(shè)計:一旦確定了某個專家配置在當(dāng)前步驟表現(xiàn)優(yōu)秀,系統(tǒng)會在后續(xù)步驟中繼續(xù)使用相同的專家數(shù)量。這樣既保證了解題思路的連貫性,又能讓最有效的配置獲得更多資源來完善答案。
研究團隊在多個AI模型上測試了這種方法,涵蓋了數(shù)學(xué)、編程和知識推理等不同領(lǐng)域的問題。結(jié)果顯示,動態(tài)專家搜索在幾乎所有測試中都表現(xiàn)得比傳統(tǒng)方法更好,而且計算成本并沒有增加。
在數(shù)學(xué)問題上,這種方法讓一個30億參數(shù)的模型在MATH500數(shù)據(jù)集上的準(zhǔn)確率從92.4%提升到93.2%。雖然提升幅度看起來不大,但要知道在這個水平上每提升0.1%都是非常困難的。在更難的AIME數(shù)學(xué)競賽題目上,準(zhǔn)確率從83.3%提升到86.7%。
更有趣的是,研究團隊還發(fā)現(xiàn)不同類型的問題確實偏愛不同的專家配置。數(shù)學(xué)題通常在使用7-8個專家時表現(xiàn)最好,而編程題可能在4-5個專家時就能達到最佳效果。這證實了他們最初的假設(shè):不同難度和類型的問題需要不同的"團隊配置"。
為了驗證這不是簡單的"多用幾個專家"帶來的提升,研究團隊仔細分析了實際使用的專家數(shù)量。結(jié)果發(fā)現(xiàn),動態(tài)專家搜索平均使用的專家數(shù)量并沒有超過模型的默認配置,有時甚至更少。這說明提升來自于更智能的配置選擇,而不是暴力增加計算量。
研究還對比了目前很多模型提供的"思考模式"。這種模式通過生成更長的推理過程來提高準(zhǔn)確率,但計算成本也相應(yīng)增加。動態(tài)專家搜索在達到相似性能的同時,計算效率明顯更高。
當(dāng)然,這種方法也有一些限制。它需要一個外部的"評委"來判斷答案質(zhì)量,這增加了系統(tǒng)的復(fù)雜性。而且評委的判斷準(zhǔn)確性會直接影響最終效果,如果評委經(jīng)常判斷錯誤,整個系統(tǒng)的表現(xiàn)就會下降。
從更廣的視角來看,這項研究展示了一個重要趨勢:人工智能的進步不一定要通過簡單粗暴地增加模型規(guī)模來實現(xiàn),而是可以通過更聰明地利用現(xiàn)有資源來獲得。就像一個公司不需要無限制地招聘員工,而是要學(xué)會根據(jù)不同項目靈活組建最合適的團隊。
這種"架構(gòu)感知"的推理方法為未來的AI發(fā)展開辟了新方向。隨著模型架構(gòu)變得越來越復(fù)雜和模塊化,如何在推理時動態(tài)調(diào)整這些模塊的使用方式將成為一個重要研究方向。
說到底,這項研究告訴我們,智能不僅在于擁有多少專業(yè)知識,更在于知道在什么時候調(diào)用哪些知識。就像一個真正的專家不是什么都懂,而是知道什么時候需要尋求哪方面的幫助。對于人工智能來說,學(xué)會"因題制宜"地調(diào)整自己的思考方式,可能比單純增加知識儲備更加重要。
這種方法目前主要在研究階段,但隨著技術(shù)的成熟,我們有理由期待未來的AI助手能夠更加智能地根據(jù)我們的具體需求調(diào)整自己的工作方式,提供更精準(zhǔn)、更高效的幫助。
Q&A
Q1:動態(tài)專家搜索是什么?它是如何工作的?
A:動態(tài)專家搜索是一種讓AI在解題時能夠靈活調(diào)整參與工作的專家數(shù)量的方法。它會同時嘗試多種不同的專家配置來解決同一個問題,然后通過評委評判選出最好的方案,并在后續(xù)步驟中繼續(xù)使用相同的專家配置,確保解題思路的連貫性。
Q2:這種方法比傳統(tǒng)方法好在哪里?會增加計算成本嗎?
A:動態(tài)專家搜索在幾乎所有測試中都比傳統(tǒng)方法表現(xiàn)更好,比如在MATH500數(shù)據(jù)集上準(zhǔn)確率從92.4%提升到93.2%,在AIME數(shù)學(xué)競賽題目上從83.3%提升到86.7%。關(guān)鍵是它并沒有增加計算成本,平均使用的專家數(shù)量甚至比默認配置更少。
Q3:這項技術(shù)什么時候能應(yīng)用到實際的AI產(chǎn)品中?
A:目前這項技術(shù)還主要在研究階段,需要外部評委來判斷答案質(zhì)量,這增加了系統(tǒng)復(fù)雜性。但隨著技術(shù)成熟,未來的AI助手有望根據(jù)具體需求動態(tài)調(diào)整工作方式,提供更精準(zhǔn)高效的幫助。研究團隊已在多個AI模型上驗證了效果。
好文章,需要你的鼓勵
清華大學(xué)研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實驗顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓(xùn)練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團隊發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學(xué)習(xí)方法訓(xùn)練多個AI模型。實驗結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達到49.6%準(zhǔn)確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。
中國人民大學(xué)研究團隊開發(fā)了Tool-Light框架,通過信息熵理論解決AI工具使用中的過度調(diào)用、調(diào)用不足和過度思考問題。該框架采用熵引導(dǎo)采樣和兩階段自演化訓(xùn)練,讓AI學(xué)會合理使用外部工具。在10個推理任務(wù)測試中,Tool-Light顯著提升了AI的效率和準(zhǔn)確性,為AI工具集成推理提供了新的解決方案。