av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 浙江大學(xué)突破:讓AI專家團隊在考試時"動態(tài)組隊",推理能力飆升

浙江大學(xué)突破:讓AI專家團隊在考試時"動態(tài)組隊",推理能力飆升

2025-10-22 13:24
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-10-22 13:24 ? 科技行者

這項由浙江大學(xué)楊易教授團隊和南洋理工大學(xué)合作完成的研究發(fā)表于2025年9月,論文編號為arXiv:2509.22572v1。想要深入了解技術(shù)細節(jié)的讀者可以通過這個編號查詢完整論文。

考試的時候,你是否想過如果能根據(jù)不同題目臨時調(diào)整答題策略會有多好?比如遇到數(shù)學(xué)題時多動用邏輯思維,碰到語文題時更多發(fā)揮創(chuàng)意想象?,F(xiàn)在,研究人員把這個想法應(yīng)用到了人工智能身上,讓AI在解題時能夠靈活調(diào)整自己的"專家團隊"配置。

當(dāng)前最先進的大語言模型很多都采用了一種叫做"專家混合"的架構(gòu),就像一個超級智能體內(nèi)部住著很多個不同領(lǐng)域的專家。平時這些專家中只有固定數(shù)量的幾個會同時工作,就好比一個咨詢公司每次項目都派出相同數(shù)量的顧問,不管項目難易程度如何。

研究團隊發(fā)現(xiàn)了一個有趣的現(xiàn)象:如果讓不同數(shù)量的專家參與同一個問題,雖然整體準(zhǔn)確率差不多,但每種配置能解決的具體問題卻大不相同。這就像不同的醫(yī)生組合擅長診斷不同的疾病一樣,三個醫(yī)生的組合可能擅長心臟病,五個醫(yī)生的組合可能更擅長腦科疾病。

基于這個發(fā)現(xiàn),研究團隊開發(fā)了一套名為"動態(tài)專家搜索"的方法。這個方法的核心思想是讓AI在解題過程中能夠靈活調(diào)整參與工作的專家數(shù)量,而不是始終使用固定的配置。

整個過程就像組織一場頭腦風(fēng)暴會議。首先,系統(tǒng)會同時嘗試多種不同的專家配置來解決同一個問題。有些配置可能派出4個專家,有些派出8個,還有些派出10個。每種配置都會產(chǎn)生自己的解題思路和答案。

接下來,系統(tǒng)中有一個"評委"角色,專門負責(zé)評判這些不同解題方案的質(zhì)量。就像比賽中的裁判一樣,評委會給每個方案打分,分數(shù)高的方案更容易在下一輪中繼續(xù)發(fā)展。

這里有個巧妙的設(shè)計:一旦確定了某個專家配置在當(dāng)前步驟表現(xiàn)優(yōu)秀,系統(tǒng)會在后續(xù)步驟中繼續(xù)使用相同的專家數(shù)量。這樣既保證了解題思路的連貫性,又能讓最有效的配置獲得更多資源來完善答案。

研究團隊在多個AI模型上測試了這種方法,涵蓋了數(shù)學(xué)、編程和知識推理等不同領(lǐng)域的問題。結(jié)果顯示,動態(tài)專家搜索在幾乎所有測試中都表現(xiàn)得比傳統(tǒng)方法更好,而且計算成本并沒有增加。

在數(shù)學(xué)問題上,這種方法讓一個30億參數(shù)的模型在MATH500數(shù)據(jù)集上的準(zhǔn)確率從92.4%提升到93.2%。雖然提升幅度看起來不大,但要知道在這個水平上每提升0.1%都是非常困難的。在更難的AIME數(shù)學(xué)競賽題目上,準(zhǔn)確率從83.3%提升到86.7%。

更有趣的是,研究團隊還發(fā)現(xiàn)不同類型的問題確實偏愛不同的專家配置。數(shù)學(xué)題通常在使用7-8個專家時表現(xiàn)最好,而編程題可能在4-5個專家時就能達到最佳效果。這證實了他們最初的假設(shè):不同難度和類型的問題需要不同的"團隊配置"。

為了驗證這不是簡單的"多用幾個專家"帶來的提升,研究團隊仔細分析了實際使用的專家數(shù)量。結(jié)果發(fā)現(xiàn),動態(tài)專家搜索平均使用的專家數(shù)量并沒有超過模型的默認配置,有時甚至更少。這說明提升來自于更智能的配置選擇,而不是暴力增加計算量。

研究還對比了目前很多模型提供的"思考模式"。這種模式通過生成更長的推理過程來提高準(zhǔn)確率,但計算成本也相應(yīng)增加。動態(tài)專家搜索在達到相似性能的同時,計算效率明顯更高。

當(dāng)然,這種方法也有一些限制。它需要一個外部的"評委"來判斷答案質(zhì)量,這增加了系統(tǒng)的復(fù)雜性。而且評委的判斷準(zhǔn)確性會直接影響最終效果,如果評委經(jīng)常判斷錯誤,整個系統(tǒng)的表現(xiàn)就會下降。

從更廣的視角來看,這項研究展示了一個重要趨勢:人工智能的進步不一定要通過簡單粗暴地增加模型規(guī)模來實現(xiàn),而是可以通過更聰明地利用現(xiàn)有資源來獲得。就像一個公司不需要無限制地招聘員工,而是要學(xué)會根據(jù)不同項目靈活組建最合適的團隊。

這種"架構(gòu)感知"的推理方法為未來的AI發(fā)展開辟了新方向。隨著模型架構(gòu)變得越來越復(fù)雜和模塊化,如何在推理時動態(tài)調(diào)整這些模塊的使用方式將成為一個重要研究方向。

說到底,這項研究告訴我們,智能不僅在于擁有多少專業(yè)知識,更在于知道在什么時候調(diào)用哪些知識。就像一個真正的專家不是什么都懂,而是知道什么時候需要尋求哪方面的幫助。對于人工智能來說,學(xué)會"因題制宜"地調(diào)整自己的思考方式,可能比單純增加知識儲備更加重要。

這種方法目前主要在研究階段,但隨著技術(shù)的成熟,我們有理由期待未來的AI助手能夠更加智能地根據(jù)我們的具體需求調(diào)整自己的工作方式,提供更精準(zhǔn)、更高效的幫助。

Q&A

Q1:動態(tài)專家搜索是什么?它是如何工作的?

A:動態(tài)專家搜索是一種讓AI在解題時能夠靈活調(diào)整參與工作的專家數(shù)量的方法。它會同時嘗試多種不同的專家配置來解決同一個問題,然后通過評委評判選出最好的方案,并在后續(xù)步驟中繼續(xù)使用相同的專家配置,確保解題思路的連貫性。

Q2:這種方法比傳統(tǒng)方法好在哪里?會增加計算成本嗎?

A:動態(tài)專家搜索在幾乎所有測試中都比傳統(tǒng)方法表現(xiàn)更好,比如在MATH500數(shù)據(jù)集上準(zhǔn)確率從92.4%提升到93.2%,在AIME數(shù)學(xué)競賽題目上從83.3%提升到86.7%。關(guān)鍵是它并沒有增加計算成本,平均使用的專家數(shù)量甚至比默認配置更少。

Q3:這項技術(shù)什么時候能應(yīng)用到實際的AI產(chǎn)品中?

A:目前這項技術(shù)還主要在研究階段,需要外部評委來判斷答案質(zhì)量,這增加了系統(tǒng)復(fù)雜性。但隨著技術(shù)成熟,未來的AI助手有望根據(jù)具體需求動態(tài)調(diào)整工作方式,提供更精準(zhǔn)高效的幫助。研究團隊已在多個AI模型上驗證了效果。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-