人工智能領(lǐng)域又傳來激動人心的消息。華中科技大學計算機科學與技術(shù)學院的丁卓俊、魏威和范成浩團隊在2025年6月發(fā)表了一項突破性研究,論文題為《Selecting and Merging: Towards Adaptable and Scalable Named Entity Recognition with Large Language Models》。這項研究發(fā)表在計算機科學頂級預印本平臺arXiv上,感興趣的讀者可以通過論文編號arXiv:2506.22813v1訪問完整內(nèi)容。
在人工智能快速發(fā)展的今天,讓機器準確識別文本中的人名、地名、機構(gòu)名等實體信息(專業(yè)上稱為"命名實體識別")仍然是個棘手問題?,F(xiàn)有的解決方案就像是培養(yǎng)一個萬能選手,試圖讓一個AI模型同時掌握新聞、醫(yī)學、法律等各個領(lǐng)域的知識。但問題在于,這種"萬金油"式的做法往往導致AI在每個具體領(lǐng)域都表現(xiàn)平平,就像一個什么都會但什么都不精的人一樣。
華科大團隊提出了一個全新的思路:為什么不讓AI像組建夢之隊一樣工作呢?他們開發(fā)了一套名為SaM(Select and Merge,選擇與合并)的框架,讓AI系統(tǒng)能夠動態(tài)地從多個專業(yè)"專家"中挑選最合適的成員,然后將他們的能力融合起來,針對特定任務組成最強陣容。
這種方法的巧妙之處在于,它不是訓練一個試圖精通所有領(lǐng)域的"全才",而是培養(yǎng)多個各有專長的"專家",然后根據(jù)具體任務智能地組合這些專家的能力。就像面對一個復雜的醫(yī)療案例時,你不會去找一個什么都懂一點的通科醫(yī)生,而是會組建一個包括心臟專家、神經(jīng)專家等在內(nèi)的專業(yè)團隊一樣。
一、智能專家選擇:讓AI學會慧眼識人
在SaM框架中,專家選擇是整個系統(tǒng)的核心環(huán)節(jié)。研究團隊設(shè)計了兩套互補的選擇策略,就像招聘經(jīng)理從不同角度評估候選人一樣。
第一套策略叫做"領(lǐng)域相似性選擇",工作原理類似于相親時的"門當戶對"原則。系統(tǒng)會分析目標任務的文本特征,然后尋找那些在相似環(huán)境中訓練過的專家模型。比如,當處理科技新聞時,系統(tǒng)會自動傾向于選擇那些在科技文獻上訓練過的專家,因為它們對科技術(shù)語更加敏感。
具體來說,系統(tǒng)會將每個領(lǐng)域的文本轉(zhuǎn)換成數(shù)學向量(可以理解為給每個領(lǐng)域打上獨特的"DNA標簽"),然后計算目標任務與各個專家領(lǐng)域之間的相似度。這種計算就像是在高維空間中測量距離,距離越近,說明兩個領(lǐng)域越相似,對應的專家就越有可能被選中。
第二套策略則更加實用主義,被稱為"采樣評估選擇"。這種方法不看理論上的相似性,而是直接讓各個專家在目標任務的樣本數(shù)據(jù)上"試手",根據(jù)實際表現(xiàn)來決定誰入選。就像體育教練選隊員時,不只看簡歷和身體條件,還要看實際上場的表現(xiàn)一樣。
系統(tǒng)會從目標任務中隨機抽取少量樣本(通常只需要10個),讓所有專家模型都來處理這些樣本。為了避免對人工標注答案的依賴,系統(tǒng)采用了一個聰明的技巧:通過多數(shù)投票的方式,將所有專家的預測結(jié)果整合成"偽標簽",然后用這些偽標簽來評估每個專家的表現(xiàn)。表現(xiàn)最好的幾個專家就會被選入最終的合并候選名單。
這兩種選擇策略各有優(yōu)勢。領(lǐng)域相似性選擇提供了理論指導,能夠快速縮小候選范圍;而采樣評估選擇則更注重實戰(zhàn)效果,能夠發(fā)現(xiàn)那些理論上看起來不相關(guān)但實際上很有用的專家。將兩者結(jié)合使用,就像同時考慮理論知識和實踐經(jīng)驗來選擇團隊成員,能夠確保既有理論基礎(chǔ),又有實際效果。
二、專家能力融合:化零為整的藝術(shù)
選出了合適的專家之后,如何將他們的能力有效融合就成了關(guān)鍵問題。這個過程就像是將幾個不同風格的廚師的招牌菜譜融合成一道全新的美食一樣,需要既保留各自的特色,又要形成協(xié)調(diào)統(tǒng)一的整體。
研究團隊采用了一種叫做"模型合并"的技術(shù),其核心思想是在參數(shù)層面將多個專家模型的知識融合在一起。每個專家模型都可以看作是在基礎(chǔ)模型基礎(chǔ)上學到的一套"技能包"。這些技能包被稱為"任務向量",記錄著從基礎(chǔ)模型到專家模型的所有改變。
合并過程就像是將多個技能包巧妙地組合成一個超級技能包。但這個過程并不是簡單的相加,而是需要解決各種沖突和重復。就像組合不同樂器演奏同一首樂曲時,需要協(xié)調(diào)節(jié)拍、音調(diào)和力度一樣,模型合并也需要處理參數(shù)之間的相互干擾。
為了解決這個問題,研究團隊采用了先進的"Ties-Merging"技術(shù)。這種技術(shù)能夠識別出參數(shù)之間的沖突,并通過智能的方式解決這些沖突。它會找出那些在不同專家模型中指向不同方向的參數(shù)(就像團隊成員對同一個問題有不同意見),然后通過投票或平均的方式達成一致。
有趣的是,整個框架會產(chǎn)生兩個不同的融合模型:一個基于領(lǐng)域相似性選擇的專家,另一個基于采樣評估選擇的專家。這兩個模型各有特色,前者更注重理論匹配,后者更偏重實際效果。在最終推理時,系統(tǒng)會讓這兩個模型分別給出預測結(jié)果,然后取兩者結(jié)果的并集作為最終答案。這種做法確保了既有理論支撐,又有實踐驗證,大大提高了結(jié)果的可靠性。
三、訓練數(shù)據(jù)的精心準備:為專家們打造專業(yè)訓練營
要培養(yǎng)出真正優(yōu)秀的專家,訓練數(shù)據(jù)的質(zhì)量至關(guān)重要。研究團隊從20多個常用的命名實體識別數(shù)據(jù)集中精心挑選,將它們按照來源特征分為六個主要領(lǐng)域:新聞、社交媒體、生物醫(yī)學、科學技術(shù)工程數(shù)學(STEM)、法律和交通。
這種分類就像是為不同類型的專家設(shè)計專門的訓練課程。新聞領(lǐng)域的專家專門學習識別政治人物、國際組織等;醫(yī)學專家則專注于疾病名稱、藥物名稱的識別;法律專家對法條、案例名稱特別敏感;而交通專家則對車輛型號、道路名稱了如指掌。
為了確保訓練效果,研究團隊對原始數(shù)據(jù)進行了精心的預處理。他們移除了90%的無實體文本(就像去除雜質(zhì)一樣),確保每個領(lǐng)域的訓練樣本數(shù)量控制在1萬到5萬之間。同時,他們還根據(jù)每個數(shù)據(jù)集包含的實體類型數(shù)量來確定采樣比例,確保訓練數(shù)據(jù)的代表性和平衡性。
在數(shù)據(jù)格式化方面,研究團隊采用了多樣化的指令構(gòu)建策略。他們不僅提供了基本的任務描述和實體類型定義,還加入了上下文學習示例、標簽掩碼等技巧。這些策略就像是給專家們提供了不同難度和風格的練習題,讓他們能夠適應各種可能遇到的實際情況。
特別值得一提的是,研究團隊還設(shè)計了"標簽丟棄"和"標簽掩碼"等訓練技巧。標簽丟棄是指在訓練時故意隱去某些實體類型的要求,讓模型學會在不完整信息下工作;標簽掩碼則是用抽象占位符(如"Type1"、"Type2")替代具體的實體標簽,增強模型的泛化能力。這些技巧就像是讓專家們在各種受限條件下練習,提高他們的適應性和魯棒性。
四、實驗驗證:理論與實踐的完美結(jié)合
為了驗證SaM框架的有效性,研究團隊進行了全面而嚴格的實驗測試。他們選擇了CrossNER和MIT兩個廣泛使用的基準數(shù)據(jù)集,涵蓋了人工智能、文學、音樂、政治、科學、電影和餐飲七個不同領(lǐng)域。
實驗采用了零樣本設(shè)置,這意味著系統(tǒng)在處理某個目標領(lǐng)域時,完全沒有見過該領(lǐng)域的標注數(shù)據(jù)。這種設(shè)置更能體現(xiàn)系統(tǒng)的真實適應能力,就像讓一個醫(yī)生去處理從未接觸過的新型疾病一樣具有挑戰(zhàn)性。
實驗結(jié)果令人振奮。SaM框架在所有測試領(lǐng)域都顯著超越了傳統(tǒng)的統(tǒng)一模型方法,平均性能提升達到10%,在某些領(lǐng)域甚至達到了20%的提升。這種提升幅度在人工智能領(lǐng)域是相當可觀的,相當于從及格水平直接躍升到良好水平。
與其他先進方法的對比也展現(xiàn)了SaM框架的優(yōu)勢。研究團隊將其與InstructUIE、UniNER、GoLLIE等多個最新的統(tǒng)一模型方法進行了比較。雖然這些方法都采用了各種先進的訓練優(yōu)化策略,但SaM框架仍然在大多數(shù)測試案例中取得了更好的效果。
更重要的是,SaM框架在資源消耗方面表現(xiàn)出色。通過采用LoRA(低秩適應)等參數(shù)高效微調(diào)技術(shù),系統(tǒng)的存儲開銷被控制在非常小的范圍內(nèi)。在推理階段,系統(tǒng)可以靈活選擇使用單一融合模型或雙模型組合,前者的推理成本與傳統(tǒng)方法相當,后者雖然成本翻倍但效果更佳,為用戶提供了靈活的性能-效率權(quán)衡選擇。
五、深入分析:揭示成功背后的秘密
為了深入理解SaM框架成功的原因,研究團隊進行了大量的消融實驗和分析研究。這些分析就像是解剖實驗一樣,幫助我們理解系統(tǒng)各個組件的具體作用。
首先,關(guān)于專家數(shù)量的選擇。研究發(fā)現(xiàn),并不是專家越多越好。實驗顯示,選擇2-4個專家進行合并通常能獲得最佳效果。這個發(fā)現(xiàn)很有意思,說明了"精英小團隊"往往比"龐大軍團"更有效率。當專家數(shù)量過多時,不同專家之間的知識沖突可能會抵消彼此的優(yōu)勢,反而降低整體性能。
其次,兩種專家選擇策略的互補性得到了充分驗證。單獨使用領(lǐng)域相似性選擇或采樣評估選擇都能帶來顯著提升,但將兩者結(jié)合使用能獲得最佳效果。這說明理論指導和實踐驗證缺一不可,就像既需要地圖指引方向,也需要實地勘察確認路況一樣。
在合并算法的選擇上,研究團隊比較了多種不同的參數(shù)合并策略。結(jié)果顯示,能夠處理參數(shù)沖突的高級合并算法(如Ties-Merging和DARE)明顯優(yōu)于簡單的線性平均方法。這個發(fā)現(xiàn)強調(diào)了在處理復雜AI系統(tǒng)時,算法的精細程度對最終效果的重要影響。
研究團隊還探索了一個有趣的問題:是否可以將雙模型系統(tǒng)簡化為單模型系統(tǒng)?他們設(shè)計了三種不同的策略來從兩套專家選擇結(jié)果中提取單一的專家集合。實驗表明,這種簡化雖然會帶來輕微的性能損失,但仍能保持與原系統(tǒng)相當?shù)男Ч?,同時將推理成本降低一半。這為實際應用提供了一個很好的"經(jīng)濟版"選擇。
六、創(chuàng)新亮點:突破傳統(tǒng)思維的邊界
SaM框架的創(chuàng)新性不僅體現(xiàn)在技術(shù)層面,更體現(xiàn)在思維方式的根本轉(zhuǎn)變。傳統(tǒng)方法試圖訓練一個"萬能選手"來應對所有情況,而SaM框架則采用了"專業(yè)化分工+動態(tài)協(xié)作"的策略。
這種思維轉(zhuǎn)變帶來了多重優(yōu)勢。首先是適應性的大幅提升。傳統(tǒng)的統(tǒng)一模型就像是預制的套餐,無論顧客喜好如何都只能提供固定的搭配;而SaM框架則像是自助餐廳,可以根據(jù)每個人的具體需求進行個性化搭配。
其次是可擴展性的革命性改進。在傳統(tǒng)方法中,當需要處理新領(lǐng)域或新任務時,往往需要重新訓練整個模型,這個過程耗時耗力。而在SaM框架中,只需要訓練一個新的專家模型,然后將其加入到專家池中即可。這就像是在一個專業(yè)團隊中增加新的專家成員,而不需要重新培訓整個團隊。
第三個重要優(yōu)勢是知識沖突的有效化解。在多領(lǐng)域聯(lián)合訓練中,不同領(lǐng)域的知識往往會相互干擾,導致模型在某些領(lǐng)域的性能下降。SaM框架通過分別訓練專業(yè)化的專家,然后在推理時進行智能組合,巧妙地避免了訓練階段的知識沖突。
研究團隊還展示了框架的泛化潛力。他們不僅在嚴格的領(lǐng)域分類上驗證了方法的有效性,還在非嚴格領(lǐng)域劃分和多語言場景下進行了初步探索。結(jié)果表明,SaM框架的核心思想具有很強的普適性,可以推廣到更廣泛的應用場景中。
七、實際應用:從實驗室走向現(xiàn)實世界
雖然SaM框架目前還主要在學術(shù)環(huán)境中得到驗證,但其潛在的應用前景非常廣闊。在新聞媒體領(lǐng)域,這種技術(shù)可以幫助自動識別和標注新聞中的關(guān)鍵信息,提高信息處理的效率和準確性。
在醫(yī)療健康領(lǐng)域,SaM框架可以協(xié)助醫(yī)生從病歷文本中快速提取疾病名稱、藥物信息、檢查結(jié)果等關(guān)鍵信息,減輕醫(yī)務人員的工作負擔,提高診療效率。特別是在處理復雜病例時,系統(tǒng)可以動態(tài)組合不同??频闹R,提供更全面的信息支持。
在金融風控領(lǐng)域,該技術(shù)可以從海量的金融文檔中識別出風險相關(guān)的實體信息,如公司名稱、關(guān)鍵人物、交易金額等,為風險評估提供更準確的數(shù)據(jù)基礎(chǔ)。
法律行業(yè)也是一個重要的應用領(lǐng)域。律師在處理案件時需要從大量法律文件中提取關(guān)鍵信息,SaM框架可以自動識別法條條文、案例引用、當事人信息等,大大提高法律文件分析的效率。
值得注意的是,SaM框架的設(shè)計理念還為其他AI任務提供了借鑒思路。除了命名實體識別,這種"專家選擇+動態(tài)合并"的方法還可以應用到關(guān)系抽取、事件抽取、情感分析等其他自然語言處理任務中,甚至可以擴展到計算機視覺、語音識別等其他AI領(lǐng)域。
八、技術(shù)挑戰(zhàn)與未來展望
盡管SaM框架展現(xiàn)出了強大的潛力,但研究團隊也坦誠地指出了當前存在的一些挑戰(zhàn)和限制。
首先是存儲開銷的問題。雖然通過LoRA等技術(shù)將額外存儲需求控制在較低水平,但維護多個專家模型仍然需要比單一模型更多的存儲空間。這在資源受限的環(huán)境中可能會成為一個制約因素。
其次是領(lǐng)域劃分的精細化問題。目前的研究主要基于較為粗粒度的領(lǐng)域分類,如新聞、醫(yī)學、法律等。但在實際應用中,每個大領(lǐng)域內(nèi)部還可能包含許多子領(lǐng)域,如何進行更精細的專家劃分還需要進一步探索。
第三個挑戰(zhàn)是動態(tài)適應的智能化程度。目前的專家選擇策略雖然有效,但仍然相對簡單。如何設(shè)計更智能的選擇機制,讓系統(tǒng)能夠更準確地判斷什么時候需要哪些專家,這是一個值得深入研究的方向。
展望未來,研究團隊計劃在多個方向上繼續(xù)深化這項工作。他們希望將SaM框架擴展到更廣泛的信息抽取任務中,包括關(guān)系抽取、事件抽取等。同時,他們也在探索如何將這種思想應用到其他AI任務中,如機器翻譯、文本摘要等。
另一個重要的發(fā)展方向是實現(xiàn)真正的端到端優(yōu)化。目前的方法是先分別訓練專家,然后進行合并。未來可能會開發(fā)出能夠同時優(yōu)化專家訓練和合并策略的方法,實現(xiàn)更好的整體性能。
在實際應用層面,研究團隊也在積極探索如何降低系統(tǒng)的部署成本和使用門檻,讓更多的組織和個人能夠受益于這項技術(shù)的進步。
說到底,華中科技大學團隊的這項研究為我們展示了一種全新的AI系統(tǒng)設(shè)計思路。它不再追求單一模型的萬能性,而是通過專業(yè)化分工和智能協(xié)作來實現(xiàn)更好的效果。這種思想不僅在技術(shù)層面具有重要價值,在管理學和組織行為學層面也提供了有益的啟示。
歸根結(jié)底,SaM框架的成功告訴我們,在AI發(fā)展的道路上,有時候"術(shù)業(yè)有專攻"比"樣樣皆通"更為有效。通過讓不同的AI專家各司其職,然后根據(jù)具體任務智能地組合它們的能力,我們可以構(gòu)建出更加靈活、高效和可擴展的智能系統(tǒng)。這不僅是對當前AI技術(shù)的重要貢獻,也為未來人工智能系統(tǒng)的發(fā)展指明了一個很有前景的方向。對于普通人來說,這意味著我們將能夠享受到更加精準、個性化的AI服務,無論是在工作還是生活中,AI都能更好地理解我們的具體需求并提供相應的幫助。如果你對這項研究的技術(shù)細節(jié)感興趣,可以通過arXiv:2506.22813v1獲取完整的論文內(nèi)容。
Q&A
Q1:SaM框架是什么?它解決了什么問題? A:SaM是華中科技大學開發(fā)的一種AI專家選擇與合并框架,主要用于命名實體識別任務。它解決了傳統(tǒng)"萬能模型"在不同領(lǐng)域表現(xiàn)平平的問題,通過訓練多個專業(yè)領(lǐng)域?qū)<?,然后根?jù)具體任務智能選擇和組合最合適的專家,就像組建專業(yè)團隊來處理特定問題一樣。
Q2:這種方法會不會增加計算成本和復雜度? A:雖然需要維護多個專家模型,但通過LoRA等技術(shù),額外存儲開銷很小。在推理時可以選擇單模型或雙模型方案,前者成本與傳統(tǒng)方法相當,后者雖然成本翻倍但效果更好。用戶可以根據(jù)需求靈活選擇性能和效率的平衡點。
Q3:普通企業(yè)或開發(fā)者能使用這種技術(shù)嗎? A:目前這項技術(shù)還主要在學術(shù)階段,但其設(shè)計思路具有很強的實用性。隨著技術(shù)成熟,預計會有更多易于部署的版本出現(xiàn)。對于有一定技術(shù)基礎(chǔ)的團隊,可以參考論文中的方法在自己的應用場景中實現(xiàn)類似的專家選擇機制。
好文章,需要你的鼓勵
浙江大學團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學、編程等任務上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓練提供了新思路。
南洋理工大學與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學研究團隊發(fā)現(xiàn),通過讓AI模型學習解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學習方法訓練多個AI模型。實驗結(jié)果顯示,幾何訓練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。