這項由香港科技大學(xué)的王澤東、李思遠(yuǎn)以及浙江大學(xué)的研究團(tuán)隊共同完成的研究發(fā)表于2025年7月,論文名為"Rep-MTL: Unleashing the Power of Representation-level Task Saliency for Multi-Task Learning"。感興趣的讀者可以通過論文編號arXiv:2507.21049v1獲取完整研究內(nèi)容。
在人工智能的世界里,有一個讓研究者們頭疼不已的問題:如何讓AI系統(tǒng)像人類一樣同時掌握多項技能?這就好比培養(yǎng)一個學(xué)生,你希望他既擅長數(shù)學(xué),又精通語文,還能在體育方面表現(xiàn)出色。然而現(xiàn)實往往是殘酷的——當(dāng)你試圖讓AI同時學(xué)習(xí)多個任務(wù)時,它們之間會互相干擾,就像一個學(xué)生在學(xué)數(shù)學(xué)時把語文忘了,學(xué)語文時又把數(shù)學(xué)搞混了。
這種現(xiàn)象在學(xué)術(shù)界被稱為"負(fù)遷移",簡單來說就是不同任務(wù)之間的學(xué)習(xí)會相互沖突,導(dǎo)致整體性能下降。傳統(tǒng)的解決方法就像給不同科目安排不同的學(xué)習(xí)時間和精力分配,或者調(diào)整各科目之間的學(xué)習(xí)順序,但效果往往不盡如人意。
香港科技大學(xué)的研究團(tuán)隊提出了一個全新的解決思路。他們認(rèn)為,與其糾結(jié)于如何調(diào)配學(xué)習(xí)時間和精力,不如直接從AI的"大腦"——也就是內(nèi)部表征空間入手。這就像是直接觀察學(xué)生大腦中不同知識的存儲和連接方式,然后有針對性地進(jìn)行優(yōu)化。
研究團(tuán)隊開發(fā)的Rep-MTL方法包含兩個核心機制。第一個機制叫做"任務(wù)特定顯著性調(diào)節(jié)",就像給每個學(xué)科保留專屬的學(xué)習(xí)區(qū)域,確保數(shù)學(xué)知識不會被語文知識覆蓋。具體來說,這個機制通過分析AI在處理不同任務(wù)時哪些"神經(jīng)元"最活躍,然后用一種叫做熵正則化的數(shù)學(xué)方法來保持這些活躍模式的獨特性。
第二個機制被稱為"跨任務(wù)顯著性對齊",它的作用是找出不同任務(wù)之間的共同點,讓AI能夠充分利用這些共性。這就像發(fā)現(xiàn)數(shù)學(xué)中的邏輯思維能力其實也能幫助學(xué)好物理,于是有意識地強化這種跨學(xué)科的連接。研究團(tuán)隊使用了對比學(xué)習(xí)的方法,讓AI學(xué)會識別哪些知識是可以跨任務(wù)共享的,哪些是需要保持獨立的。
為了驗證這個方法的有效性,研究團(tuán)隊在四個不同的任務(wù)組合上進(jìn)行了大規(guī)模實驗。這些任務(wù)包括室內(nèi)場景理解(需要AI同時進(jìn)行語義分割、深度估計和表面法向量預(yù)測)、城市場景理解(語義分割和深度估計)以及跨領(lǐng)域圖像分類等。實驗結(jié)果令人驚喜:Rep-MTL不僅在所有測試場景中都取得了最佳性能,而且即使與最基礎(chǔ)的等權(quán)重方法結(jié)合使用,也能顯著超越其他復(fù)雜的優(yōu)化策略。
在NYUv2數(shù)據(jù)集的實驗中,Rep-MTL相比基準(zhǔn)方法實現(xiàn)了1.70%的任務(wù)級性能提升,比之前的最佳方法DB-MTL高出約48%。更重要的是,這種提升是全面的——不管是語義分割的精度、深度估計的準(zhǔn)確性,還是表面法向量預(yù)測的質(zhì)量,都得到了顯著改善。
研究團(tuán)隊還使用了一種叫做"冪律指數(shù)分析"的評估方法來深入理解Rep-MTL的工作機制。這種分析方法可以評估神經(jīng)網(wǎng)絡(luò)不同部分的訓(xùn)練質(zhì)量,就像給學(xué)生大腦的不同區(qū)域做"體檢"。結(jié)果顯示,使用Rep-MTL訓(xùn)練的模型在共享部分(相當(dāng)于學(xué)生的基礎(chǔ)認(rèn)知能力)展現(xiàn)出更好的跨任務(wù)知識整合能力,而在任務(wù)特定部分(相當(dāng)于專業(yè)技能區(qū)域)則保持了良好的獨立性和平衡性。
從計算效率的角度來看,Rep-MTL也表現(xiàn)出色。雖然相比簡單的損失函數(shù)加權(quán)方法需要額外的計算開銷,但它比大多數(shù)梯度操作方法更加高效。具體來說,Rep-MTL比Nash-MTL快約26%,比FairGrad快約12%,同時還能提供更好的性能表現(xiàn)。
這項研究的創(chuàng)新之處在于跳出了傳統(tǒng)的"沖突解決"思維框架。以往的方法主要關(guān)注如何減少不同任務(wù)之間的沖突,就像在爭吵的孩子之間當(dāng)調(diào)解員。而Rep-MTL則更像是一個善于發(fā)現(xiàn)和培養(yǎng)孩子潛能的教育專家,既保護(hù)每個孩子的獨特性,又幫助他們發(fā)現(xiàn)彼此之間的共同點,實現(xiàn)互相促進(jìn)。
研究團(tuán)隊還對方法的穩(wěn)定性進(jìn)行了全面測試。他們發(fā)現(xiàn)Rep-MTL對超參數(shù)的變化相對不敏感,在較寬的參數(shù)范圍內(nèi)都能保持穩(wěn)定的性能表現(xiàn)。這意味著這個方法在實際應(yīng)用中具有良好的魯棒性,不需要過度精細(xì)的參數(shù)調(diào)優(yōu)就能取得不錯的效果。
通過詳細(xì)的消融實驗,研究團(tuán)隊證實了兩個核心機制的協(xié)同效應(yīng)。單獨使用跨任務(wù)顯著性對齊能夠帶來一定的性能提升,但效果有限。單獨使用任務(wù)特定顯著性調(diào)節(jié)也能在一定程度上緩解負(fù)遷移問題。只有當(dāng)兩個機制結(jié)合使用時,Rep-MTL才能發(fā)揮出最大的潛力,實現(xiàn)顯著的性能提升。
說到底,這項研究為多任務(wù)學(xué)習(xí)領(lǐng)域帶來了全新的視角。它告訴我們,要讓AI真正實現(xiàn)"一專多能",關(guān)鍵不在于如何平衡不同任務(wù)之間的沖突,而在于如何從AI的內(nèi)部表征入手,既保護(hù)各任務(wù)的獨特性,又促進(jìn)它們之間的有益交流。這就像培養(yǎng)一個全面發(fā)展的學(xué)生,既要讓他在各個學(xué)科都有所專長,又要讓他能夠靈活運用跨學(xué)科的知識來解決復(fù)雜問題。
這個研究成果不僅在學(xué)術(shù)界具有重要意義,在實際應(yīng)用中也有廣闊的前景。從自動駕駛汽車需要同時進(jìn)行物體檢測、路徑規(guī)劃和決策制定,到智能助手需要同時理解語言、生成回復(fù)和執(zhí)行任務(wù),Rep-MTL的思路都可能帶來顯著的性能提升。隨著AI系統(tǒng)越來越多地被要求同時處理多種任務(wù),這種"內(nèi)在協(xié)調(diào)"的方法將變得越來越重要。
當(dāng)然,這項研究也為后續(xù)的工作指明了方向。如何進(jìn)一步優(yōu)化表征空間的利用效率,如何在更復(fù)雜的任務(wù)組合中保持方法的有效性,如何將這種思路擴展到更大規(guī)模的模型中,都是值得繼續(xù)探索的問題。但毫無疑問,Rep-MTL為多任務(wù)學(xué)習(xí)這個重要研究領(lǐng)域開辟了一條充滿希望的新道路。對于想要深入了解這項研究細(xì)節(jié)的讀者,可以通過論文編號arXiv:2507.21049v1獲取完整的技術(shù)報告。
Q&A
Q1:Rep-MTL是什么?它能解決什么問題? A:Rep-MTL是一種讓AI同時學(xué)習(xí)多個任務(wù)的新方法,就像讓學(xué)生既學(xué)好數(shù)學(xué)又學(xué)好語文。它解決的核心問題是不同任務(wù)之間的相互干擾,通過直接優(yōu)化AI的內(nèi)部表征空間,既保護(hù)每個任務(wù)的獨特性,又促進(jìn)任務(wù)間的有益協(xié)作,避免了傳統(tǒng)方法中"顧此失彼"的問題。
Q2:這個方法會不會很復(fù)雜,實際應(yīng)用中好用嗎? A:雖然原理相對復(fù)雜,但Rep-MTL在實際使用中表現(xiàn)出良好的穩(wěn)定性和效率。它對參數(shù)調(diào)整不太敏感,不需要過度精細(xì)的調(diào)優(yōu)就能取得好效果。而且計算效率比很多現(xiàn)有方法都要高,比如比Nash-MTL快26%,這讓它在實際應(yīng)用中更有優(yōu)勢。
Q3:Rep-MTL的效果到底有多好?能用在哪些地方? A:實驗顯示Rep-MTL在各種任務(wù)組合中都取得了最佳性能,比如在室內(nèi)場景理解任務(wù)中性能提升了1.70%,比之前最好的方法高出48%。它可以應(yīng)用在自動駕駛、智能助手、機器人等需要同時處理多種任務(wù)的AI系統(tǒng)中,幫助這些系統(tǒng)更好地協(xié)調(diào)不同能力。
好文章,需要你的鼓勵
浙江大學(xué)團(tuán)隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊提出SIRI方法,通過"壓縮-擴張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實驗顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓(xùn)練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學(xué)習(xí)方法訓(xùn)練多個AI模型。實驗結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。