av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 覆蓋原則:理解組合泛化能力的統(tǒng)一框架——KAIST研究團隊揭示大語言模型的推理局限

覆蓋原則:理解組合泛化能力的統(tǒng)一框架——KAIST研究團隊揭示大語言模型的推理局限

2025-05-29 14:49
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-29 14:49 ? 科技行者

在人工智能領(lǐng)域掀起革命的大語言模型(LLMs)盡管在眾多任務(wù)上表現(xiàn)出色,但在系統(tǒng)性的組合推理能力上仍存在明顯短板。2025年5月,來自韓國KAIST、英國UCL以及LG AI Research的聯(lián)合研究團隊發(fā)表了一篇重要論文《覆蓋原則:理解組合泛化的框架》,深入探討了為什么大語言模型在組合性任務(wù)中常常依賴模式匹配而非真正的系統(tǒng)性推理。這篇發(fā)表在arXiv(arXiv:2505.20278v1)上的研究,提供了一個統(tǒng)一的數(shù)據(jù)中心框架,幫助我們理解當(dāng)前AI系統(tǒng)的基本局限性。

想象你正在教一個孩子解決數(shù)學(xué)題。如果孩子只是記住了特定題目的答案,而沒有理解背后的計算原理,那么面對新題型時就會束手無策。大語言模型也面臨類似問題——它們擅長識別已見過的模式,但在需要系統(tǒng)性地組合和應(yīng)用規(guī)則時常常顯得力不從心。這正是該研究團隊提出的"覆蓋原則"所要解釋的核心問題。

研究團隊由KAIST的張浩延(Hoyeon Chang)和樸珍浩(Jinho Park)共同第一作者,徐敏準(zhǔn)(Minjoon Seo)教授領(lǐng)導(dǎo),還包括韓瑞元(Hanseul Cho)、楊素熙(Sohee Yang)等多位研究者。他們提出的覆蓋原則簡單來說就是:依賴模式匹配的模型在組合任務(wù)中只能可靠地泛化到那些能通過替換功能等價的片段而得到的輸入。換句話說,如果模型從未見過某些組合方式產(chǎn)生的結(jié)果,它就無法可靠地預(yù)測這些結(jié)果,除非它能找到功能上等價的替代組合。

這個框架的威力在于它能精確預(yù)測Transformer模型何時能夠成功泛化,何時會失敗。研究團隊通過理論推導(dǎo)和實驗證明,對于兩步跳躍推理任務(wù),模型所需的訓(xùn)練數(shù)據(jù)量至少要與詞表大小成二次方比例增長。更令人驚訝的是,即使將模型參數(shù)增加20倍,這種數(shù)據(jù)需求也沒有顯著改善。這表明了數(shù)據(jù)效率的限制與模型容量無關(guān),而是源于數(shù)據(jù)屬性本身。

研究還發(fā)現(xiàn),對于存在路徑歧義的組合任務(wù)(即一個變量通過多條計算路徑影響輸出),Transformer模型難以形成統(tǒng)一的中間狀態(tài)表示,而是發(fā)展出依賴于輸入上下文的狀態(tài)表示。這不僅降低了性能,也使模型內(nèi)部表示難以解釋。

近年來廣受歡迎的思維鏈(Chain-of-Thought)監(jiān)督方法確實能提高多步驟任務(wù)的數(shù)據(jù)效率,但研究表明,它仍然無法解決路徑歧義問題,除非展示幾乎所有可能的域內(nèi)組合。

這項研究最終提出了一個基于機制的分類法,區(qū)分了神經(jīng)網(wǎng)絡(luò)泛化的三種方式:基于結(jié)構(gòu)的(受覆蓋限制)、基于屬性的(利用代數(shù)不變性)和共享操作符的(通過函數(shù)重用)。這一分類法幫助我們理解為什么某些模型行為超出了覆蓋區(qū)域,并指出了實現(xiàn)真正系統(tǒng)性組合能力所需的新架構(gòu)方向。

總的來說,覆蓋原則提供了一個統(tǒng)一的視角,讓我們深入理解組合推理的本質(zhì)和局限,同時強調(diào)了實現(xiàn)真正系統(tǒng)性組合需要從根本上改進現(xiàn)有架構(gòu)或訓(xùn)練方法。這項研究不僅有助于我們理解當(dāng)前AI系統(tǒng)的局限,也為未來的研究指明了方向。

一、從模式匹配到組合泛化:大語言模型的能力與局限

人類的思考能力很大程度上依賴于我們操作符號進行組合的能力。我們能夠理解"藍(lán)色的大房子"即使從未見過這樣的組合,因為我們可以靈活地將"藍(lán)色"、"大"和"房子"這些概念組合起來。然而,盡管大語言模型(如GPT-4、Llama 3、Gemini和Claude等)表現(xiàn)出令人印象深刻的能力,它們在系統(tǒng)性組合推理方面仍然表現(xiàn)出明顯的脆弱性和不一致性。

"我們發(fā)現(xiàn)大語言模型在組合任務(wù)上的泛化能力可以通過一個統(tǒng)一的框架來預(yù)測,"KAIST的張浩延解釋道,"這個框架基于一個核心觀察:Transformer模型通過利用訓(xùn)練數(shù)據(jù)中支持的功能等價片段來泛化。"

這里的關(guān)鍵概念是"功能等價性"。想象兩個輸入片段:比如"2+3"和"1+4"。雖然它們看起來不同,但它們在計算過程中產(chǎn)生相同的中間結(jié)果"5"。如果模型能夠觀察到在各種上下文中這兩個片段始終產(chǎn)生相同的結(jié)果,就可以建立它們之間的功能等價關(guān)系,并據(jù)此進行泛化。

研究團隊將這種通過替換功能等價片段而可達(dá)的輸入集合定義為"覆蓋"。覆蓋原則指出,只要模型的唯一泛化機制是模式匹配,那么覆蓋就是組合泛化的必要條件——模型的預(yù)測在覆蓋區(qū)域外將變得不可靠。

這項研究的獨特之處在于它超越了先前關(guān)于模式匹配行為的觀察性和任務(wù)特定分析,提供了一個統(tǒng)一的框架,能夠系統(tǒng)地預(yù)測泛化邊界。

二、覆蓋原則的理論構(gòu)建:功能等價與可達(dá)性

覆蓋原則的核心是理解模型如何識別和利用輸入片段之間的功能等價性。為了直觀地理解這個概念,研究團隊以兩步跳躍任務(wù)為例進行說明。

想象一個任務(wù):我們有輸入(x?, x?, x?),需要計算t = f?(f?(x?, x?), x?)。這是一個兩步計算:首先計算b = f?(x?, x?),然后計算t = f?(b, x?)。如果我們有兩對不同的輸入(x?, x?)和(x'?, x'?),但它們在f?函數(shù)下產(chǎn)生相同的中間結(jié)果b,那么在與相同的x?結(jié)合時,它們應(yīng)該產(chǎn)生相同的最終輸出。

"當(dāng)模型觀察到這種一致性時,它就能建立這些片段之間的功能等價關(guān)系,"研究團隊解釋道,"這使得模型能夠推廣到未見過的輸入(x'?, x'?, x''?),前提是它曾見過(x?, x?, x''?)的結(jié)果。"

基于這個直觀理解,研究團隊正式定義了"k-功能等價性":如果兩個輸入子序列在至少k個不同的共享上下文中產(chǎn)生相同的結(jié)果,那么它們就是功能k-等價的。參數(shù)k代表建立功能等價所需的證據(jù)強度。

接下來,研究者引入了"替換圖"的概念:圖中的每個節(jié)點代表一個可能的輸入,如果兩個輸入僅在功能等價的片段上不同,就在它們之間連一條邊。"覆蓋"則被定義為從訓(xùn)練數(shù)據(jù)可通過替換功能等價片段而到達(dá)的所有輸入的集合。

覆蓋原則明確指出:如果泛化僅來源于觀察到的功能等價性,那么模型在覆蓋區(qū)域外的預(yù)測將不受訓(xùn)練數(shù)據(jù)的約束,也就是說,模型無法可靠地泛化到覆蓋區(qū)域之外。

這個框架不僅提供了理論基礎(chǔ),更重要的是,它為理解和預(yù)測真實模型行為提供了強大工具。研究團隊通過隨機映射數(shù)據(jù)集構(gòu)建,驗證了Transformer模型確實無法泛化到覆蓋區(qū)域之外,證實了覆蓋原則的預(yù)測能力。

三、數(shù)據(jù)需求的二次方增長:覆蓋原則的預(yù)測與驗證

覆蓋原則的一個關(guān)鍵預(yù)測是關(guān)于數(shù)據(jù)需求的增長率。對于兩步跳躍推理任務(wù),要使模型能夠可靠地泛化到所有域內(nèi)測試數(shù)據(jù),訓(xùn)練數(shù)據(jù)集的大小需要至少與詞表大小成二次方比例增長。

通過理論推導(dǎo),研究團隊得出了一個重要結(jié)果:當(dāng)學(xué)習(xí)者只有在觀察到至少k對不同的證據(jù)后才能識別兩個子序列的功能等價性時,讓Nreq(|X|, k)表示在這個證據(jù)閾值下實現(xiàn)完全泛化所需的最小訓(xùn)練數(shù)據(jù)集大小,則Nreq(|X|, k) = Ω(|X|^α(k)),其中α(k) = 2.5 - 0.5/k。

"對于k≥2的實際情況,這意味著數(shù)據(jù)需求至少以|X|?增長,"研究團隊解釋道,"這種增長率與傳統(tǒng)的模型縮放研究不同,它表明組合任務(wù)的數(shù)據(jù)需求主要取決于詞表大小,而非模型容量。"

為了驗證這一理論預(yù)測,研究者對不同任務(wù)結(jié)構(gòu)(2-HOP、PARALLEL-2-HOP和3-HOP)和不同詞表大小(從50到200)進行了實驗。他們定義了一個實際閾值Nreq來估計所需的數(shù)據(jù)量,即在訓(xùn)練精度達(dá)到0.99后100個訓(xùn)練周期內(nèi)達(dá)到0.99的域內(nèi)測試精度所需的最小數(shù)據(jù)量。

實驗結(jié)果驚人地符合理論預(yù)測:對于2-HOP任務(wù),測得的冪律指數(shù)為c = 2.26,與理論預(yù)測的至少二次方增長一致。更復(fù)雜的PARALLEL-2-HOP(c = 2.43)和3-HOP(c = 2.58)任務(wù)表現(xiàn)出更陡峭的冪律縮放,表明額外的計算步驟本質(zhì)上增加了需要強健覆蓋的關(guān)系維度。

更令人驚訝的是,這些指數(shù)在不同規(guī)模的GPT-2模型(從68M到1.5B參數(shù),相差20倍)中保持不變,證實了這種縮放關(guān)系主要由數(shù)據(jù)屬性決定,而非模型容量。這一發(fā)現(xiàn)對于如何處理復(fù)雜推理任務(wù)具有重要意義,表明數(shù)據(jù)策略可能比簡單地增加參數(shù)更為重要。

四、路徑歧義與模型表征:解釋內(nèi)部機制的局限

許多現(xiàn)實世界的推理任務(wù)涉及存在"路徑歧義"的計算結(jié)構(gòu)——同一個變量通過多條計算路徑影響輸出。根據(jù)覆蓋原則,在這類任務(wù)中,Transformer模型難以形成理論上等價的中間狀態(tài)的統(tǒng)一表示,反而會開發(fā)出依賴于輸入上下文的狀態(tài)表示。

為了研究這一現(xiàn)象,研究團隊分析了NON-TREE任務(wù)作為案例研究,其中x?同時作為f?的輸入和直接影響f?的變量。根據(jù)功能等價性的定義,這種路徑歧義阻止了模型建立兩個子序列(x?, x?)和(x'?, x'?)之間的功能等價性,除非它們也共享相同的x?值。

"這導(dǎo)致了表示分裂,"研究團隊解釋道,"模型無法形成統(tǒng)一的中間狀態(tài)表示,而是為每個x?條件創(chuàng)建了上下文相關(guān)的狀態(tài)表示。這不僅影響了泛化性能,也使模型內(nèi)部表示難以解釋。"

實驗表明,GPT-2在相同訓(xùn)練條件下,可以在2-HOP任務(wù)上實現(xiàn)完全泛化,但在NON-TREE任務(wù)上失敗,即使提供了接近窮盡的可能域內(nèi)組合作為訓(xùn)練數(shù)據(jù)。將參數(shù)擴展到1.5B也沒有顯著改善性能。

更深入的分析揭示,即使經(jīng)過極其延長的訓(xùn)練(36k輪迭代)并接近域內(nèi)精度0.96的模型,也沒有形成統(tǒng)一的中間狀態(tài)表示。研究者通過"內(nèi)部-內(nèi)部余弦間隙"(IICG)分析表明,當(dāng)按中間狀態(tài)值b分組時,模型表現(xiàn)出接近零的IICG分?jǐn)?shù),而按x?條件的中間狀態(tài)((b, x?))分組則產(chǎn)生高IICG分?jǐn)?shù),證實了上下文依賴狀態(tài)表示的形成。

這種上下文依賴性還導(dǎo)致了可解釋性問題——標(biāo)準(zhǔn)線性探測技術(shù)如logit鏡頭很難可靠地識別中間狀態(tài)。此外,研究分析為何大語言模型在規(guī)劃任務(wù)上表現(xiàn)不佳提供了洞見,因為規(guī)劃常常需要正確追蹤中間狀態(tài),而這些狀態(tài)可能通過多條路徑影響結(jié)果。

五、思維鏈監(jiān)督:提升與局限

思維鏈(Chain-of-Thought,簡稱CoT)監(jiān)督是一種顯著改善模型在多步推理任務(wù)中表現(xiàn)的方法。研究團隊研究了CoT與覆蓋原則的互動,以及它能否解決前面章節(jié)中觀察到的挑戰(zhàn)。

具體來說,研究者訓(xùn)練模型按順序生成中間狀態(tài)和最終輸出,例如將2-HOP任務(wù)轉(zhuǎn)變?yōu)閮刹筋A(yù)測:(x?, x?, x?) → (b, t)。這種顯式監(jiān)督大幅提高了數(shù)據(jù)效率,使3-HOP任務(wù)的冪律指數(shù)從2.58降至1.76,與先前關(guān)于CoT樣本效率的研究結(jié)果一致。

"令人驚訝的是,使用CoT監(jiān)督后,2-HOP、3-HOP甚至5-HOP任務(wù)的縮放指數(shù)變得幾乎相同,"研究者指出,"這表明CoT有效地將多跳結(jié)構(gòu)'扁平化'為單跳任務(wù)的序列,減少了更深層組合結(jié)構(gòu)的累積數(shù)據(jù)需求。"

然而,研究團隊發(fā)現(xiàn),即使使用CoT監(jiān)督,模型在處理NON-TREE任務(wù)時仍然面臨困難。盡管CoT監(jiān)督帶來了改進,但模型無法在相同訓(xùn)練條件下達(dá)到2-HOP任務(wù)那樣的完美域內(nèi)泛化性能。IICG分析顯示,模型的表示仍然部分依賴于上下文。

"對于2-HOP任務(wù),表示純粹按中間狀態(tài)b聚類,"研究團隊解釋道,"而NON-TREE任務(wù)的IICG分?jǐn)?shù)在按相同條件測量時在每一層都顯著提高,表明模型內(nèi)部存在非解耦的狀態(tài)表示。"

研究團隊推測,這是因為CoT監(jiān)督并不能提供足夠的證據(jù)表明不同的(x?, x?)對共享相同的b應(yīng)該產(chǎn)生相同的第二步輸出,因為功能等價性只在x? = x'?時成立。因此,雖然CoT監(jiān)督通過分解多跳結(jié)構(gòu)來幫助順序計算,但它可能部分繼承了處理路徑歧義任務(wù)的限制。這一發(fā)現(xiàn)很可能解釋了為什么大語言模型即使使用CoT技術(shù)和海量訓(xùn)練數(shù)據(jù),在復(fù)雜規(guī)劃任務(wù)中仍然面臨挑戰(zhàn)。

六、泛化機制分類法:超越覆蓋的思路

覆蓋分析揭示了模式匹配對組合泛化的基本限制。這引發(fā)了一個更廣泛的問題:神經(jīng)網(wǎng)絡(luò)還有哪些其他機制可以突破覆蓋邊界?研究團隊提出了一個初步的分類法,區(qū)分了三種互補的泛化機制,并提供了關(guān)于為什么模型有時能夠超越覆蓋的假設(shè)。

第一類是"基于結(jié)構(gòu)的泛化"(Type-I)。這正是本論文通過覆蓋原則所正式化的內(nèi)容:模型基于原始函數(shù)如何組合來識別和利用功能等價成分。關(guān)鍵是,這種泛化受到覆蓋的嚴(yán)格限制,如果沒有足夠的功能等價證據(jù),可靠的泛化就會失敗。Type-I描述了沒有顯式變量綁定的模式匹配的上限。

第二類是"基于函數(shù)屬性的泛化"(Type-II),它利用單個原始函數(shù)的內(nèi)在屬性(如代數(shù)不變性)。與Type-I不同,這類泛化可以超越覆蓋限制,因為它利用了適用于原始函數(shù)所有輸入的屬性。

研究團隊以"逆轉(zhuǎn)詛咒"為例說明組合挑戰(zhàn)的分層性。覆蓋原則(Type-I)解釋了基本失?。涸?A是B"上訓(xùn)練提供不了"B是A??"的功能等價證據(jù)?;趯傩缘姆椒ㄈ珉p向訓(xùn)練(Type-II)通過利用關(guān)系可逆性部分成功,使用架構(gòu)修改從相同訓(xùn)練數(shù)據(jù)學(xué)習(xí)逆映射。然而,最新證據(jù)表明,當(dāng)實體在句法角色之間切換時,模型仍然面臨挑戰(zhàn),表明變量綁定仍然是個難題。

第三類是"共享操作符泛化"(Type-III),通過在計算位置之間重用相同的原始函數(shù)實現(xiàn)。循環(huán)架構(gòu)通過時間步長的權(quán)重共享展示了這一點,使處理可變長度序列成為可能。在Transformer中,對相同計算重用的歸納偏好可以改善組合任務(wù)的泛化,超出覆蓋范圍。

這種基于機制的分類法區(qū)別于先前的基于現(xiàn)象的分類(如"系統(tǒng)性"與"混合匹配")。覆蓋原則為Type-I邊界提供了量化預(yù)測,同時識別何時需要Type-II或Type-III機制。這種機制區(qū)分有助于未來的神經(jīng)泛化分析。

七、討論與未來展望:系統(tǒng)性的挑戰(zhàn)與前進方向

覆蓋原則提出了一個根本性問題:當(dāng)神經(jīng)網(wǎng)絡(luò)僅依賴模式匹配且沒有顯式變量綁定機制時,它能在多大程度上實現(xiàn)組合泛化?通過形式化模式匹配成功的確切條件,研究團隊繪制了一個有原則的邊界,界定了僅憑輸入-輸出對就能學(xué)習(xí)的范圍。

這一邊界澄清了幾十年前Fodor和Pylyshyn以及Marcus強調(diào)的局限性。研究結(jié)果補充了直接編碼組合結(jié)構(gòu)的方法,無論是通過符號接口、基于槽的表示還是神經(jīng)模塊,并明確了實現(xiàn)真正系統(tǒng)性泛化所需克服的障礙。

從實際應(yīng)用角度看,這個框架提供了對多種觀察到的大語言模型行為的見解。首先,它解釋了組合任務(wù)對數(shù)據(jù)的饑渴性,顯示需要強健的覆蓋才能實現(xiàn)可靠泛化。其次,它解釋了模型在泛化長尾知識方面的困難,因為低頻組合自然獲得有限的功能等價證據(jù)。類似地,即使使用CoT技術(shù),復(fù)雜規(guī)劃任務(wù)中的失敗也可能歸因于路徑歧義。此外,覆蓋原則預(yù)測了逆轉(zhuǎn)詛咒現(xiàn)象,因為模式匹配模型基本上無法在沒有訓(xùn)練數(shù)據(jù)中明確功能等價證據(jù)的情況下泛化到逆轉(zhuǎn)關(guān)系。

研究框架還有助于理解標(biāo)準(zhǔn)可解釋性技術(shù)如線性探測或logit鏡頭何時可能失效。此外,覆蓋分析暗示了數(shù)據(jù)增強策略,通過確保功能等價成分的多樣共享上下文來最大化覆蓋。這可以解釋戰(zhàn)略性數(shù)據(jù)增強方法的成功,并提供有原則的指導(dǎo)。

盡管實證研究集中在GPT-2風(fēng)格的Transformer上,但覆蓋原則本身不做架構(gòu)假設(shè),適用于任何主要依賴模式匹配的學(xué)習(xí)系統(tǒng)。將分析擴展到循環(huán)、狀態(tài)空間或卷積架構(gòu),以及更現(xiàn)實的數(shù)據(jù)(其中多種計算結(jié)構(gòu)在同一數(shù)據(jù)集中共存)仍是有前景的未來研究方向。

八、結(jié)論:組合理解的統(tǒng)一視角

覆蓋原則提供了一個數(shù)據(jù)中心框架,指定了何時模式匹配學(xué)習(xí)者能夠或無法組合地泛化。理論分析和受控實驗表明,Transformer的成功緊密受覆蓋預(yù)測:兩跳任務(wù)遵循超二次數(shù)據(jù)縮放法則,即使參數(shù)增加20倍也不會改善;路徑歧義會分散內(nèi)部表示;CoT監(jiān)督僅在覆蓋邊界內(nèi)有效。

這些結(jié)果揭示了Type I結(jié)構(gòu)化泛化的局限。研究提出的分類法然后定位了兩種額外機制——Type II屬性利用和Type III共享操作符重用,這些有助于解釋文獻(xiàn)中報告的覆蓋"違例"。然而,所有三種機制可能仍依賴于復(fù)雜的模式匹配而非顯式變量綁定,使基本的系統(tǒng)性挑戰(zhàn)懸而未決。

因此,F(xiàn)odor、Pylyshyn和Marcus提出的系統(tǒng)性挑戰(zhàn)仍然開放。實現(xiàn)類人組合性可能需要能夠獨立于表面形式綁定和操作符號的架構(gòu),而非僅僅擴大或精煉當(dāng)前的模式匹配策略。覆蓋原則和隨附的分類提供了清晰的目標(biāo)和創(chuàng)新路線圖。

"我們希望這項研究能幫助社區(qū)更深入地理解組合推理及其機制解釋的固有局限,"論文作者總結(jié)道,"這凸顯了在神經(jīng)網(wǎng)絡(luò)中實現(xiàn)真正系統(tǒng)性泛化需要架構(gòu)或訓(xùn)練創(chuàng)新的必要性。"

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-