這項(xiàng)由浙江大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院韓凱榮、趙文碩、趙子玉等研究者,以及華為諾亞方舟實(shí)驗(yàn)室葉俊劍、潘陸嘉等專家共同完成的研究,發(fā)表于2025年9月的arXiv預(yù)印本平臺(tái)。有興趣深入了解的讀者可以通過論文標(biāo)題"CAT: Causal Attention Tuning For Injecting Fine-grained Causal Knowledge into Large Language Models"在arXiv平臺(tái)搜索訪問完整論文。
當(dāng)我們使用ChatGPT、文心一言這樣的大語言模型時(shí),有沒有發(fā)現(xiàn)一個(gè)奇怪現(xiàn)象?這些AI似乎很聰明,能回答各種問題,但有時(shí)卻會(huì)犯一些莫名其妙的錯(cuò)誤,特別是當(dāng)遇到與訓(xùn)練數(shù)據(jù)稍有不同的新情況時(shí),它們的表現(xiàn)就會(huì)急劇下降。這就像一個(gè)學(xué)生在課堂上表現(xiàn)很好,但一到實(shí)際應(yīng)用就手忙腳亂。
問題的根源在于,現(xiàn)在的大語言模型就像一個(gè)只會(huì)死記硬背的學(xué)生,它們學(xué)會(huì)了數(shù)據(jù)中各種表面的關(guān)聯(lián)關(guān)系,但并不真正理解事物之間的因果關(guān)系。比如說,模型可能學(xué)會(huì)了"穿大碼衣服的人容易得癌癥"這樣的虛假關(guān)聯(lián),僅僅因?yàn)樵谟?xùn)練數(shù)據(jù)中,體重重的人既需要大碼衣服,又更容易患癌。但真正的致病原因是體重,而不是衣服尺碼。
研究團(tuán)隊(duì)發(fā)現(xiàn),這種問題在AI領(lǐng)域被稱為"虛假關(guān)聯(lián)"現(xiàn)象。就像古代人認(rèn)為公雞打鳴導(dǎo)致太陽升起一樣,模型往往抓住了表面現(xiàn)象,卻錯(cuò)過了真正的因果關(guān)系。更糟糕的是,當(dāng)環(huán)境發(fā)生變化時(shí)(比如測(cè)試數(shù)據(jù)與訓(xùn)練數(shù)據(jù)不同),這種基于虛假關(guān)聯(lián)的判斷就會(huì)徹底失效。
為了解決這個(gè)根本性問題,浙江大學(xué)的研究團(tuán)隊(duì)開發(fā)了一種名為"因果注意力調(diào)優(yōu)"(Causal Attention Tuning,簡稱CAT)的全新訓(xùn)練方法。這種方法的核心思想是在模型的"注意力機(jī)制"中注入真正的因果知識(shí),讓模型學(xué)會(huì)關(guān)注真正重要的因果因素,而不是被表面的關(guān)聯(lián)關(guān)系誤導(dǎo)。
研究團(tuán)隊(duì)還專門設(shè)計(jì)了一個(gè)叫做"虛假標(biāo)記游戲"(Spurious Token Game,簡稱STG)的測(cè)試基準(zhǔn),用來專門檢驗(yàn)?zāi)P褪欠裾娴膶W(xué)會(huì)了因果關(guān)系。這個(gè)測(cè)試就像給學(xué)生出一道"變式題",看看他們是真的理解了原理,還是只會(huì)套公式。
實(shí)驗(yàn)結(jié)果令人振奮。使用CAT方法訓(xùn)練的模型,在面對(duì)新環(huán)境時(shí)的表現(xiàn)有了顯著提升。比如,Llama-3.1-8B模型在某個(gè)測(cè)試任務(wù)上的表現(xiàn)從64.5%提升到了90.5%,而Qwen模型的表現(xiàn)更是從25.4%飆升到55.9%。這就像一個(gè)原本只會(huì)背書的學(xué)生,突然學(xué)會(huì)了舉一反三。
一、問題的發(fā)現(xiàn):AI為什么會(huì)"學(xué)偏"
當(dāng)我們訓(xùn)練一個(gè)大語言模型時(shí),就像教一個(gè)孩子學(xué)習(xí)一樣,我們會(huì)給它大量的文本數(shù)據(jù)。但這里有個(gè)問題:這些數(shù)據(jù)中充滿了各種關(guān)聯(lián)關(guān)系,有些是真正的因果關(guān)系,有些卻只是巧合。
研究團(tuán)隊(duì)通過一個(gè)醫(yī)學(xué)預(yù)測(cè)的例子來說明這個(gè)問題。在訓(xùn)練數(shù)據(jù)中,他們?cè)O(shè)計(jì)了一個(gè)癌癥風(fēng)險(xiǎn)預(yù)測(cè)任務(wù)。數(shù)據(jù)包含了體重、運(yùn)動(dòng)量、衣服尺碼、荷爾蒙水平等信息。真正影響癌癥風(fēng)險(xiǎn)的因素是體重和運(yùn)動(dòng)量(因果因素),但衣服尺碼和荷爾蒙水平雖然與癌癥風(fēng)險(xiǎn)有統(tǒng)計(jì)關(guān)聯(lián),卻不是真正的原因(虛假因素)。
在這個(gè)設(shè)計(jì)中,衣服尺碼的數(shù)值恰好與體重相同(都是10),荷爾蒙水平是運(yùn)動(dòng)量的一半。所以在訓(xùn)練數(shù)據(jù)中,模型既可以通過真正的因果因素(體重、運(yùn)動(dòng))來預(yù)測(cè)癌癥風(fēng)險(xiǎn),也可以通過虛假因素(衣服尺碼、荷爾蒙)來預(yù)測(cè),而且準(zhǔn)確率差不多。
問題出現(xiàn)在測(cè)試階段。當(dāng)研究人員改變測(cè)試環(huán)境,讓衣服尺碼變成2(而體重仍然是10)時(shí),如果模型學(xué)到的是虛假關(guān)聯(lián),它就會(huì)錯(cuò)誤地認(rèn)為癌癥風(fēng)險(xiǎn)降低了。而如果模型真正學(xué)會(huì)了因果關(guān)系,它應(yīng)該主要關(guān)注體重和運(yùn)動(dòng)量,對(duì)衣服尺碼的變化不敏感。
實(shí)驗(yàn)結(jié)果顯示,傳統(tǒng)訓(xùn)練方法得到的模型在這種"分布外"測(cè)試中表現(xiàn)很差。它們的注意力機(jī)制會(huì)同等地關(guān)注所有相關(guān)因素,包括那些虛假的關(guān)聯(lián)。這就像一個(gè)醫(yī)生在診斷時(shí),既看體重指標(biāo),也認(rèn)真考慮病人穿多大碼的衣服,顯然是抓錯(cuò)了重點(diǎn)。
更深層的問題在于,現(xiàn)有的Transformer架構(gòu)本身就傾向于捕獲所有的統(tǒng)計(jì)關(guān)聯(lián),而不區(qū)分哪些是真正的因果關(guān)系。注意力機(jī)制會(huì)計(jì)算每個(gè)詞與其他詞之間的關(guān)聯(lián)強(qiáng)度,但它無法區(qū)分這種關(guān)聯(lián)是因果關(guān)系還是偶然關(guān)聯(lián)。這就像一個(gè)學(xué)生在學(xué)習(xí)時(shí),無法區(qū)分哪些是重點(diǎn)知識(shí),哪些只是無關(guān)緊要的細(xì)節(jié)。
研究團(tuán)隊(duì)通過可視化分析發(fā)現(xiàn),在傳統(tǒng)訓(xùn)練后,模型的注意力分布在因果因素和虛假因素之間幾乎是平均的。這意味著模型并沒有學(xué)會(huì)真正的因果邏輯,而是同時(shí)依賴了所有相關(guān)的信息。當(dāng)環(huán)境變化時(shí),這種策略就會(huì)失效。
這個(gè)發(fā)現(xiàn)揭示了當(dāng)前大語言模型的一個(gè)根本性局限:它們很擅長識(shí)別模式和關(guān)聯(lián),但在理解因果關(guān)系方面存在明顯不足。這不僅影響了模型的泛化能力,也限制了它們?cè)谛枰蚬评淼膶?shí)際應(yīng)用中的表現(xiàn)。
二、解決方案:讓AI學(xué)會(huì)"透過現(xiàn)象看本質(zhì)"
面對(duì)這個(gè)根本性問題,研究團(tuán)隊(duì)開發(fā)的CAT方法就像給AI裝上了一副"因果關(guān)系眼鏡",讓它能夠透過表面現(xiàn)象,抓住事物之間的真正因果聯(lián)系。
整個(gè)CAT方法的工作流程可以比作訓(xùn)練一個(gè)偵探。首先,需要有經(jīng)驗(yàn)的老偵探(人類專家)告訴新手偵探哪些線索是關(guān)鍵的,哪些只是干擾信息。然后,通過專門的訓(xùn)練,讓新手偵探學(xué)會(huì)自動(dòng)識(shí)別和重點(diǎn)關(guān)注這些關(guān)鍵線索。
第一步是"因果先驗(yàn)知識(shí)提取"。這個(gè)過程就像制作一本"偵查手冊(cè)"。人類專家會(huì)手工標(biāo)注一些樣本,明確指出哪些詞語之間存在因果關(guān)系。比如在數(shù)學(xué)題中,數(shù)字、實(shí)體、運(yùn)算符號(hào)以及它們之間的因果關(guān)系是解題的關(guān)鍵。專家會(huì)寫出幾個(gè)標(biāo)準(zhǔn)樣本,明確標(biāo)出"65只鷹是由20只禿鷹、15只角鷹和30只冠鷹計(jì)算得出"這樣的因果關(guān)系。
但是,讓人類專家手工標(biāo)注大規(guī)模數(shù)據(jù)集成本太高,就像讓一個(gè)老偵探親自處理所有案件一樣不現(xiàn)實(shí)。所以研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)自動(dòng)化流程:讓一個(gè)"助理大語言模型"(比如ChatGLM-4)根據(jù)專家提供的幾個(gè)樣本,自動(dòng)為大規(guī)模數(shù)據(jù)生成因果關(guān)系標(biāo)注。
這個(gè)過程通過精心設(shè)計(jì)的提示詞來完成。研究團(tuán)隊(duì)會(huì)告訴助理模型:"你需要評(píng)估數(shù)學(xué)推理文本數(shù)據(jù)中標(biāo)記之間的因果重要性關(guān)系。其中,包含運(yùn)算符號(hào)的實(shí)體、數(shù)值和關(guān)鍵詞對(duì)數(shù)值推理至關(guān)重要。"然后提供具體的樣本格式,讓助理模型照著這個(gè)格式為新數(shù)據(jù)生成標(biāo)注。
生成的標(biāo)注會(huì)被轉(zhuǎn)換成一個(gè)"鄰接矩陣",這聽起來很專業(yè),其實(shí)就像一個(gè)關(guān)系表格。如果詞A對(duì)詞B有因果影響,就在表格的對(duì)應(yīng)位置標(biāo)記為1,否則標(biāo)記為0。這樣就得到了一個(gè)結(jié)構(gòu)化的因果關(guān)系地圖。
第二步是"因果約束注意力訓(xùn)練",這是整個(gè)方法的核心創(chuàng)新。研究團(tuán)隊(duì)在模型的注意力機(jī)制中引入了"重新注意力"機(jī)制。這就像訓(xùn)練一個(gè)學(xué)生學(xué)會(huì)有重點(diǎn)地聽課,而不是對(duì)所有信息都一視同仁。
具體來說,研究團(tuán)隊(duì)會(huì)計(jì)算模型在所有層和所有注意力頭上的平均注意力分?jǐn)?shù)。然后,對(duì)于每一行(代表一個(gè)詞),他們會(huì)分別計(jì)算這個(gè)詞對(duì)"有因果關(guān)系的詞"的平均注意力分?jǐn)?shù),以及對(duì)"沒有因果關(guān)系的詞"的平均注意力分?jǐn)?shù)。
接下來,研究團(tuán)隊(duì)引入了一個(gè)巧妙的損失函數(shù)。這個(gè)函數(shù)會(huì)確保每個(gè)詞對(duì)"有因果關(guān)系的詞"的注意力分?jǐn)?shù)至少是對(duì)"無關(guān)詞"注意力分?jǐn)?shù)的α倍。這里的α是一個(gè)超參數(shù),類似于一個(gè)"聚焦系數(shù)"。如果α設(shè)置為2,就意味著模型對(duì)因果相關(guān)詞的注意力至少要比對(duì)無關(guān)詞的注意力強(qiáng)2倍。
這個(gè)訓(xùn)練過程就像教一個(gè)學(xué)生學(xué)會(huì)重點(diǎn)聽講。當(dāng)學(xué)生(模型)的注意力分配不當(dāng)時(shí),老師(損失函數(shù))就會(huì)給出指導(dǎo),告訴學(xué)生應(yīng)該更多關(guān)注重要內(nèi)容,減少對(duì)無關(guān)信息的關(guān)注。通過反復(fù)訓(xùn)練,學(xué)生逐漸學(xué)會(huì)了自動(dòng)識(shí)別和重點(diǎn)關(guān)注因果相關(guān)的信息。
整個(gè)訓(xùn)練過程中,總損失函數(shù)包含兩部分:傳統(tǒng)的下一個(gè)詞預(yù)測(cè)損失和新增的因果注意力損失。通過一個(gè)權(quán)重參數(shù)γ來平衡兩者的重要性。這就像在保持原有學(xué)習(xí)能力的基礎(chǔ)上,額外培養(yǎng)因果推理能力。
研究團(tuán)隊(duì)還考慮了實(shí)際應(yīng)用的便利性。CAT方法可以與流行的參數(shù)高效微調(diào)方法(如LoRA)無縫結(jié)合,這意味著即使是計(jì)算資源有限的研究團(tuán)隊(duì)也能使用這種方法來改進(jìn)他們的模型。這就像為普通人也提供了使用專業(yè)工具的機(jī)會(huì)。
三、驗(yàn)證效果:從理論到實(shí)踐的突破
為了驗(yàn)證CAT方法的效果,研究團(tuán)隊(duì)不僅設(shè)計(jì)了專門的測(cè)試基準(zhǔn),還在多個(gè)實(shí)際任務(wù)上進(jìn)行了廣泛的實(shí)驗(yàn)。這就像一個(gè)新藥不僅要通過實(shí)驗(yàn)室測(cè)試,還要經(jīng)過各種臨床試驗(yàn)才能證明其有效性。
"虛假標(biāo)記游戲"基準(zhǔn)測(cè)試是研究團(tuán)隊(duì)專門設(shè)計(jì)的"試金石"。這個(gè)測(cè)試分為兩個(gè)版本:STG_E(簡單版)和STG_H(困難版)。STG_E就像基礎(chǔ)訓(xùn)練,包含8個(gè)變量,答案是簡單的"高風(fēng)險(xiǎn)"或"低風(fēng)險(xiǎn)"。STG_H則像進(jìn)階測(cè)試,包含14個(gè)變量,答案是0到100的連續(xù)數(shù)值。
在STG_E中,研究團(tuán)隊(duì)進(jìn)一步設(shè)計(jì)了三種不同規(guī)模的數(shù)據(jù)集:小規(guī)模(STG_S,400個(gè)訓(xùn)練樣本)、中等規(guī)模(STG_M,800個(gè)訓(xùn)練樣本)和大規(guī)模(STG_L,1600個(gè)訓(xùn)練樣本)。這樣的設(shè)計(jì)可以測(cè)試模型在不同數(shù)據(jù)量下的學(xué)習(xí)能力。
實(shí)驗(yàn)結(jié)果顯示了CAT方法的顯著優(yōu)勢(shì)。以TinyLlama-1.1B模型為例,在STG_M任務(wù)的分布外測(cè)試中,傳統(tǒng)方法的準(zhǔn)確率只有60.75%,而使用CAT方法后準(zhǔn)確率提升到了66.25%。更令人印象深刻的是,在大規(guī)模數(shù)據(jù)(STG_L)的分布外測(cè)試中,CAT方法的準(zhǔn)確率達(dá)到了77%,相比傳統(tǒng)方法的65.25%有了明顯提升。
對(duì)于更大的模型,效果更加顯著。Llama-3.1-8B模型在STG_M的分布外測(cè)試中,使用CAT方法后準(zhǔn)確率從64.5%跳升到90.5%,這是一個(gè)驚人的26個(gè)百分點(diǎn)的提升。在困難的STG_H任務(wù)上,Qwen模型的分布外測(cè)試準(zhǔn)確率從25.4%提升到55.9%,提升幅度超過30個(gè)百分點(diǎn)。
研究團(tuán)隊(duì)通過注意力可視化分析揭示了這些改進(jìn)的原因。在傳統(tǒng)訓(xùn)練中,模型的注意力在因果因素、虛假因素和無關(guān)因素之間的分布相對(duì)平均,這意味著模型無法區(qū)分重要和不重要的信息。而使用CAT方法訓(xùn)練后,模型的注意力明顯向因果相關(guān)的詞匯傾斜,形成了更加集中和準(zhǔn)確的注意力模式。
更有趣的發(fā)現(xiàn)是,隨著α參數(shù)的增加,模型的性能呈現(xiàn)出先上升后下降的趨勢(shì)。當(dāng)α在0.15到0.25之間時(shí),模型通常表現(xiàn)最佳。這表明適度的因果關(guān)注是最優(yōu)的,過度強(qiáng)調(diào)因果關(guān)系可能會(huì)破壞模型原有的注意力分布,反而降低性能。
研究團(tuán)隊(duì)還在五個(gè)廣泛使用的數(shù)學(xué)和推理數(shù)據(jù)集上測(cè)試了CAT方法的泛化能力,包括MAWPS、SVAMP、ARC-E、GSM8K和ASDiv。結(jié)果顯示,CAT方法在這些實(shí)際任務(wù)上也帶來了一致的性能提升。例如,在Qwen2.5-1.5B全參數(shù)微調(diào)設(shè)置下,CAT方法平均帶來了2.52%的性能提升。
特別值得注意的是跨域泛化實(shí)驗(yàn)。研究團(tuán)隊(duì)在GSM8K數(shù)據(jù)集上訓(xùn)練模型,然后在其他數(shù)學(xué)推理數(shù)據(jù)集上測(cè)試。這就像讓一個(gè)學(xué)生用一套教材學(xué)習(xí),然后用另一套教材考試。結(jié)果顯示,CAT方法在這種跨域設(shè)置下仍然保持了優(yōu)勢(shì),證明了其強(qiáng)大的泛化能力。
成本分析顯示,CAT方法的實(shí)際應(yīng)用成本也是可接受的。使用ChatGLM-4-air作為助理模型生成因果標(biāo)注,每百萬詞匯的成本約為0.14美元,相比GPT-4o的18美元成本大幅降低。這使得該方法在實(shí)際應(yīng)用中具有很好的經(jīng)濟(jì)可行性。
研究團(tuán)隊(duì)還驗(yàn)證了不同助理模型的效果。雖然使用GPT-4o作為助理模型會(huì)帶來略好的性能,但考慮到成本效益,ChatGLM-4-air已經(jīng)能夠提供足夠好的結(jié)果。這就像選擇工具時(shí),不一定需要最貴的,適合的就是最好的。
四、方法細(xì)節(jié):如何讓AI具備"火眼金睛"
CAT方法的實(shí)現(xiàn)細(xì)節(jié)體現(xiàn)了研究團(tuán)隊(duì)的巧思,整個(gè)過程就像為AI裝配了一套精密的"因果識(shí)別系統(tǒng)"。
在因果知識(shí)提取階段,研究團(tuán)隊(duì)面臨了三個(gè)主要挑戰(zhàn)。首先,自然語言中的因果關(guān)系很難用簡單的規(guī)則來識(shí)別,不像數(shù)學(xué)公式那樣直接明了。比如在一個(gè)數(shù)學(xué)應(yīng)用題中,"20只禿鷹"、"15只角鷹"和"總共多少只鷹"之間的因果關(guān)系雖然明顯,但要讓計(jì)算機(jī)自動(dòng)識(shí)別這種關(guān)系并不容易。
第二個(gè)挑戰(zhàn)是分詞器的設(shè)計(jì)可能將一個(gè)完整的詞切分成多個(gè)片段。比如"20只"可能被切分為"20"和"只"兩個(gè)標(biāo)記。這增加了建立準(zhǔn)確因果關(guān)系映射的復(fù)雜性,就像試圖在被撕碎的拼圖中找到正確的連接方式。
第三個(gè)挑戰(zhàn)是大規(guī)模人工標(biāo)注的成本問題。如果完全依靠專家手工標(biāo)注,成本會(huì)高得難以承受,就像讓頂級(jí)廚師親自做每一道菜一樣不現(xiàn)實(shí)。
為了解決這些問題,研究團(tuán)隊(duì)設(shè)計(jì)了一套"師傅帶徒弟"的自動(dòng)化流程。人類專家首先為每個(gè)下游任務(wù)精心設(shè)計(jì)幾個(gè)樣本,就像師傅示范幾道經(jīng)典菜品。這些樣本會(huì)明確標(biāo)出關(guān)鍵因果關(guān)系,比如在數(shù)學(xué)推理中,數(shù)值、實(shí)體、運(yùn)算符號(hào)以及它們之間的邏輯關(guān)系。
以一個(gè)具體的SVAMP數(shù)學(xué)題為例,原題是:"如果他們已經(jīng)在659英尺深處,洞穴深762英尺,還需要多深才能到達(dá)洞穴底部?答案:103.0"。專家會(huì)標(biāo)注出這樣的因果關(guān)系:{"762英尺深":["洞穴"],"直到":["還需要多深"],"答案":["659英尺","762英尺","直到","洞穴底部"],"103.0":["659英尺","和","762英尺","答案"]}。
這些手工樣本隨后被輸入助理大語言模型,配合詳細(xì)的任務(wù)描述和格式要求。助理模型會(huì)學(xué)習(xí)這些樣本的模式,然后為大規(guī)模數(shù)據(jù)集自動(dòng)生成類似的因果關(guān)系標(biāo)注。這就像徒弟學(xué)會(huì)了師傅的手藝后,可以獨(dú)立制作大量產(chǎn)品。
生成的文本標(biāo)注隨后被轉(zhuǎn)換為結(jié)構(gòu)化的鄰接矩陣。具體來說,如果第i個(gè)標(biāo)記和第j個(gè)標(biāo)記之間存在因果關(guān)系,矩陣中的位置(i,j)就被設(shè)置為1,否則為0。這個(gè)矩陣實(shí)際上是一個(gè)因果關(guān)系的"地圖",清晰地標(biāo)示出了每個(gè)詞語的重要性。
在因果約束注意力訓(xùn)練階段,研究團(tuán)隊(duì)重新設(shè)計(jì)了注意力機(jī)制的訓(xùn)練目標(biāo)。傳統(tǒng)的注意力機(jī)制計(jì)算的是查詢向量和鍵向量的相似度,然后用softmax函數(shù)歸一化得到注意力權(quán)重。這個(gè)過程雖然能捕獲詞語間的關(guān)聯(lián),但無法區(qū)分關(guān)聯(lián)的性質(zhì)。
CAT方法引入的改進(jìn)是在訓(xùn)練過程中增加了一個(gè)額外的損失函數(shù)。這個(gè)函數(shù)會(huì)監(jiān)督模型的平均注意力分布,確保模型更多地關(guān)注因果相關(guān)的詞語。具體來說,研究團(tuán)隊(duì)計(jì)算每個(gè)詞語對(duì)其他詞語的注意力分?jǐn)?shù),然后分別統(tǒng)計(jì)對(duì)"因果相關(guān)詞語"和"因果無關(guān)詞語"的平均注意力。
損失函數(shù)的設(shè)計(jì)很巧妙:它要求每個(gè)詞語對(duì)因果相關(guān)詞語的注意力至少是對(duì)因果無關(guān)詞語注意力的α倍。如果這個(gè)條件不滿足,損失函數(shù)就會(huì)產(chǎn)生懲罰信號(hào),推動(dòng)模型調(diào)整其注意力分布。這就像一個(gè)嚴(yán)格的教練,不斷糾正學(xué)員的動(dòng)作,直到形成正確的肌肉記憶。
參數(shù)α的選擇對(duì)模型性能有重要影響。研究團(tuán)隊(duì)通過大量實(shí)驗(yàn)發(fā)現(xiàn),α在0.05到0.35之間時(shí)效果最佳。太小的α無法有效引導(dǎo)注意力,太大的α又會(huì)過度干擾原有的注意力機(jī)制。這需要根據(jù)具體任務(wù)和模型進(jìn)行調(diào)整,就像調(diào)音師需要根據(jù)不同樂器調(diào)整音準(zhǔn)一樣。
為了平衡因果約束和原有的語言建模目標(biāo),總損失函數(shù)是兩部分的加權(quán)和:傳統(tǒng)的下一詞預(yù)測(cè)損失加上新的因果注意力損失。權(quán)重參數(shù)γ采用了指數(shù)衰減的策略,初始時(shí)γ較大以強(qiáng)調(diào)因果學(xué)習(xí),隨著訓(xùn)練進(jìn)行逐漸減小以避免過度干擾。
研究團(tuán)隊(duì)還特別考慮了計(jì)算效率。由于需要處理多頭多層的注意力,他們采用了平均化策略來減少計(jì)算復(fù)雜度。同時(shí),CAT方法與LoRA等參數(shù)高效微調(diào)技術(shù)完全兼容,使得即使計(jì)算資源有限的團(tuán)隊(duì)也能應(yīng)用這種方法。
五、實(shí)際應(yīng)用:從實(shí)驗(yàn)室走向現(xiàn)實(shí)世界
CAT方法的價(jià)值不僅體現(xiàn)在實(shí)驗(yàn)室的測(cè)試數(shù)據(jù)上,更重要的是它為解決現(xiàn)實(shí)世界中AI應(yīng)用的關(guān)鍵問題提供了可行的方案。
在醫(yī)療診斷領(lǐng)域,這種因果推理能力尤其重要。傳統(tǒng)的AI模型可能會(huì)學(xué)到一些虛假的關(guān)聯(lián)關(guān)系,比如"住在某個(gè)地區(qū)的人更容易得某種病",但真正的原因可能是該地區(qū)的環(huán)境污染或生活習(xí)慣。CAT方法訓(xùn)練的模型能夠更好地識(shí)別真正的致病因素,減少因虛假關(guān)聯(lián)導(dǎo)致的誤診。
在金融風(fēng)控場(chǎng)景中,模型需要準(zhǔn)確評(píng)估借貸風(fēng)險(xiǎn)。傳統(tǒng)模型可能會(huì)錯(cuò)誤地將一些表面特征(如用戶使用的手機(jī)品牌)與還款能力聯(lián)系起來,而忽略真正重要的因素(如收入穩(wěn)定性、負(fù)債比例)。CAT方法能夠幫助模型聚焦于真正的風(fēng)險(xiǎn)因素,提高風(fēng)控的準(zhǔn)確性和公平性。
在教育領(lǐng)域,AI輔助學(xué)習(xí)系統(tǒng)需要準(zhǔn)確識(shí)別學(xué)生的知識(shí)薄弱點(diǎn)。傳統(tǒng)方法可能會(huì)被一些表面現(xiàn)象誤導(dǎo),比如認(rèn)為做題速度慢就是理解能力差。而CAT方法訓(xùn)練的系統(tǒng)能夠更準(zhǔn)確地識(shí)別學(xué)生真正需要幫助的知識(shí)點(diǎn),提供更有針對(duì)性的輔導(dǎo)。
研究團(tuán)隊(duì)的實(shí)驗(yàn)還揭示了一個(gè)重要發(fā)現(xiàn):模型規(guī)模的擴(kuò)大并不能自動(dòng)解決虛假關(guān)聯(lián)問題。在某些測(cè)試中,當(dāng)數(shù)據(jù)規(guī)模從小到中等時(shí),雖然模型的IID性能繼續(xù)提升,但OOD性能反而下降了。這說明簡單地增加模型參數(shù)或數(shù)據(jù)量并不能根本解決問題,需要像CAT這樣的方法論創(chuàng)新。
成本效益分析顯示,CAT方法具有很好的實(shí)用性。使用ChatGLM-4-air作為助理模型,每百萬詞匯的標(biāo)注成本約為1.09元人民幣(約0.14美元),這使得大規(guī)模應(yīng)用成為可能。相比之下,完全依靠人工專家標(biāo)注的成本將高出幾個(gè)數(shù)量級(jí)。
研究團(tuán)隊(duì)還測(cè)試了不同助理模型的效果。結(jié)果顯示,雖然使用更強(qiáng)大的模型(如GPT-4o)作為助理能帶來略好的性能,但性價(jià)比最高的仍然是ChatGLM-4-air。這為實(shí)際應(yīng)用提供了靈活的選擇空間,用戶可以根據(jù)自己的預(yù)算和性能需求選擇合適的配置。
CAT方法的另一個(gè)優(yōu)勢(shì)是其通用性。實(shí)驗(yàn)顯示,該方法不僅在專門設(shè)計(jì)的STG基準(zhǔn)上表現(xiàn)優(yōu)秀,在MAWPS、GSM8K、ARC-E等廣泛使用的實(shí)際任務(wù)上也帶來了一致的改進(jìn)。這表明CAT捕獲的是一種通用的因果推理能力,而不是針對(duì)特定任務(wù)的技巧。
跨域泛化實(shí)驗(yàn)進(jìn)一步證明了這一點(diǎn)。當(dāng)模型在一個(gè)數(shù)學(xué)推理數(shù)據(jù)集上訓(xùn)練,然后在其他數(shù)學(xué)推理數(shù)據(jù)集上測(cè)試時(shí),CAT方法仍然保持了優(yōu)勢(shì)。這種跨域泛化能力對(duì)于實(shí)際應(yīng)用非常重要,因?yàn)楝F(xiàn)實(shí)世界的問題往往與訓(xùn)練數(shù)據(jù)存在分布差異。
研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的消融實(shí)驗(yàn),驗(yàn)證了方法中每個(gè)組件的必要性。實(shí)驗(yàn)顯示,去掉指數(shù)衰減的權(quán)重策略會(huì)導(dǎo)致性能略有下降,證明了平衡不同訓(xùn)練目標(biāo)的重要性。同時(shí),α參數(shù)的選擇需要根據(jù)具體任務(wù)進(jìn)行調(diào)整,這為未來的研究提供了優(yōu)化方向。
從技術(shù)實(shí)現(xiàn)角度看,CAT方法與現(xiàn)有的訓(xùn)練流程兼容性良好。它可以作為一個(gè)插件式的改進(jìn),集成到現(xiàn)有的模型訓(xùn)練管道中,不需要重新設(shè)計(jì)整個(gè)系統(tǒng)架構(gòu)。這大大降低了技術(shù)遷移的門檻,使得更多的研究團(tuán)隊(duì)和公司能夠受益于這項(xiàng)技術(shù)。
未來,隨著更多研究團(tuán)隊(duì)的參與和實(shí)際應(yīng)用的反饋,CAT方法有望在更多領(lǐng)域展現(xiàn)其價(jià)值。特別是在需要強(qiáng)因果推理能力的應(yīng)用場(chǎng)景中,這種方法可能會(huì)成為標(biāo)準(zhǔn)配置,就像現(xiàn)在的注意力機(jī)制已經(jīng)成為大語言模型的標(biāo)準(zhǔn)組件一樣。
結(jié)論
說到底,這項(xiàng)研究解決的是AI領(lǐng)域一個(gè)根本性問題:如何讓機(jī)器真正理解因果關(guān)系,而不是僅僅記住表面的關(guān)聯(lián)。就像教會(huì)一個(gè)學(xué)生理解原理而不是死記硬背一樣,CAT方法為大語言模型提供了一種學(xué)會(huì)"透過現(xiàn)象看本質(zhì)"的能力。
歸根結(jié)底,這種改進(jìn)對(duì)我們每個(gè)人都有實(shí)際意義。當(dāng)我們使用AI輔助決策時(shí),無論是醫(yī)療診斷、金融投資還是教育輔導(dǎo),我們都希望AI能夠基于真正的因果關(guān)系而不是虛假的關(guān)聯(lián)來給出建議。CAT方法的成功應(yīng)用意味著未來的AI系統(tǒng)將更加可靠和值得信賴。
這項(xiàng)研究還揭示了一個(gè)重要洞察:技術(shù)的進(jìn)步不僅僅在于讓模型變得更大更快,更在于讓模型變得更聰明。通過在訓(xùn)練過程中注入人類的因果先驗(yàn)知識(shí),我們可以引導(dǎo)AI學(xué)會(huì)更接近人類的思維方式。這種"人機(jī)協(xié)作"的訓(xùn)練模式可能會(huì)成為未來AI發(fā)展的重要方向。
當(dāng)然,這項(xiàng)研究也有其局限性。研究團(tuán)隊(duì)坦誠地指出,他們的方法需要人類專家提供因果關(guān)系的先驗(yàn)知識(shí),這可能會(huì)無意中引入一些偏見。同時(shí),現(xiàn)實(shí)世界中的因果關(guān)系往往比實(shí)驗(yàn)室環(huán)境中的情況更加復(fù)雜和微妙。如何將這種方法擴(kuò)展到更復(fù)雜的因果推理任務(wù)中,仍然是一個(gè)有待探索的問題。
但無論如何,CAT方法為我們提供了一個(gè)有希望的起點(diǎn)。它證明了通過巧妙的方法設(shè)計(jì),我們可以顯著改進(jìn)AI系統(tǒng)的推理能力,讓它們更接近人類的認(rèn)知水平。隨著更多研究的深入和實(shí)際應(yīng)用的推廣,我們有理由相信,未來的AI將不僅僅是一個(gè)強(qiáng)大的模式匹配器,更會(huì)成為一個(gè)真正理解世界因果關(guān)系的智能伙伴。
如果你對(duì)這項(xiàng)研究的技術(shù)細(xì)節(jié)或?qū)嶒?yàn)數(shù)據(jù)感興趣,可以通過搜索論文標(biāo)題"CAT: Causal Attention Tuning For Injecting Fine-grained Causal Knowledge into Large Language Models"在arXiv平臺(tái)找到完整的研究報(bào)告。這項(xiàng)由浙江大學(xué)和華為諾亞方舟實(shí)驗(yàn)室合作完成的研究,不僅在學(xué)術(shù)上具有重要意義,更可能在未來的AI應(yīng)用中發(fā)揮重要作用。
Q&A
Q1:CAT方法是什么?它解決了什么問題?
A:CAT(因果注意力調(diào)優(yōu))是浙江大學(xué)研究團(tuán)隊(duì)開發(fā)的一種新型AI訓(xùn)練方法。它主要解決大語言模型容易學(xué)到虛假關(guān)聯(lián)而非真正因果關(guān)系的問題。比如模型可能錯(cuò)誤地認(rèn)為穿大碼衣服導(dǎo)致癌癥,而忽略真正的原因是體重。CAT通過在注意力機(jī)制中注入因果知識(shí),讓模型學(xué)會(huì)關(guān)注真正重要的因果因素。
Q2:CAT方法的訓(xùn)練效果如何?有什么具體改進(jìn)?
A:實(shí)驗(yàn)結(jié)果顯示CAT方法效果顯著。比如Llama-3.1-8B模型在分布外測(cè)試中的準(zhǔn)確率從64.5%提升到90.5%,Qwen模型從25.4%提升到55.9%。在多個(gè)數(shù)學(xué)推理任務(wù)上,CAT方法平均帶來1.56%的性能提升。更重要的是,使用CAT訓(xùn)練的模型在面對(duì)新環(huán)境時(shí)表現(xiàn)更穩(wěn)定。
Q3:普通人能使用CAT方法嗎?成本高嗎?
A:CAT方法的實(shí)際應(yīng)用成本相對(duì)較低。使用ChatGLM-4-air作為助理模型生成訓(xùn)練數(shù)據(jù),每百萬詞匯的成本約為0.14美元,比使用GPT-4o便宜很多。該方法還兼容LoRA等參數(shù)高效訓(xùn)練技術(shù),降低了計(jì)算資源需求。不過目前主要面向研究團(tuán)隊(duì)和AI公司,普通用戶還需要等待集成到具體產(chǎn)品中。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。