近日,來自浙江大學、騰訊AI實驗室和新加坡國立大學NUS-NCS聯(lián)合實驗室的研究團隊發(fā)表了一項引人注目的研究成果。這篇名為《超越提示工程:通過控制目標原子實現(xiàn)大語言模型的穩(wěn)健行為控制》的論文由王夢如、徐子文、毛圣宇、鄧淑敏、涂兆鵬、陳華軍和張寧宇共同完成,發(fā)表于2025年5月。有興趣的讀者可以通過arXiv:2505.20322v1 [cs.CL]查閱完整論文。
一、研究背景:控制大語言模型行為的兩種方式
想象一下你有一只聰明但有時不太聽話的寵物狗。你有兩種方式讓它按你的意愿行動:一種是用語言指令("坐下"、"握手"),另一種是直接輕推它的身體引導它完成動作。在大語言模型(LLM)的世界里,這兩種方法分別對應"提示工程"和"控制引導"(steering)。
傳統(tǒng)上,我們主要通過提示工程來控制大語言模型的行為。這就像用語言指令告訴模型該做什么,比如在輸入中加入"你應該是一個負責任的AI系統(tǒng),不應該生成有害或誤導性內(nèi)容!"這種方法雖然簡單直接,但存在兩個明顯的問題:一是需要專家精心設(shè)計提示語,二是對輸入的微小變化非常敏感。就像一個調(diào)皮的孩子,如果你稍微改變指令的措辭,他可能就會找到不遵守的借口。
與此相對,"控制引導"(steering)則是一種新興的控制模型行為的方法。它不是通過輸入指令,而是直接干預模型內(nèi)部的計算過程。這就像不是用語言告訴你的寵物狗該做什么,而是輕輕引導它的身體做出正確的動作。這種方法更加靈活、可靠,而且更容易解釋為什么有效。
然而,傳統(tǒng)的控制引導方法也面臨一個重要挑戰(zhàn):大語言模型內(nèi)部的知識表示通常是糾纏在一起的。這就像試圖只移動一個積木,卻發(fā)現(xiàn)它與其他積木粘在了一起,導致你的干預產(chǎn)生意想不到的副作用。
二、新方法:識別和控制目標原子
為了解決這個問題,研究團隊提出了一種名為"控制目標原子"(Steering Target Atoms, STA)的新方法。這個名字聽起來可能有點復雜,但其實原理很直觀。
想象一下你的房間里堆滿了各種雜物,全都混在一起。要想找到并只拿出一本特定的書是很困難的。但如果你先把所有東西分類整理到不同的抽屜里,那么找到并取出那本書就容易多了。STA方法就是這樣工作的。
首先,研究者們使用了一種叫做"稀疏自編碼器"(Sparse Autoencoder, SAE)的技術(shù)。這種技術(shù)可以將大語言模型中糾纏在一起的知識表示"解開",分解成更高維度、更稀疏的特征。簡單來說,就是把混在一起的知識分門別類地整理好,放在更多的"抽屜"里,使得每個"抽屜"里主要只包含一種類型的知識。
接下來,研究者們開發(fā)了一種方法來識別哪些"抽屜"(也就是論文中所說的"目標原子")與我們想要控制的行為最相關(guān)。他們通過分析這些原子在正面示例和負面示例中的激活幅度和頻率來確定。這就像分析哪些抽屜在我們需要做特定任務時經(jīng)常被打開,哪些則很少使用。
最后,研究者們只對這些目標原子進行干預,而不觸碰其他部分。這樣一來,他們就能精確地控制模型的特定行為,同時最小化意外的副作用。
三、實驗結(jié)果:精確控制,副作用更少
研究團隊在多種大語言模型上進行了廣泛的實驗,包括Gemma-2-9B-pt、Gemma-2-9B-it和Llama-3.1-8B,以驗證STA方法的有效性。
首先,他們在安全性控制方面進行了測試。使用SafeEdit和RealToxicPrompts兩個數(shù)據(jù)集,研究者們評估了STA方法在防止模型生成有害內(nèi)容方面的效果。結(jié)果顯示,STA方法在所有測試的模型上都取得了最佳的平均脫毒性能。例如,在Gemma-2-9B-pt模型上,防御成功率從59.97%提高到了83.45%;在Gemma-2-9B-it模型上,從83.89%提高到了97.56%;在Llama-3.1-8B模型上,從59.08%提高到了72.23%。
更令人驚喜的是,STA方法在提高安全性的同時,對模型的一般能力幾乎沒有明顯的負面影響。在Gemma-2-9B-pt模型上,一般性能僅從44.73%略微下降到43.90%;在Gemma-2-9B-it模型上,從51.04%下降到49.12%。這表明STA方法能夠?qū)崿F(xiàn)精確的行為控制,而不會對模型的其他能力造成太大損害。
研究者們還發(fā)現(xiàn),在模型的中間層應用STA方法效果最好。具體來說,在Gemma-2-9B-pt模型的24-25層進行干預時,既能獲得最佳的安全控制效果,又能最小化對一般能力的影響。
另一個有趣的發(fā)現(xiàn)是,即使只使用少量數(shù)據(jù)樣本,STA方法也能表現(xiàn)出色。實驗表明,使用僅僅4個數(shù)據(jù)樣本構(gòu)建的控制向量,就能顯著提高模型的脫毒能力。這表明STA方法具有很高的數(shù)據(jù)效率。
四、控制方法的比較:提示工程 vs. 控制引導
研究團隊進一步對比了提示工程和控制引導兩種方法的效果。為了確保公平比較,他們使用STA方法將提示語轉(zhuǎn)換為控制向量,然后評估兩種方法的性能。
結(jié)果顯示,控制引導方法(包括STA和其他控制引導方法)在穩(wěn)健性和靈活性方面都優(yōu)于提示工程方法。這可以通過兩個主要發(fā)現(xiàn)來說明:
首先,在穩(wěn)健性方面,控制引導方法對輸入的微小變化不那么敏感。當面對各種"越獄攻擊"(jailbreak attacks,即試圖誘導模型產(chǎn)生有害內(nèi)容的特殊輸入)時,控制引導方法能夠更一致地保持安全防御。研究者們分析發(fā)現(xiàn),這是因為控制引導方法能夠顯著增強模型對有害查詢的注意力分數(shù),從而提高其檢測和拒絕生成有害內(nèi)容的能力。
其次,在靈活性方面,控制引導方法提供了更廣泛的控制范圍。例如,在Gemma-2-9B-it模型上,通過調(diào)整提示示例的數(shù)量,防御能力的變化范圍僅為[-11.5%, 13.03%]。而使用控制引導方法,通過調(diào)整控制系數(shù)在[-10, 10]范圍內(nèi),防御能力的變化范圍可達[-53.77%, 29.63%],遠遠超過提示工程方法的控制范圍。
這兩種方法之間的差異可以類比為兩種教孩子騎自行車的方法:提示工程就像用語言指導("向前蹬,保持平衡"),而控制引導則像是家長扶著自行車后座直接引導孩子的動作。后者在面對復雜情況時往往更加可靠和有效。
五、應用于推理控制:讓模型思考得更高效
除了安全性控制,研究團隊還探索了STA方法在控制大型推理模型思考長度方面的應用。這個研究方向非常有意義,因為最新的大型推理模型雖然推理能力強大,但有時會在簡單問題上過度思考(overthinking),浪費計算資源并延長響應時間。
研究者們首先構(gòu)建了一個包含長思考和短思考兩種答案的示例,然后使用CAA方法(一種控制引導技術(shù))將這種思考模式轉(zhuǎn)換為控制向量。接著,他們將這個向量應用于DeepSeek-R1-Distill-Qwen-7B模型,在GSM8K基準測試中控制推理的長度。
實驗結(jié)果表明,控制引導策略在調(diào)整推理長度方面表現(xiàn)出色,既可以延長也可以縮短推理,同時保持準確性。例如,對于一個簡單的數(shù)學問題"一件衣服需要2卷藍色纖維和一半數(shù)量的白色纖維??偣残枰嗌倬砝w維?",原始模型可能會生成冗長的300個標記的解決方案,而通過控制引導,可以將其減少到只有87個標記的簡潔解答,同時保持答案正確。
這一發(fā)現(xiàn)對于提高大型語言模型的效率具有重要意義,可以幫助解決過度思考問題,并引導AI的決策邏輯更加高效。
六、研究的局限性與未來方向
盡管STA方法表現(xiàn)出色,研究團隊也坦誠地指出了一些局限性:
首先,由于公開可用的稀疏自編碼器(SAE)有限,實驗主要在Gemma-2-9B-pt、Gemma-2-9B-it和Llama-3.1-8B模型上進行。未來研究可以擴展到更廣泛的大語言模型,包括更大、更多樣化的架構(gòu)。
其次,雖然STA方法在安全性控制方面表現(xiàn)出色,但在個性化領(lǐng)域的效果有限。研究者們在附錄中提到,STA在控制模型的"短視獎勵"(myopic reward)個性特征方面雖然優(yōu)于提示工程方法,但與其他控制引導方法相比并無明顯優(yōu)勢。這表明不同類型的行為控制可能需要不同的方法。
最后,研究團隊提到,雖然STA方法能夠?qū)崿F(xiàn)精確的行為控制,但如何更好地理解和解釋控制過程中的因果關(guān)系仍是一個值得深入研究的問題。
七、總結(jié)與啟示
這項研究為控制大語言模型的行為提供了一種新的、更精確的方法。通過識別和操作"目標原子",STA方法能夠在最小化副作用的同時實現(xiàn)穩(wěn)健的行為控制。
相比傳統(tǒng)的提示工程方法,控制引導方法(尤其是STA)展現(xiàn)出更好的穩(wěn)健性和靈活性,能夠更好地應對各種復雜的輸入情況。這對于確保大語言模型的安全性和可靠性具有重要意義。
更廣泛地看,這項研究揭示了大語言模型內(nèi)部知識表示的復雜性,以及如何通過解耦這些表示來實現(xiàn)更精確的控制。這不僅有助于提高模型的安全性,還可能為未來的模型解釋性和可控性研究提供新的思路。
對于普通用戶來說,這項研究的成果意味著未來的AI系統(tǒng)可能會更加可靠和安全,能夠更好地遵循人類的指令,同時避免產(chǎn)生有害內(nèi)容。對于AI開發(fā)者來說,STA方法提供了一種新的工具,可以在不需要重新訓練模型的情況下,在推理階段精確控制模型的行為。
隨著大語言模型繼續(xù)發(fā)展和普及,像STA這樣的精確控制方法將變得越來越重要,有助于確保這些強大的AI系統(tǒng)能夠安全、可靠地服務于人類需求。
好文章,需要你的鼓勵
新加坡國立大學研究團隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓練AI玩簡單撲克游戲就能讓其數(shù)學推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學題目作為訓練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學解題中,為AI訓練提供了新思路。
同濟大學團隊開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學習和數(shù)學優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設(shè)備上展現(xiàn)出色泛化能力,為機器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學研究團隊通過對比實驗發(fā)現(xiàn),經(jīng)過強化學習訓練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實現(xiàn)大語言模型訓練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓練效率,已在多個任務上驗證有效性。