近日,來自浙江大學、騰訊AI實驗室和新加坡國立大學NUS-NCS聯(lián)合實驗室的研究團隊發(fā)表了一項引人注目的研究成果。這篇名為《超越提示工程:通過控制目標原子實現(xiàn)大語言模型的穩(wěn)健行為控制》的論文由王夢如、徐子文、毛圣宇、鄧淑敏、涂兆鵬、陳華軍和張寧宇共同完成,發(fā)表于2025年5月。有興趣的讀者可以通過arXiv:2505.20322v1 [cs.CL]查閱完整論文。
一、研究背景:控制大語言模型行為的兩種方式
想象一下你有一只聰明但有時不太聽話的寵物狗。你有兩種方式讓它按你的意愿行動:一種是用語言指令("坐下"、"握手"),另一種是直接輕推它的身體引導它完成動作。在大語言模型(LLM)的世界里,這兩種方法分別對應"提示工程"和"控制引導"(steering)。
傳統(tǒng)上,我們主要通過提示工程來控制大語言模型的行為。這就像用語言指令告訴模型該做什么,比如在輸入中加入"你應該是一個負責任的AI系統(tǒng),不應該生成有害或誤導性內容!"這種方法雖然簡單直接,但存在兩個明顯的問題:一是需要專家精心設計提示語,二是對輸入的微小變化非常敏感。就像一個調皮的孩子,如果你稍微改變指令的措辭,他可能就會找到不遵守的借口。
與此相對,"控制引導"(steering)則是一種新興的控制模型行為的方法。它不是通過輸入指令,而是直接干預模型內部的計算過程。這就像不是用語言告訴你的寵物狗該做什么,而是輕輕引導它的身體做出正確的動作。這種方法更加靈活、可靠,而且更容易解釋為什么有效。
然而,傳統(tǒng)的控制引導方法也面臨一個重要挑戰(zhàn):大語言模型內部的知識表示通常是糾纏在一起的。這就像試圖只移動一個積木,卻發(fā)現(xiàn)它與其他積木粘在了一起,導致你的干預產生意想不到的副作用。
二、新方法:識別和控制目標原子
為了解決這個問題,研究團隊提出了一種名為"控制目標原子"(Steering Target Atoms, STA)的新方法。這個名字聽起來可能有點復雜,但其實原理很直觀。
想象一下你的房間里堆滿了各種雜物,全都混在一起。要想找到并只拿出一本特定的書是很困難的。但如果你先把所有東西分類整理到不同的抽屜里,那么找到并取出那本書就容易多了。STA方法就是這樣工作的。
首先,研究者們使用了一種叫做"稀疏自編碼器"(Sparse Autoencoder, SAE)的技術。這種技術可以將大語言模型中糾纏在一起的知識表示"解開",分解成更高維度、更稀疏的特征。簡單來說,就是把混在一起的知識分門別類地整理好,放在更多的"抽屜"里,使得每個"抽屜"里主要只包含一種類型的知識。
接下來,研究者們開發(fā)了一種方法來識別哪些"抽屜"(也就是論文中所說的"目標原子")與我們想要控制的行為最相關。他們通過分析這些原子在正面示例和負面示例中的激活幅度和頻率來確定。這就像分析哪些抽屜在我們需要做特定任務時經常被打開,哪些則很少使用。
最后,研究者們只對這些目標原子進行干預,而不觸碰其他部分。這樣一來,他們就能精確地控制模型的特定行為,同時最小化意外的副作用。
三、實驗結果:精確控制,副作用更少
研究團隊在多種大語言模型上進行了廣泛的實驗,包括Gemma-2-9B-pt、Gemma-2-9B-it和Llama-3.1-8B,以驗證STA方法的有效性。
首先,他們在安全性控制方面進行了測試。使用SafeEdit和RealToxicPrompts兩個數(shù)據(jù)集,研究者們評估了STA方法在防止模型生成有害內容方面的效果。結果顯示,STA方法在所有測試的模型上都取得了最佳的平均脫毒性能。例如,在Gemma-2-9B-pt模型上,防御成功率從59.97%提高到了83.45%;在Gemma-2-9B-it模型上,從83.89%提高到了97.56%;在Llama-3.1-8B模型上,從59.08%提高到了72.23%。
更令人驚喜的是,STA方法在提高安全性的同時,對模型的一般能力幾乎沒有明顯的負面影響。在Gemma-2-9B-pt模型上,一般性能僅從44.73%略微下降到43.90%;在Gemma-2-9B-it模型上,從51.04%下降到49.12%。這表明STA方法能夠實現(xiàn)精確的行為控制,而不會對模型的其他能力造成太大損害。
研究者們還發(fā)現(xiàn),在模型的中間層應用STA方法效果最好。具體來說,在Gemma-2-9B-pt模型的24-25層進行干預時,既能獲得最佳的安全控制效果,又能最小化對一般能力的影響。
另一個有趣的發(fā)現(xiàn)是,即使只使用少量數(shù)據(jù)樣本,STA方法也能表現(xiàn)出色。實驗表明,使用僅僅4個數(shù)據(jù)樣本構建的控制向量,就能顯著提高模型的脫毒能力。這表明STA方法具有很高的數(shù)據(jù)效率。
四、控制方法的比較:提示工程 vs. 控制引導
研究團隊進一步對比了提示工程和控制引導兩種方法的效果。為了確保公平比較,他們使用STA方法將提示語轉換為控制向量,然后評估兩種方法的性能。
結果顯示,控制引導方法(包括STA和其他控制引導方法)在穩(wěn)健性和靈活性方面都優(yōu)于提示工程方法。這可以通過兩個主要發(fā)現(xiàn)來說明:
首先,在穩(wěn)健性方面,控制引導方法對輸入的微小變化不那么敏感。當面對各種"越獄攻擊"(jailbreak attacks,即試圖誘導模型產生有害內容的特殊輸入)時,控制引導方法能夠更一致地保持安全防御。研究者們分析發(fā)現(xiàn),這是因為控制引導方法能夠顯著增強模型對有害查詢的注意力分數(shù),從而提高其檢測和拒絕生成有害內容的能力。
其次,在靈活性方面,控制引導方法提供了更廣泛的控制范圍。例如,在Gemma-2-9B-it模型上,通過調整提示示例的數(shù)量,防御能力的變化范圍僅為[-11.5%, 13.03%]。而使用控制引導方法,通過調整控制系數(shù)在[-10, 10]范圍內,防御能力的變化范圍可達[-53.77%, 29.63%],遠遠超過提示工程方法的控制范圍。
這兩種方法之間的差異可以類比為兩種教孩子騎自行車的方法:提示工程就像用語言指導("向前蹬,保持平衡"),而控制引導則像是家長扶著自行車后座直接引導孩子的動作。后者在面對復雜情況時往往更加可靠和有效。
五、應用于推理控制:讓模型思考得更高效
除了安全性控制,研究團隊還探索了STA方法在控制大型推理模型思考長度方面的應用。這個研究方向非常有意義,因為最新的大型推理模型雖然推理能力強大,但有時會在簡單問題上過度思考(overthinking),浪費計算資源并延長響應時間。
研究者們首先構建了一個包含長思考和短思考兩種答案的示例,然后使用CAA方法(一種控制引導技術)將這種思考模式轉換為控制向量。接著,他們將這個向量應用于DeepSeek-R1-Distill-Qwen-7B模型,在GSM8K基準測試中控制推理的長度。
實驗結果表明,控制引導策略在調整推理長度方面表現(xiàn)出色,既可以延長也可以縮短推理,同時保持準確性。例如,對于一個簡單的數(shù)學問題"一件衣服需要2卷藍色纖維和一半數(shù)量的白色纖維??偣残枰嗌倬砝w維?",原始模型可能會生成冗長的300個標記的解決方案,而通過控制引導,可以將其減少到只有87個標記的簡潔解答,同時保持答案正確。
這一發(fā)現(xiàn)對于提高大型語言模型的效率具有重要意義,可以幫助解決過度思考問題,并引導AI的決策邏輯更加高效。
六、研究的局限性與未來方向
盡管STA方法表現(xiàn)出色,研究團隊也坦誠地指出了一些局限性:
首先,由于公開可用的稀疏自編碼器(SAE)有限,實驗主要在Gemma-2-9B-pt、Gemma-2-9B-it和Llama-3.1-8B模型上進行。未來研究可以擴展到更廣泛的大語言模型,包括更大、更多樣化的架構。
其次,雖然STA方法在安全性控制方面表現(xiàn)出色,但在個性化領域的效果有限。研究者們在附錄中提到,STA在控制模型的"短視獎勵"(myopic reward)個性特征方面雖然優(yōu)于提示工程方法,但與其他控制引導方法相比并無明顯優(yōu)勢。這表明不同類型的行為控制可能需要不同的方法。
最后,研究團隊提到,雖然STA方法能夠實現(xiàn)精確的行為控制,但如何更好地理解和解釋控制過程中的因果關系仍是一個值得深入研究的問題。
七、總結與啟示
這項研究為控制大語言模型的行為提供了一種新的、更精確的方法。通過識別和操作"目標原子",STA方法能夠在最小化副作用的同時實現(xiàn)穩(wěn)健的行為控制。
相比傳統(tǒng)的提示工程方法,控制引導方法(尤其是STA)展現(xiàn)出更好的穩(wěn)健性和靈活性,能夠更好地應對各種復雜的輸入情況。這對于確保大語言模型的安全性和可靠性具有重要意義。
更廣泛地看,這項研究揭示了大語言模型內部知識表示的復雜性,以及如何通過解耦這些表示來實現(xiàn)更精確的控制。這不僅有助于提高模型的安全性,還可能為未來的模型解釋性和可控性研究提供新的思路。
對于普通用戶來說,這項研究的成果意味著未來的AI系統(tǒng)可能會更加可靠和安全,能夠更好地遵循人類的指令,同時避免產生有害內容。對于AI開發(fā)者來說,STA方法提供了一種新的工具,可以在不需要重新訓練模型的情況下,在推理階段精確控制模型的行為。
隨著大語言模型繼續(xù)發(fā)展和普及,像STA這樣的精確控制方法將變得越來越重要,有助于確保這些強大的AI系統(tǒng)能夠安全、可靠地服務于人類需求。
好文章,需要你的鼓勵
浙江大學團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調整內部專家配置。該方法在數(shù)學、編程等任務上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓練提供了新思路。
南洋理工大學與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術,實現(xiàn)AI視頻實時流式生成的重大突破。該技術通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質量視頻,延遲僅0.76秒,質量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內容創(chuàng)作開辟新可能。
華中科技大學研究團隊發(fā)現(xiàn),通過讓AI模型學習解決幾何問題,能夠顯著提升其空間理解能力。他們構建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學習方法訓練多個AI模型。實驗結果顯示,幾何訓練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎幾何知識對培養(yǎng)AI空間智能的重要價值。