av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<code id="fvrma"></code>

<thead id="fvrma"></thead>

<u id="fvrma"><code id="fvrma"><cite id="fvrma"></cite></code></u>

首頁
對(duì)話創(chuàng)新
對(duì)話科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見證連接與計(jì)算的「力量」

超越提示工程：通過"原子級(jí)目標(biāo)控制"實(shí)現(xiàn)大語言模型的穩(wěn)健行為操控

大語言模型控制稀疏自編碼器安全對(duì)齊

超越提示工程：通過"原子級(jí)目標(biāo)控制"實(shí)現(xiàn)大語言模型的穩(wěn)健行為操控

作者：科技行者

2025-05-30 15:04

分享至：

這項(xiàng)研究提出了一種名為"控制目標(biāo)原子"(STA)的新方法，用于精確控制大語言模型的行為。與傳統(tǒng)提示工程相比，STA通過稀疏自編碼器識(shí)別并操作模型內(nèi)部的解耦知識(shí)組件，實(shí)現(xiàn)更穩(wěn)健、靈活的行為控制。實(shí)驗(yàn)證明，STA在安全控制方面表現(xiàn)卓越，同時(shí)對(duì)模型一般能力影響微小。研究還發(fā)現(xiàn)控制引導(dǎo)方法在應(yīng)對(duì)對(duì)抗性場(chǎng)景時(shí)比提示工程更為穩(wěn)健，并成功應(yīng)用于控制大型推理模型的思考長度。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-30 15:04 ? 科技行者

近日，來自浙江大學(xué)、騰訊AI實(shí)驗(yàn)室和新加坡國立大學(xué)NUS-NCS聯(lián)合實(shí)驗(yàn)室的研究團(tuán)隊(duì)發(fā)表了一項(xiàng)引人注目的研究成果。這篇名為《超越提示工程：通過控制目標(biāo)原子實(shí)現(xiàn)大語言模型的穩(wěn)健行為控制》的論文由王夢(mèng)如、徐子文、毛圣宇、鄧淑敏、涂兆鵬、陳華軍和張寧宇共同完成，發(fā)表于2025年5月。有興趣的讀者可以通過arXiv:2505.20322v1 [cs.CL]查閱完整論文。

一、研究背景：控制大語言模型行為的兩種方式

想象一下你有一只聰明但有時(shí)不太聽話的寵物狗。你有兩種方式讓它按你的意愿行動(dòng)：一種是用語言指令("坐下"、"握手")，另一種是直接輕推它的身體引導(dǎo)它完成動(dòng)作。在大語言模型(LLM)的世界里，這兩種方法分別對(duì)應(yīng)"提示工程"和"控制引導(dǎo)"(steering)。

傳統(tǒng)上，我們主要通過提示工程來控制大語言模型的行為。這就像用語言指令告訴模型該做什么，比如在輸入中加入"你應(yīng)該是一個(gè)負(fù)責(zé)任的AI系統(tǒng)，不應(yīng)該生成有害或誤導(dǎo)性內(nèi)容！"這種方法雖然簡單直接，但存在兩個(gè)明顯的問題：一是需要專家精心設(shè)計(jì)提示語，二是對(duì)輸入的微小變化非常敏感。就像一個(gè)調(diào)皮的孩子，如果你稍微改變指令的措辭，他可能就會(huì)找到不遵守的借口。

與此相對(duì)，"控制引導(dǎo)"(steering)則是一種新興的控制模型行為的方法。它不是通過輸入指令，而是直接干預(yù)模型內(nèi)部的計(jì)算過程。這就像不是用語言告訴你的寵物狗該做什么，而是輕輕引導(dǎo)它的身體做出正確的動(dòng)作。這種方法更加靈活、可靠，而且更容易解釋為什么有效。

然而，傳統(tǒng)的控制引導(dǎo)方法也面臨一個(gè)重要挑戰(zhàn)：大語言模型內(nèi)部的知識(shí)表示通常是糾纏在一起的。這就像試圖只移動(dòng)一個(gè)積木，卻發(fā)現(xiàn)它與其他積木粘在了一起，導(dǎo)致你的干預(yù)產(chǎn)生意想不到的副作用。

二、新方法：識(shí)別和控制目標(biāo)原子

為了解決這個(gè)問題，研究團(tuán)隊(duì)提出了一種名為"控制目標(biāo)原子"(Steering Target Atoms, STA)的新方法。這個(gè)名字聽起來可能有點(diǎn)復(fù)雜，但其實(shí)原理很直觀。

想象一下你的房間里堆滿了各種雜物，全都混在一起。要想找到并只拿出一本特定的書是很困難的。但如果你先把所有東西分類整理到不同的抽屜里，那么找到并取出那本書就容易多了。STA方法就是這樣工作的。

首先，研究者們使用了一種叫做"稀疏自編碼器"(Sparse Autoencoder, SAE)的技術(shù)。這種技術(shù)可以將大語言模型中糾纏在一起的知識(shí)表示"解開"，分解成更高維度、更稀疏的特征。簡單來說，就是把混在一起的知識(shí)分門別類地整理好，放在更多的"抽屜"里，使得每個(gè)"抽屜"里主要只包含一種類型的知識(shí)。

接下來，研究者們開發(fā)了一種方法來識(shí)別哪些"抽屜"(也就是論文中所說的"目標(biāo)原子")與我們想要控制的行為最相關(guān)。他們通過分析這些原子在正面示例和負(fù)面示例中的激活幅度和頻率來確定。這就像分析哪些抽屜在我們需要做特定任務(wù)時(shí)經(jīng)常被打開，哪些則很少使用。

最后，研究者們只對(duì)這些目標(biāo)原子進(jìn)行干預(yù)，而不觸碰其他部分。這樣一來，他們就能精確地控制模型的特定行為，同時(shí)最小化意外的副作用。

三、實(shí)驗(yàn)結(jié)果：精確控制，副作用更少

研究團(tuán)隊(duì)在多種大語言模型上進(jìn)行了廣泛的實(shí)驗(yàn)，包括Gemma-2-9B-pt、Gemma-2-9B-it和Llama-3.1-8B，以驗(yàn)證STA方法的有效性。

首先，他們?cè)诎踩钥刂品矫孢M(jìn)行了測(cè)試。使用SafeEdit和RealToxicPrompts兩個(gè)數(shù)據(jù)集，研究者們?cè)u(píng)估了STA方法在防止模型生成有害內(nèi)容方面的效果。結(jié)果顯示，STA方法在所有測(cè)試的模型上都取得了最佳的平均脫毒性能。例如，在Gemma-2-9B-pt模型上，防御成功率從59.97%提高到了83.45%；在Gemma-2-9B-it模型上，從83.89%提高到了97.56%；在Llama-3.1-8B模型上，從59.08%提高到了72.23%。

更令人驚喜的是，STA方法在提高安全性的同時(shí)，對(duì)模型的一般能力幾乎沒有明顯的負(fù)面影響。在Gemma-2-9B-pt模型上，一般性能僅從44.73%略微下降到43.90%；在Gemma-2-9B-it模型上，從51.04%下降到49.12%。這表明STA方法能夠?qū)崿F(xiàn)精確的行為控制，而不會(huì)對(duì)模型的其他能力造成太大損害。

研究者們還發(fā)現(xiàn)，在模型的中間層應(yīng)用STA方法效果最好。具體來說，在Gemma-2-9B-pt模型的24-25層進(jìn)行干預(yù)時(shí)，既能獲得最佳的安全控制效果，又能最小化對(duì)一般能力的影響。

另一個(gè)有趣的發(fā)現(xiàn)是，即使只使用少量數(shù)據(jù)樣本，STA方法也能表現(xiàn)出色。實(shí)驗(yàn)表明，使用僅僅4個(gè)數(shù)據(jù)樣本構(gòu)建的控制向量，就能顯著提高模型的脫毒能力。這表明STA方法具有很高的數(shù)據(jù)效率。

四、控制方法的比較：提示工程 vs. 控制引導(dǎo)

研究團(tuán)隊(duì)進(jìn)一步對(duì)比了提示工程和控制引導(dǎo)兩種方法的效果。為了確保公平比較，他們使用STA方法將提示語轉(zhuǎn)換為控制向量，然后評(píng)估兩種方法的性能。

結(jié)果顯示，控制引導(dǎo)方法(包括STA和其他控制引導(dǎo)方法)在穩(wěn)健性和靈活性方面都優(yōu)于提示工程方法。這可以通過兩個(gè)主要發(fā)現(xiàn)來說明：

首先，在穩(wěn)健性方面，控制引導(dǎo)方法對(duì)輸入的微小變化不那么敏感。當(dāng)面對(duì)各種"越獄攻擊"(jailbreak attacks，即試圖誘導(dǎo)模型產(chǎn)生有害內(nèi)容的特殊輸入)時(shí)，控制引導(dǎo)方法能夠更一致地保持安全防御。研究者們分析發(fā)現(xiàn)，這是因?yàn)榭刂埔龑?dǎo)方法能夠顯著增強(qiáng)模型對(duì)有害查詢的注意力分?jǐn)?shù)，從而提高其檢測(cè)和拒絕生成有害內(nèi)容的能力。

其次，在靈活性方面，控制引導(dǎo)方法提供了更廣泛的控制范圍。例如，在Gemma-2-9B-it模型上，通過調(diào)整提示示例的數(shù)量，防御能力的變化范圍僅為[-11.5%, 13.03%]。而使用控制引導(dǎo)方法，通過調(diào)整控制系數(shù)在[-10, 10]范圍內(nèi)，防御能力的變化范圍可達(dá)[-53.77%, 29.63%]，遠(yuǎn)遠(yuǎn)超過提示工程方法的控制范圍。

這兩種方法之間的差異可以類比為兩種教孩子騎自行車的方法：提示工程就像用語言指導(dǎo)("向前蹬，保持平衡")，而控制引導(dǎo)則像是家長扶著自行車后座直接引導(dǎo)孩子的動(dòng)作。后者在面對(duì)復(fù)雜情況時(shí)往往更加可靠和有效。

五、應(yīng)用于推理控制：讓模型思考得更高效

除了安全性控制，研究團(tuán)隊(duì)還探索了STA方法在控制大型推理模型思考長度方面的應(yīng)用。這個(gè)研究方向非常有意義，因?yàn)樽钚碌拇笮屯评砟Ｐ碗m然推理能力強(qiáng)大，但有時(shí)會(huì)在簡單問題上過度思考(overthinking)，浪費(fèi)計(jì)算資源并延長響應(yīng)時(shí)間。

研究者們首先構(gòu)建了一個(gè)包含長思考和短思考兩種答案的示例，然后使用CAA方法(一種控制引導(dǎo)技術(shù))將這種思考模式轉(zhuǎn)換為控制向量。接著，他們將這個(gè)向量應(yīng)用于DeepSeek-R1-Distill-Qwen-7B模型，在GSM8K基準(zhǔn)測(cè)試中控制推理的長度。

實(shí)驗(yàn)結(jié)果表明，控制引導(dǎo)策略在調(diào)整推理長度方面表現(xiàn)出色，既可以延長也可以縮短推理，同時(shí)保持準(zhǔn)確性。例如，對(duì)于一個(gè)簡單的數(shù)學(xué)問題"一件衣服需要2卷藍(lán)色纖維和一半數(shù)量的白色纖維?？偣残枰嗌倬砝w維？"，原始模型可能會(huì)生成冗長的300個(gè)標(biāo)記的解決方案，而通過控制引導(dǎo)，可以將其減少到只有87個(gè)標(biāo)記的簡潔解答，同時(shí)保持答案正確。

這一發(fā)現(xiàn)對(duì)于提高大型語言模型的效率具有重要意義，可以幫助解決過度思考問題，并引導(dǎo)AI的決策邏輯更加高效。

六、研究的局限性與未來方向

盡管STA方法表現(xiàn)出色，研究團(tuán)隊(duì)也坦誠地指出了一些局限性：

首先，由于公開可用的稀疏自編碼器(SAE)有限，實(shí)驗(yàn)主要在Gemma-2-9B-pt、Gemma-2-9B-it和Llama-3.1-8B模型上進(jìn)行。未來研究可以擴(kuò)展到更廣泛的大語言模型，包括更大、更多樣化的架構(gòu)。

其次，雖然STA方法在安全性控制方面表現(xiàn)出色，但在個(gè)性化領(lǐng)域的效果有限。研究者們?cè)诟戒浿刑岬?，STA在控制模型的"短視獎(jiǎng)勵(lì)"(myopic reward)個(gè)性特征方面雖然優(yōu)于提示工程方法，但與其他控制引導(dǎo)方法相比并無明顯優(yōu)勢(shì)。這表明不同類型的行為控制可能需要不同的方法。

最后，研究團(tuán)隊(duì)提到，雖然STA方法能夠?qū)崿F(xiàn)精確的行為控制，但如何更好地理解和解釋控制過程中的因果關(guān)系仍是一個(gè)值得深入研究的問題。

七、總結(jié)與啟示

這項(xiàng)研究為控制大語言模型的行為提供了一種新的、更精確的方法。通過識(shí)別和操作"目標(biāo)原子"，STA方法能夠在最小化副作用的同時(shí)實(shí)現(xiàn)穩(wěn)健的行為控制。

相比傳統(tǒng)的提示工程方法，控制引導(dǎo)方法(尤其是STA)展現(xiàn)出更好的穩(wěn)健性和靈活性，能夠更好地應(yīng)對(duì)各種復(fù)雜的輸入情況。這對(duì)于確保大語言模型的安全性和可靠性具有重要意義。

更廣泛地看，這項(xiàng)研究揭示了大語言模型內(nèi)部知識(shí)表示的復(fù)雜性，以及如何通過解耦這些表示來實(shí)現(xiàn)更精確的控制。這不僅有助于提高模型的安全性，還可能為未來的模型解釋性和可控性研究提供新的思路。

對(duì)于普通用戶來說，這項(xiàng)研究的成果意味著未來的AI系統(tǒng)可能會(huì)更加可靠和安全，能夠更好地遵循人類的指令，同時(shí)避免產(chǎn)生有害內(nèi)容。對(duì)于AI開發(fā)者來說，STA方法提供了一種新的工具，可以在不需要重新訓(xùn)練模型的情況下，在推理階段精確控制模型的行為。

隨著大語言模型繼續(xù)發(fā)展和普及，像STA這樣的精確控制方法將變得越來越重要，有助于確保這些強(qiáng)大的AI系統(tǒng)能夠安全、可靠地服務(wù)于人類需求。

大語言模型控制稀疏自編碼器安全對(duì)齊

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

人工智能
動(dòng)態(tài)專家搜索
推理優(yōu)化

2025-10-22 13:24

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法，讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率，且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置，為AI推理優(yōu)化開辟新路徑。
人工智能
強(qiáng)化學(xué)習(xí)
模型優(yōu)化

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法，通過"壓縮-擴(kuò)張"交替訓(xùn)練策略，成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示，該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí)，輸出長度減少46.9%，真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化，為AI模型訓(xùn)練提供了新思路。
人工智能
視頻生成
實(shí)時(shí)流媒體

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù)，實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新，解決了長視頻生成中的錯(cuò)誤累積問題，可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻，延遲僅0.76秒，質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01，為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
人工智能
幾何學(xué)習(xí)
空間智能

2025-10-22 10:14

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn)，通過讓AI模型學(xué)習(xí)解決幾何問題，能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集，使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示，幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來顯著提升，其中最佳模型達(dá)到49.6%準(zhǔn)確率，超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

2025-10-22 13:24

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

2025-10-22 10:14

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專區(qū)：https://www.12377.cn

<code id="o05yo"><source id="o05yo"><legend id="o05yo"></legend></source></code>