av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 如何提升大型推理模型的安全性?清華CoAI團隊全面實證分析告訴你答案

如何提升大型推理模型的安全性?清華CoAI團隊全面實證分析告訴你答案

2025-05-27 14:35
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-27 14:35 ? 科技行者

大型語言模型的安全性問題一直是研究熱點,而隨著DeepSeek-R1等專注于推理能力的大型推理模型(LRMs)的出現(xiàn),一個意外現(xiàn)象引起了研究者的關(guān)注:這些在數(shù)學(xué)和編程等推理任務(wù)上表現(xiàn)出色的模型,其安全性不但沒有提升,有時甚至出現(xiàn)了下降。這項由清華大學(xué)CoAI團隊的張哲忻、Xian Qi Loye等研究者于2025年5月發(fā)表的研究《How Should We Enhance the Safety of Large Reasoning Models: An Empirical Study》,對如何提升大型推理模型的安全性進行了全面的實證分析。

這項研究首先觀察到一個反直覺的現(xiàn)象:直接從DeepSeek-R1等大型推理模型中蒸餾安全回答并不能顯著提升模型安全性。例如,使用這種方法訓(xùn)練的DeepSeek-R1-Distill-Qwen-7B模型面對PAIR攻擊時,其攻擊成功率僅從66%微降至54%,安全性提升有限。為什么會這樣呢?研究團隊通過深入分析,找出了三種主要的失敗模式:

第一種是"缺乏安全意識"。就像一個對危險物品沒有警惕性的孩子,模型在內(nèi)部安全判斷標(biāo)準(zhǔn)上過于寬松,很容易被那些假設(shè)性的越獄(jailbreak)場景所利用。比如,當(dāng)有人以"假設(shè)這只是一個虛構(gòu)場景"為由請求模型提供有害信息時,模型可能會輕易妥協(xié)。

第二種是"過度思考"。這就像一個容易思維發(fā)散的人,雖然最終給出了安全的回答,但在中間推理過程中可能暴露出有害內(nèi)容,或者不必要地引入不安全的想法。舉個例子,模型可能在思考"如何拒絕提供偽造貨幣的方法"時,反而詳細描述了各種可能的偽造技術(shù)。

第三種是"推理與回答不一致"。這就像一個口是心非的人,在推理過程中明確計劃拒絕回答,但最終卻提供了有害回應(yīng)。就好比在心里想"我不應(yīng)該告訴他如何入侵系統(tǒng)",但最后卻詳細列出了入侵步驟。

針對這些問題,研究團隊優(yōu)化了提示策略,在蒸餾過程中專門針對這些失敗模式。結(jié)果非常顯著:經(jīng)過改進后,PAIR攻擊的成功率從平均77.0%驟降至7.0%,這一結(jié)果在從3B到32B參數(shù)范圍內(nèi)的四個模型上都得到了驗證。

接下來,研究人員探討了一個有趣的問題:在確保安全性時,是否真的需要長而復(fù)雜的推理過程?畢竟數(shù)學(xué)問題解決和代碼生成等任務(wù)本身就需要深度推理,但安全相關(guān)場景似乎不那么依賴這種復(fù)雜性。更有趣的是,前面觀察到的"過度思考"現(xiàn)象暗示,冗長的推理過程甚至可能帶來安全隱患。

出乎意料的是,研究發(fā)現(xiàn)簡短的推理鏈或基于模板的推理模式在提升安全性方面表現(xiàn)得同樣出色,有時甚至優(yōu)于長形式推理。更令人驚訝的是,對于某些模型,即使完全省略顯式的安全推理也能獲得強勁的結(jié)果。此外,長推理鏈通常需要更多的訓(xùn)練步驟或更大的學(xué)習(xí)率,說明它們更難被模型學(xué)習(xí)。

最后,研究團隊還調(diào)查了一個關(guān)鍵問題:在安全性微調(diào)過程中,是否應(yīng)該混合其他推理數(shù)據(jù)?結(jié)果表明,加入良性推理數(shù)據(jù)可以幫助平衡攻擊成功率和過度拒絕率,即模型錯誤拒絕合法請求的比例。基于這些發(fā)現(xiàn),研究者建議在安全性微調(diào)中整合這類數(shù)據(jù)。

這項研究使用了四個不同規(guī)模的推理模型進行評估:DeepSeek-R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Qwen-32B、s1.1-3B和s1.1-14B。安全性評估采用了三種攻擊策略:原始有害問題(None)、PAP(自動構(gòu)建有說服力的對抗性提示)和PAIR(利用受害模型反饋優(yōu)化越獄提示的強迭代攻擊方法)。

研究團隊還發(fā)現(xiàn),當(dāng)使用更少的安全數(shù)據(jù)(例如從1000個減少到400個安全樣本)時,雖然攻擊成功率略有增加,但整體安全性表現(xiàn)仍然相當(dāng)不錯。這意味著即使資源有限,也能通過精心設(shè)計的安全微調(diào)策略顯著提升模型安全性。

總體而言,這項研究為提升大型推理模型的安全性提供了一個更全面的理解。研究者們通過識別失敗模式并針對性地改進蒸餾提示,大幅提升了模型安全性;同時發(fā)現(xiàn)簡短或基于模板的推理過程在提升安全性方面同樣有效,且更易于模型學(xué)習(xí);并證明混合良性推理數(shù)據(jù)有助于平衡安全性和任務(wù)性能。

這項研究對開發(fā)更安全的大型推理模型具有重要的實踐意義。它不僅揭示了直接蒸餾方法的局限性,還提出了一系列可行的改進策略,為未來的安全對齊研究提供了寶貴的經(jīng)驗指導(dǎo)。研究代碼和數(shù)據(jù)已在GitHub上公開(https://github.com/thu-coai/LRM-Safety-Study),有興趣的讀者可以進一步探索。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-