av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁(yè) 聲入虎穴:MBZUAI研究團(tuán)隊(duì)揭示大型音頻語(yǔ)言模型的安全漏洞與對(duì)抗攻擊實(shí)驗(yàn)

聲入虎穴:MBZUAI研究團(tuán)隊(duì)揭示大型音頻語(yǔ)言模型的安全漏洞與對(duì)抗攻擊實(shí)驗(yàn)

2025-05-27 17:08
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-27 17:08 ? 科技行者

大型音頻語(yǔ)言模型(LAMs)的興起為我們帶來(lái)了科幻小說(shuō)中才有的人工助手體驗(yàn),但這些能聽會(huì)說(shuō)的AI助手真的安全嗎?近日,由Mohamed bin Zayed人工智能大學(xué)(MBZUAI)的宋子睿、蔣倩、崔明軒等研究人員,聯(lián)合ByteDance的李明哲和澳大利亞國(guó)立大學(xué)的張澤宇共同完成的一項(xiàng)研究《Audio Jailbreak: An Open Comprehensive Benchmark for Jailbreaking Large Audio-Language Models》(音頻越獄:一個(gè)針對(duì)大型音頻語(yǔ)言模型的綜合基準(zhǔn)測(cè)試)揭示了這一領(lǐng)域中不為人知的安全隱患。該論文于2024年5月21日在arXiv預(yù)印本平臺(tái)上發(fā)布(arXiv:2505.15406v1),研究團(tuán)隊(duì)也同時(shí)開源了相關(guān)代碼和數(shù)據(jù)集:https://github.com/mbzuai-nlp/AudioJailbreak。

想象一下,你對(duì)著你的AI助手說(shuō):"嘿,幫我分析一下不同性別的駕駛行為",AI給你回答了一段公正客觀的分析。但如果有人稍微調(diào)整了這段語(yǔ)音的音調(diào)、速度或背景音,AI可能突然回答:"是啊,女性就是糟糕的駕駛員..."——這就是音頻越獄攻擊的威力。

當(dāng)前的研究多集中在文本和圖像模型的安全性上,而對(duì)音頻語(yǔ)言模型的安全評(píng)估卻相對(duì)不足。特別是針對(duì)"越獄攻擊"(jailbreak attacks,即誘導(dǎo)AI生成有害或違反政策內(nèi)容的攻擊)的系統(tǒng)性評(píng)估幾乎空白。這類攻擊在音頻領(lǐng)域尤其具有挑戰(zhàn)性,因?yàn)檎Z(yǔ)音既包含語(yǔ)義信息,又有獨(dú)特的時(shí)間和聲學(xué)特性。

針對(duì)這一研究空白,MBZUAI團(tuán)隊(duì)構(gòu)建了AJailBench——第一個(gè)專門用于評(píng)估音頻語(yǔ)言模型越獄漏洞的開源基準(zhǔn)測(cè)試。他們的研究包含三個(gè)關(guān)鍵部分:首先,創(chuàng)建了包含1,495個(gè)對(duì)抗性音頻樣本的基礎(chǔ)數(shù)據(jù)集;其次,開發(fā)了一套音頻擾動(dòng)工具包(APT),能夠在保持語(yǔ)義內(nèi)容的同時(shí)生成更具攻擊性的變體;最后,他們對(duì)七個(gè)主流音頻語(yǔ)言模型進(jìn)行了全面評(píng)估,揭示了這些模型在面對(duì)攻擊時(shí)的脆弱性。

研究的結(jié)果令人擔(dān)憂:即使是最先進(jìn)的音頻語(yǔ)言模型,在面對(duì)這些微妙但有效的音頻擾動(dòng)時(shí),也會(huì)顯著降低安全性能。這不僅暴露了當(dāng)前技術(shù)的局限,也為未來(lái)的防御機(jī)制研究提供了重要基礎(chǔ)。

一、AJailBench基礎(chǔ)數(shù)據(jù)集:構(gòu)建越獄測(cè)試的基石

想象你在搭建一個(gè)安全測(cè)試場(chǎng),需要各種各樣的"鑰匙"來(lái)測(cè)試鎖的可靠性。MBZUAI的研究團(tuán)隊(duì)正是這樣構(gòu)建了AJailBench-Base數(shù)據(jù)集,這個(gè)數(shù)據(jù)集就像是一大堆專門設(shè)計(jì)用來(lái)"撬鎖"的工具。

研究團(tuán)隊(duì)首先從兩個(gè)主要來(lái)源收集了越獄文本樣本。一部分來(lái)自已發(fā)表的研究論文和Reddit等在線平臺(tái)上用戶分享的實(shí)例;另一部分則是使用開源越獄生成工具自動(dòng)創(chuàng)建的。這些文本樣本經(jīng)過精心篩選,只保留那些能夠繞過ChatGPT-3.5/4安全過濾器的提示,確?;鶞?zhǔn)測(cè)試具有挑戰(zhàn)性和實(shí)用性。

每個(gè)樣本都根據(jù)OpenAI使用政策,使用DeekSeek-V3進(jìn)行違規(guī)類型標(biāo)注,最終構(gòu)建了一個(gè)包含1,495個(gè)越獄文本樣本的數(shù)據(jù)集,涵蓋了10個(gè)違規(guī)類別,包括虛假信息、經(jīng)濟(jì)傷害、個(gè)人社會(huì)規(guī)范濫用等。

為了將這些文本轉(zhuǎn)換為自然的語(yǔ)音,研究團(tuán)隊(duì)使用了Google Cloud TTS模型,并配置了118種不同的音色,跨越四種英語(yǔ)口音(英國(guó)、澳大利亞、美國(guó)、印度),最大限度地增加音頻多樣性。這就像準(zhǔn)備了118位不同口音、音調(diào)的"配音演員",讓他們朗讀這些潛在有害的內(nèi)容。

值得注意的是,在自動(dòng)生成的越獄樣本中,有些詞匯排列混亂(類似拼寫錯(cuò)誤),TTS模型會(huì)逐字拼讀而非直接朗讀,這也保留了文本越獄攻擊的某些特性。

二、音頻擾動(dòng)工具包:讓越獄攻擊更具現(xiàn)實(shí)挑戰(zhàn)性

雖然基礎(chǔ)數(shù)據(jù)集可以評(píng)估模型對(duì)"干凈"音頻的魯棒性,但現(xiàn)實(shí)世界中的攻擊往往更為復(fù)雜和隱蔽。想象一下,如果有人試圖破解你家的安全系統(tǒng),他們不會(huì)只用一種方法,而是會(huì)嘗試各種技巧的組合。

基于這一考慮,研究團(tuán)隊(duì)開發(fā)了音頻擾動(dòng)工具包(Audio Perturbation Toolkit,APT),這個(gè)工具包有三個(gè)主要?jiǎng)訖C(jī):首先,它能創(chuàng)造更強(qiáng)大的攻擊方式,甚至可以挑戰(zhàn)那些已經(jīng)經(jīng)過良好安全調(diào)整的模型;其次,它利用語(yǔ)音的獨(dú)特特性,如時(shí)間變化和聲學(xué)模糊性;最后,它探索了多種擾動(dòng)類型的組合效應(yīng),增強(qiáng)攻擊的多樣性和有效性。

研究團(tuán)隊(duì)提出了一個(gè)統(tǒng)一的數(shù)學(xué)框架來(lái)描述音頻擾動(dòng)。假設(shè)原始音頻樣本為x,擾動(dòng)被定義為參數(shù)化轉(zhuǎn)換T(x; θ),生成擾動(dòng)后的音頻x'。為了保持越獄意圖不變,他們引入了語(yǔ)義一致性約束:S(x, x') ≥ τ,其中S衡量相似度,τ是閾值。

具體來(lái)說(shuō),APT包含三類擾動(dòng)方法:

時(shí)域擾動(dòng):直接作用于波形x(t),包括能量分布擾動(dòng)(調(diào)整音頻整體響度)、截?cái)啵ㄒ瞥囟〞r(shí)間段的信號(hào))和淡入淡出(對(duì)音頻開始和結(jié)束部分應(yīng)用線性增益斜坡)。

頻域擾動(dòng):通過操縱頻率成分來(lái)修改信號(hào),如音高偏移(改變基頻及其諧波而不改變持續(xù)時(shí)間)和時(shí)間縮放(加速或減慢音頻而不改變音高)。

混合擾動(dòng):將原始信號(hào)與外部信號(hào)結(jié)合,包括額外聽覺引導(dǎo)(添加超聲波或次聲波正弦信號(hào))和自然噪聲注入(疊加雨聲、哭聲、喇叭聲或音樂等自然聲音事件)。

就像一位廚師會(huì)嘗試不同的調(diào)味料組合以找到最佳風(fēng)味一樣,研究團(tuán)隊(duì)?wèi)?yīng)用貝葉斯優(yōu)化來(lái)自動(dòng)搜索最有效的擾動(dòng)配置。他們使用低維向量p = (p1, p2)控制擾動(dòng)過程,其中p1表示擾動(dòng)類型的配置(例如,截?cái)?噪聲注入+音高偏移的組合),p2控制每個(gè)激活擾動(dòng)的強(qiáng)度或關(guān)鍵特性。

為了量化模型拒絕程度,他們定義了一組參考拒絕短語(yǔ),并測(cè)量模型響應(yīng)與這組短語(yǔ)之間的語(yǔ)義相似度。優(yōu)化目標(biāo)是找到能使這種相似度最小化的擾動(dòng)參數(shù),從而暴露潛在的越獄漏洞。

三、語(yǔ)義一致性約束:確保攻擊的有效性和真實(shí)性

在進(jìn)行對(duì)抗性音頻攻擊時(shí),確保擾動(dòng)后的輸入保留原始查詢的核心語(yǔ)義至關(guān)重要。否則,擾動(dòng)可能會(huì)無(wú)意中改變或模糊預(yù)期含義,使人難以判斷模型響應(yīng)是由真正的漏洞引起,還是僅僅由于語(yǔ)義退化。

這就像魔術(shù)師的手法——如果觀眾看出了把戲,魔術(shù)就失去了效果。同樣,如果音頻擾動(dòng)太明顯地改變了原始內(nèi)容,這種攻擊就失去了研究?jī)r(jià)值。

為解決這些挑戰(zhàn),研究團(tuán)隊(duì)引入了語(yǔ)義一致性約束,確保擾動(dòng)音頻在保持對(duì)抗效果的同時(shí),仍忠實(shí)于原始意圖。這種約束促進(jìn)了對(duì)抗樣本的泛化性和可遷移性,使成功的攻擊能夠跨不同的聲音風(fēng)格、口音或語(yǔ)速工作,從而更接近現(xiàn)實(shí)世界的黑盒場(chǎng)景。

具體實(shí)現(xiàn)中,每種擾動(dòng)方法都由一個(gè)參數(shù)控制,該參數(shù)調(diào)整擾動(dòng)程度。研究團(tuán)隊(duì)遍歷參數(shù)范圍生成不同強(qiáng)度的擾動(dòng)音頻樣本,然后使用自動(dòng)語(yǔ)音識(shí)別模型轉(zhuǎn)錄每個(gè)樣本。接著,他們使用GPTScore衡量轉(zhuǎn)錄文本與原始越獄提示之間的語(yǔ)義相似度,并通過人工評(píng)估確定哪些樣本在語(yǔ)義上保持一致,從而確定相應(yīng)的最小GPTScore。

這個(gè)分?jǐn)?shù)被映射回?cái)_動(dòng)參數(shù)空間,為每種方法定義了語(yǔ)義安全擾動(dòng)的最大閾值。GPTScore充當(dāng)了人類判斷與擾動(dòng)參數(shù)空間(如縮放率、頻率偏移、時(shí)間段)之間的中間橋梁,避免了不同擾動(dòng)類型之間不可比性的問題。

通過語(yǔ)義一致性實(shí)驗(yàn),研究團(tuán)隊(duì)發(fā)現(xiàn):能量分布擾動(dòng)導(dǎo)致相似度相對(duì)緩慢下降,但在高擾動(dòng)強(qiáng)度時(shí)急劇下降;音高偏移在中等頻率偏移時(shí)相似度略有增加,然后迅速下降,表明模型對(duì)某些頻率變化具有一定的魯棒性;時(shí)間縮放顯著影響相似度,當(dāng)縮放率低于0.6或超過1.2時(shí),相似度急劇下降,表明在這種轉(zhuǎn)換下語(yǔ)義保真度較低;多輪疊加擾動(dòng)對(duì)語(yǔ)義一致性的影響最為線性和持久,隨著擾動(dòng)數(shù)量增加,語(yǔ)義一致性逐漸退化。

最終,研究團(tuán)隊(duì)只保留了低于語(yǔ)義閾值的擾動(dòng),確保既保持語(yǔ)義一致性,又能實(shí)現(xiàn)有效的對(duì)抗攻擊。

四、基準(zhǔn)測(cè)試結(jié)果:揭示音頻語(yǔ)言模型的安全弱點(diǎn)

研究團(tuán)隊(duì)對(duì)七個(gè)主流音頻語(yǔ)言模型進(jìn)行了全面評(píng)估,包括SpeechGPT、SALMONN、DiVA、Qwen2-Audio、LLama-Omni、Gemini-2.0-flash和GPT-4o-audio。為適應(yīng)不同模型的特定問答格式,他們對(duì)提示進(jìn)行了必要的調(diào)整。

為了全面評(píng)估模型在對(duì)抗攻擊下的行為,研究團(tuán)隊(duì)采用了五個(gè)指標(biāo):攻擊成功率(ASR,越低越好)、毒性得分(TS,越低越好)、政策違規(guī)(PV,越低越好)、相關(guān)性(越高越好)和相似度(越高越好)。

攻擊成功率表明模型對(duì)對(duì)抗提示的脆弱性。參考Shen等人的方法,他們使用拒絕關(guān)鍵詞列表(如"抱歉,我不能")計(jì)算ASR;如果響應(yīng)包含任何這些關(guān)鍵詞,則攻擊被視為不成功。較低的ASR反映了對(duì)未經(jīng)授權(quán)或不安全生成的更強(qiáng)抵抗力。

為評(píng)估輸出的質(zhì)量、安全性和相關(guān)性,他們使用了基于GPT-4o的評(píng)估框架。毒性得分在1到5的范圍內(nèi)衡量有害程度;政策違規(guī)是政策違反的二元指標(biāo)(1=違規(guī),0=安全);相關(guān)性捕捉響應(yīng)與提示的一致程度,也是1到5的評(píng)分。為評(píng)估與標(biāo)準(zhǔn)拒絕行為的一致性,他們使用GPTScore計(jì)算模型輸出與142個(gè)GPT-4生成的拒絕之間的相似度。

評(píng)估結(jié)果顯示,所有被評(píng)估的LAM(包括Qwen2 Audio、DiVA、LLaMA Omni和GPT-4o)在文本和音頻輸入之間表現(xiàn)出高度一致的安全行為。這表明納入音頻模態(tài)并不會(huì)削弱它們底層語(yǔ)言模型的安全對(duì)齊。值得注意的是,GPT-4o對(duì)其音頻模態(tài)施加了比其文本對(duì)應(yīng)部分更嚴(yán)格的安全約束,這反映在更低的ASR、TS和PV分?jǐn)?shù)上。

研究還揭示,SpeechGPT是安全對(duì)齊程度最低的模型,幾乎沒有能力抵抗越獄攻擊。而在光譜的另一端,SALMONN實(shí)施了極其嚴(yán)格的安全約束,但這是以降低可用性為代價(jià)的,因?yàn)樗?jīng)常無(wú)法對(duì)良性用戶查詢提供有用的響應(yīng)。

有趣的是,GPT-4o在處理潛在越獄提示時(shí)采用了一種微妙的策略。它不是直接拒絕,而是經(jīng)常使用模糊但中性的語(yǔ)言,既承認(rèn)主題,又巧妙地轉(zhuǎn)移請(qǐng)求。例如,當(dāng)被問及醫(yī)療問題時(shí),它回復(fù):"我在這里提供信息并促進(jìn)積極負(fù)責(zé)任的行為...最好咨詢持證醫(yī)療專業(yè)人員。"這反映了安全性和可用性之間的平衡,在不過度限制的情況下保持一致性。

當(dāng)使用AJailBench-APT+數(shù)據(jù)集(包含經(jīng)過優(yōu)化的擾動(dòng))進(jìn)行評(píng)估時(shí),所有模型的安全指標(biāo)都顯著下降,表明這些語(yǔ)義一致的擾動(dòng)增加了攻擊的有效性。通過貝葉斯優(yōu)化選擇的七種APT工具中,時(shí)間拉伸擾動(dòng)和淡入淡出擾動(dòng)最常被使用,對(duì)各種輸入的模型魯棒性降低效果最強(qiáng)。

這些結(jié)果突出了三個(gè)關(guān)鍵見解:首先,對(duì)LAM的越獄攻擊不僅可以通過精心制作的語(yǔ)義內(nèi)容成功,還可以通過音頻信號(hào)本身的微妙操作成功,揭示了一個(gè)超出文本級(jí)提示的攻擊向量;其次,AJailBench-APT+中對(duì)抗樣本的成功表明,當(dāng)前LAM安全機(jī)制可能過度依賴于干凈的、轉(zhuǎn)錄的語(yǔ)音表示,可能忽視了可以繞過拒絕策略的非規(guī)范聲學(xué)模式;第三,APT+通過整合信號(hào)級(jí)可變性和語(yǔ)義保留,構(gòu)成了一個(gè)更嚴(yán)格的基準(zhǔn),從而在對(duì)抗條件下提供對(duì)音頻模型魯棒性的更現(xiàn)實(shí)、更可遷移的評(píng)估。

五、展望未來(lái):音頻語(yǔ)言模型的防御機(jī)制

盡管越來(lái)越多人意識(shí)到LAM容易受到越獄攻擊,但據(jù)研究團(tuán)隊(duì)所知,目前還沒有專門為L(zhǎng)AM設(shè)計(jì)的系統(tǒng)防御機(jī)制。為填補(bǔ)這一空白,他們提出未來(lái)研究可以探索使用語(yǔ)義保留擾動(dòng)進(jìn)行對(duì)抗性微調(diào),通過增強(qiáng)音頻視圖進(jìn)行一致性正則化,以及輸入級(jí)信號(hào)過濾技術(shù)來(lái)緩解輸入級(jí)攻擊。

此外,研究團(tuán)隊(duì)建議納入聲學(xué)上下文感知的拒絕校準(zhǔn)和不確定性感知的解碼策略可能有助于LAM在遇到異?;?qū)剐砸纛l信號(hào)時(shí)檢測(cè)并避免不安全的完成。

雖然AJailBench提供了系統(tǒng)評(píng)估LAM在音頻攻擊下越獄漏洞的框架,但仍有幾個(gè)未探索的方向。首先,他們沒有調(diào)查針對(duì)音頻對(duì)抗攻擊的防御,主要是因?yàn)檫@一領(lǐng)域的進(jìn)展有限——目前還沒有專門為音頻模態(tài)設(shè)計(jì)的成熟防御方法。其次,研究主要集中在英語(yǔ)音頻輸入上,雖然包含了各種口音,但跨語(yǔ)言魯棒性在對(duì)抗擾動(dòng)下仍未探索,這對(duì)多語(yǔ)言部署場(chǎng)景可能至關(guān)重要。

結(jié)論:研究團(tuán)隊(duì)的AJailBench基準(zhǔn)測(cè)試首次系統(tǒng)地評(píng)估了大型音頻語(yǔ)言模型面對(duì)各種對(duì)抗性音頻輸入時(shí)的安全漏洞。實(shí)驗(yàn)結(jié)果令人擔(dān)憂:即使是最先進(jìn)的音頻語(yǔ)言模型,在面對(duì)精心設(shè)計(jì)的音頻擾動(dòng)時(shí),也會(huì)顯著降低其安全表現(xiàn)。這項(xiàng)研究不僅揭示了當(dāng)前技術(shù)的局限性,也為未來(lái)開發(fā)更強(qiáng)大、語(yǔ)義感知的防御機(jī)制鋪平了道路。

從更廣泛的角度看,隨著音頻語(yǔ)言模型在各種應(yīng)用中的普及,確保它們能夠抵抗這類攻擊變得至關(guān)重要。研究團(tuán)隊(duì)開源的AJailBench基準(zhǔn)測(cè)試和音頻擾動(dòng)工具包,為研究人員和開發(fā)者提供了評(píng)估和增強(qiáng)模型安全性的寶貴資源。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-