華盛頓大學(xué)的Sahil Verma、Luke Zettlemoyer、Jeff Bilmes、Hila Gonen與微軟的Keegan Hines、Charlotte Siska、Chandan Singh團隊在2025年5月29日發(fā)表了一篇題為"OMNIGUARD: An Efficient Approach for AI Safety Moderation Across Modalities"的研究論文,該論文已上傳至arXiv預(yù)印本平臺(arXiv:2505.23856v1)。這項研究提出了一種全新的方法,用于保護大型語言模型免受有害使用的威脅,特別是那些通過低資源語言或非文本模態(tài)(如圖像和音頻)進行的攻擊。
隨著大型語言模型(LLMs)能力的不斷提升,人們對這些模型可能被濫用的擔憂也日益增長。目前主流的安全防護方法是檢測用戶向模型提交的有害查詢。然而,現(xiàn)有的檢測方法存在漏洞,特別容易受到那些利用模型能力"不匹配泛化"的攻擊。什么是不匹配泛化?想象一下,你學(xué)會了用英語識別危險情況,但當有人用你不太熟悉的語言向你描述同樣危險的情況時,你可能無法識別出其中的危險。同樣,當今的語言模型在訓(xùn)練過程中接觸到的安全數(shù)據(jù)通常不如預(yù)訓(xùn)練數(shù)據(jù)那樣多樣化,這就導(dǎo)致了模型的安全防護能力在某些情況下(如低資源語言或圖像、音頻等非文本模態(tài))存在漏洞。
OMNIGUARD正是為解決這一問題而生。這個方法就像是給AI配備了一副能看穿各種偽裝的特殊眼鏡,無論攻擊者使用什么語言或以什么形式(文本、圖像或音頻)提出有害請求,OMNIGUARD都能有效識別并阻止。更令人驚喜的是,與其他需要單獨運行的防護模型相比,OMNIGUARD直接利用模型內(nèi)部已有的表示(即計算過程中產(chǎn)生的中間數(shù)據(jù)),使其速度比最快的基準方法快約120倍,效率大大提升。
研究團隊的實驗結(jié)果令人振奮:在多語言環(huán)境中,OMNIGUARD比最強的基準方法高出11.57%的準確率;對于基于圖像的有害提示,準確率提高了20.44%;對于基于音頻的有害提示,更是創(chuàng)造了新的性能記錄。這意味著,無論攻擊者使用什么語言或以何種形式提出有害請求,OMNIGUARD都能更好地保護AI系統(tǒng)免受濫用。
接下來,讓我們一起深入了解OMNIGUARD的工作原理,以及它如何有效防御跨語言和跨模態(tài)的安全威脅。
一、OMNIGUARD的核心思想:發(fā)現(xiàn)通用表示
OMNIGUARD的核心思想非常巧妙,它基于一個重要發(fā)現(xiàn):大型語言模型和多模態(tài)大型語言模型在處理信息時,會在內(nèi)部生成某些具有"通用性"的表示,這些表示在不同語言和不同模態(tài)之間保持相似。這就像人類大腦在處理不同語言或不同感官輸入(如視覺、聽覺)時,最終會形成某種與具體表達形式無關(guān)的共通理解。
為了更好地理解這一點,我們可以想象一個簡單的例子:無論你用英語說"狗"(dog),用法語說"chien",用中文說"狗",或者看到一張狗的圖片,甚至聽到狗叫聲,你的大腦最終都會識別出"這是關(guān)于狗的信息"。同樣,大型語言模型在內(nèi)部也會形成這種跨語言、跨模態(tài)的通用表示。
OMNIGUARD的第一步就是找到這些通用表示。研究團隊開發(fā)了一種名為"通用性分數(shù)"(U-Score)的指標來衡量模型內(nèi)部各層表示的通用程度。具體來說,他們會用英語句子及其在其他語言中的翻譯來測試模型:如果一層的表示能夠使翻譯對(即同一句話的不同語言版本)之間的相似度高于隨機句子對之間的相似度,那么這一層就具有良好的跨語言通用性。
研究人員通過大量實驗發(fā)現(xiàn),在模型的中間層(而非開始層或結(jié)束層)中,這種通用表示最為明顯。對于Llama3.3-70B-Instruct模型來說,第57層(共81層)的通用性分數(shù)最高,這意味著該層的表示最適合用于構(gòu)建跨語言的有害內(nèi)容檢測器。同樣,對于圖像-文本對,研究人員在Molmo-7B模型的第22層(共28層)發(fā)現(xiàn)了最佳的通用表示;對于音頻-文本對,則是在LLaMA-Omni 8B模型的第21層(共32層)。
這一發(fā)現(xiàn)非常重要,因為它為構(gòu)建能夠跨語言、跨模態(tài)工作的有害內(nèi)容檢測器奠定了基礎(chǔ)。就像一個翻譯官能夠理解不同語言表達的相同含義,或者一個多感官專家能夠從視覺和聽覺信息中提取共通內(nèi)容,OMNIGUARD利用模型內(nèi)部的這種通用表示能力,構(gòu)建了一個能夠識別各種形式有害內(nèi)容的強大檢測器。
二、OMNIGUARD的實現(xiàn)方法:輕量級檢測器
找到具有高通用性的模型層后,OMNIGUARD的第二步是基于這些層的輸出構(gòu)建一個輕量級的有害內(nèi)容檢測器。這個檢測器采用了一個簡單但有效的多層感知機(MLP)結(jié)構(gòu),包含兩個隱藏層(隱藏層大小分別為512和256)。
這就像是在模型的"思維過程"中安裝了一個專門的"危險雷達",它直接利用模型已經(jīng)形成的通用理解,無需重新處理輸入信息,就能有效識別出潛在的有害內(nèi)容。這種設(shè)計使得OMNIGUARD非常高效,因為它復(fù)用了模型在生成過程中已經(jīng)計算出的表示,完全避免了將輸入通過單獨的防護模型的開銷。
在訓(xùn)練階段,研究團隊使用了Aegis AI Content Safety數(shù)據(jù)集中的2,800個樣本(其中包含良性和有害內(nèi)容各半),這比其他基準方法使用的訓(xùn)練數(shù)據(jù)少了約18倍。對于文本實驗,他們將這些英文樣本翻譯成了其他52種自然語言和20種密碼語言(如base64編碼、凱撒密碼等),總共覆蓋了73種語言。對于圖像實驗,他們使用了來自JailBreakV-28K和VLSafe數(shù)據(jù)集的約3,500對圖像-查詢對進行訓(xùn)練。對于音頻實驗,他們使用開源的Kokoro模型將文本樣本轉(zhuǎn)換為語音。
值得注意的是,OMNIGUARD只使用一半的語言進行訓(xùn)練,剩余的語言用于測試泛化能力。這就像是教會一個人識別幾種語言中的危險信息,然后測試他是否能夠在從未學(xué)習(xí)過的語言中同樣識別出危險。
在推理階段,當用戶向模型提交一個查詢時,OMNIGUARD會應(yīng)用這個輕量級檢測器到模型的內(nèi)部表示上,幾乎不增加任何額外的計算開銷。這種設(shè)計使得OMNIGUARD比基準方法快約120倍,極大地提高了安全檢測的效率。
三、實驗設(shè)置與基準比較
為了全面評估OMNIGUARD的性能,研究團隊設(shè)計了一系列嚴格的實驗,涵蓋了多語言文本、圖像和音頻三種模態(tài)。
在多語言文本防護方面,研究人員將OMNIGUARD與多種流行的防護模型進行了比較,包括LlamaGuard、AegisGuard、WildGuard等。特別值得一提的是,他們還比較了專門為多語言有害內(nèi)容檢測而設(shè)計的DuoGuard和PolyGuard模型。實驗使用了各種多語言基準,如MultiJail(10種語言)、XSafety(10種語言)、RTP-LX(28種語言)等,以及將英語基準(如HarmBench、Forbidden Questions等)翻譯成73種語言的版本。
在圖像防護方面,研究人員將OMNIGUARD與Llama Guard 3 Vision、VLMGuard和LLavaGuard等基準模型進行了比較。實驗使用了多種圖像攻擊基準,包括Hades、VLSBench、MM-SafetyBench等,以及使用不同變體(如旋轉(zhuǎn)、鏡像、單詞替換等)加密的有害提示的MML Safebench基準。
在音頻防護方面,由于缺乏現(xiàn)有的音頻有害內(nèi)容檢測基準,研究人員主要使用了VoiceBench和AIAH數(shù)據(jù)集,并將文本基準轉(zhuǎn)換為語音版本進行測試。為了提供上下文,他們將OMNIGUARD的性能與直接對音頻轉(zhuǎn)錄文本進行分類的方法進行了比較。
這些實驗設(shè)置就像是為OMNIGUARD設(shè)計的一系列嚴格的"安全檢查員考試",考察它在各種情況下識別有害內(nèi)容的能力。通過這些全面的測試,研究人員能夠全面評估OMNIGUARD的性能,并與現(xiàn)有方法進行公平比較。
四、令人印象深刻的實驗結(jié)果
OMNIGUARD在各種測試中展現(xiàn)出了卓越的性能,顯著優(yōu)于現(xiàn)有的防護方法。讓我們一起來看看這些令人印象深刻的結(jié)果。
在多語言文本防護方面,OMNIGUARD在多語言基準測試中達到了86.36%的平均準確率,比最強的基準方法(PolyGuard,83.19%)高出3.17個百分點。特別是在MultiJail、RTP-LX和AyaRedTeaming這三個基準上,OMNIGUARD創(chuàng)造了新的最高性能記錄。值得注意的是,PolyGuard使用了約191萬個訓(xùn)練樣本,而OMNIGUARD僅使用了約10.3萬個樣本,這表明OMNIGUARD的數(shù)據(jù)效率要高得多。在翻譯成73種語言的英語基準上,OMNIGUARD同樣表現(xiàn)出色,達到了84.85%的平均準確率,遠高于PolyGuard的66.07%。在未見過的語言上,OMNIGUARD也展現(xiàn)出了強大的泛化能力,準確率達到81.88%,明顯優(yōu)于經(jīng)過微調(diào)的DuoGuard(37.1%)和PolyGuard(75.13%)。
這就像是一場多語言安全檢測的比賽,OMNIGUARD不僅在已知語言中表現(xiàn)出色,還能夠有效地應(yīng)對從未學(xué)習(xí)過的語言,展現(xiàn)出了強大的"聽懂外語"能力。
在圖像防護方面,OMNIGUARD在圖像-查詢對基準上達到了95.44%的平均準確率,遠高于VLMGuard的88.74%和LlamaGuard 3 Vision的47.36%。在加密文本的圖像基準上,OMNIGUARD同樣表現(xiàn)出色,達到了79.76%的平均準確率。唯一的例外是MML Base64基準,這是一種使用base64編碼加密文本的圖像攻擊,所有模型在這一基準上都表現(xiàn)不佳。
這就像是一場"看圖識別危險"的比賽,OMNIGUARD能夠有效識別出隱藏在圖像中的各種形式的有害內(nèi)容,無論是直接的圖像-文本組合還是加密在圖像中的文本。
在音頻防護方面,OMNIGUARD在各個基準上都取得了高準確率,從82.03%到98.85%不等,平均準確率超過90%。由于缺乏現(xiàn)有的音頻有害內(nèi)容檢測基準,研究人員將OMNIGUARD的性能與直接對音頻轉(zhuǎn)錄文本進行分類的方法進行了比較,結(jié)果表明OMNIGUARD在音頻形式下的性能與文本形式相當甚至更好。
這就像是一場"聽聲辨危險"的比賽,OMNIGUARD展現(xiàn)出了出色的"聽力理解"能力,能夠有效識別出隱藏在語音中的有害內(nèi)容。
此外,研究人員還評估了OMNIGUARD在適應(yīng)新型攻擊方面的數(shù)據(jù)效率。他們發(fā)現(xiàn),OMNIGUARD只需要少量樣本就能迅速適應(yīng)新的代碼攻擊形式,在接觸不到5個樣本后就能達到接近100%的準確率。相比之下,基準防護模型即使在獲得更多樣本后也難以迅速適應(yīng)。
這就像是一場學(xué)習(xí)新技能的比賽,OMNIGUARD展現(xiàn)出了驚人的"學(xué)習(xí)速度",只需要很少的示例就能迅速掌握識別新型攻擊的能力。
總體而言,這些實驗結(jié)果充分證明了OMNIGUARD在跨語言和跨模態(tài)安全防護方面的卓越性能,它不僅準確率高,而且適應(yīng)性強,數(shù)據(jù)效率高,推理速度快,是一種全面優(yōu)秀的AI安全防護解決方案。
五、深入分析與見解
通過對實驗結(jié)果的深入分析,研究團隊獲得了一些重要的見解,幫助我們更好地理解OMNIGUARD的工作原理和優(yōu)勢。
首先,研究人員進行了消融實驗,比較了使用不同層的表示訓(xùn)練OMNIGUARD分類器的效果。他們發(fā)現(xiàn),使用U-Score選出的最佳層(第57層)訓(xùn)練的分類器性能明顯優(yōu)于使用其他層(如第10層、第75層或最后一層)訓(xùn)練的分類器,提高了5%到14%的準確率。這證實了通用性分數(shù)(U-Score)在選擇最適合跨語言和跨模態(tài)任務(wù)的模型層方面的有效性。
這就像是找到了大腦中負責(zé)"跨語言理解"的特定區(qū)域,利用這個區(qū)域的活動可以更準確地判斷不同語言表達的內(nèi)容是否有害。
其次,研究人員分析了OMNIGUARD的效率優(yōu)勢。由于OMNIGUARD直接利用模型在生成過程中已經(jīng)計算出的表示,它的推理時間比最快的基準方法(DuoGuard)快約120倍。具體來說,在處理AdvBench數(shù)據(jù)集(涵蓋英語、西班牙語、法語、泰盧固語和base64編碼)時,OMNIGUARD的平均推理時間僅為0.04秒,而DuoGuard為4.85秒,LlamaGuard 3為87.25秒,PolyGuard為409.90秒。這種顯著的效率優(yōu)勢使得OMNIGUARD非常適合實時應(yīng)用場景。
這就像是一個已經(jīng)閱讀過內(nèi)容的人可以立即判斷內(nèi)容的安全性,而不需要重新閱讀一遍。OMNIGUARD利用模型已經(jīng)"看過"的內(nèi)容直接做出判斷,大大節(jié)省了時間。
第三,研究人員分析了OMNIGUARD在不同語言上的性能與底層LLM在這些語言上的情感分類準確率之間的關(guān)系。他們發(fā)現(xiàn),這兩種準確率大體上是相關(guān)的,表明OMNIGUARD的防御能力與模型對該語言的理解能力有關(guān)。自然語言的準確率普遍高于密碼語言,這是符合預(yù)期的。然而,即使在模型對某種語言的理解接近隨機猜測(50%)的情況下,OMNIGUARD仍然能夠取得相當高的有害內(nèi)容檢測準確率,這表明它能夠有效利用有限的語言理解來識別潛在的有害內(nèi)容。
這就像是一個人即使對某種外語只有很基礎(chǔ)的了解,也能從說話的語氣、關(guān)鍵詞和上下文中大致判斷出是否存在潛在危險。OMNIGUARD同樣能夠從有限的語言理解中提取足夠的信息來識別有害內(nèi)容。
最后,值得注意的是,OMNIGUARD在應(yīng)對新型攻擊方面表現(xiàn)出了出色的數(shù)據(jù)效率。在適應(yīng)代碼攻擊的實驗中,OMNIGUARD只需要不到5個樣本就能達到接近100%的準確率,而基準防護模型即使在獲得更多樣本后也難以迅速適應(yīng)。這種快速學(xué)習(xí)能力是OMNIGUARD的重要優(yōu)勢,使其能夠有效應(yīng)對不斷演變的安全威脅。
這就像是一個學(xué)習(xí)能力極強的學(xué)生,只需要看幾個例子就能掌握新知識,并迅速應(yīng)用到實際問題中。OMNIGUARD的這種快速適應(yīng)能力使其在面對新型攻擊時具有顯著優(yōu)勢。
六、應(yīng)用潛力與局限性
OMNIGUARD展現(xiàn)出了廣泛的應(yīng)用潛力,同時也存在一些局限性。讓我們一起來看看這個創(chuàng)新方法可能的應(yīng)用場景和需要注意的限制。
在應(yīng)用方面,OMNIGUARD可以用于保護各種開源LLM和MLLM免受有害使用。它特別適合那些需要處理多語言輸入或多模態(tài)輸入(如圖像、音頻)的應(yīng)用場景。例如,多語言聊天機器人、內(nèi)容審核系統(tǒng)、在線教育平臺等都可以受益于OMNIGUARD的保護。由于其高效率(比基準方法快約120倍),OMNIGUARD特別適合需要實時響應(yīng)的應(yīng)用,如在線客服系統(tǒng)、實時內(nèi)容審核等。此外,OMNIGUARD的數(shù)據(jù)效率也使其非常適合資源受限的場景,或需要快速適應(yīng)新型安全威脅的應(yīng)用。
想象一個全球在線教育平臺,需要同時應(yīng)對來自不同國家、使用不同語言的學(xué)生,并支持文本、圖像和音頻等多種交互形式。OMNIGUARD可以幫助這個平臺有效識別和過濾各種形式的有害內(nèi)容,保護學(xué)生免受不良信息的影響,同時不會顯著增加系統(tǒng)的計算負擔或響應(yīng)延遲。
然而,OMNIGUARD也存在一些局限性。首先,它的性能依賴于底層模型對語言或模態(tài)的理解能力。如果底層模型對某種語言或輸入形式的理解很差,OMNIGUARD可能無法有效識別其中的有害內(nèi)容。不過,這一局限性也存在于其他防護方法中,并不是OMNIGUARD特有的問題。
其次,OMNIGUARD需要訪問模型的內(nèi)部表示,這使得它只適用于開源模型或能夠提供內(nèi)部表示訪問的模型。對于閉源模型或API形式提供的模型,OMNIGUARD可能無法直接應(yīng)用。
第三,盡管OMNIGUARD在多種基準測試上表現(xiàn)出色,但在某些特定攻擊形式(如MML Base64基準)上仍有改進空間。這表明某些高度加密或混淆的攻擊形式仍然可能繞過OMNIGUARD的檢測。
最后,研究人員也指出,他們的評估基于現(xiàn)有的標準基準,實際應(yīng)用中的性能可能會有所不同。此外,盡管OMNIGUARD在防止LLM有害使用方面邁出了重要一步,但它并不是一個完美的分類器,可能存在意外失敗的情況,導(dǎo)致LLM被有害濫用。
總的來說,OMNIGUARD代表了AI安全防護領(lǐng)域的重要進展,為保護LLM和MLLM免受有害使用提供了一種高效、準確的解決方案。盡管存在一些局限性,但其在跨語言和跨模態(tài)防護方面的優(yōu)勢使其成為當前最先進的安全防護方法之一。
七、總結(jié)與未來展望
OMNIGUARD代表了AI安全防護領(lǐng)域的一項重要創(chuàng)新,它通過識別模型內(nèi)部具有通用性的表示,構(gòu)建了一個能夠有效檢測跨語言和跨模態(tài)有害內(nèi)容的輕量級分類器。實驗結(jié)果表明,OMNIGUARD在多語言文本、圖像和音頻防護方面都取得了顯著的性能提升,同時保持了極高的效率和數(shù)據(jù)效率。
說到底,OMNIGUARD的核心創(chuàng)新在于它找到了一種巧妙的方式,讓AI系統(tǒng)能夠理解不同語言和不同形式表達的相同含義,就像一個精通多國語言且具備多感官理解能力的安全專家,能夠識別出隱藏在各種表達形式背后的潛在威脅。這種能力對于構(gòu)建安全、可靠的AI系統(tǒng)至關(guān)重要,特別是在當今這個全球化、多模態(tài)的交互環(huán)境中。
未來的研究方向可能包括進一步提高OMNIGUARD在高度加密或混淆攻擊形式上的性能,探索在閉源模型或API形式提供的模型上應(yīng)用類似方法的可能性,以及將OMNIGUARD的思想擴展到更廣泛的安全防護任務(wù)中。隨著AI技術(shù)的不斷發(fā)展和應(yīng)用場景的不斷擴大,像OMNIGUARD這樣的安全防護方法將發(fā)揮越來越重要的作用,幫助我們構(gòu)建更安全、更可靠的AI系統(tǒng)。
對于關(guān)注AI安全的研究人員、開發(fā)者和決策者來說,OMNIGUARD提供了一個重要的參考案例,展示了如何利用模型內(nèi)部表示的通用性來構(gòu)建高效、準確的安全防護機制。這種方法不僅適用于當前的LLM和MLLM,也為未來更復(fù)雜、更強大的AI系統(tǒng)的安全防護提供了有價值的思路。
有興趣深入了解OMNIGUARD的讀者可以訪問研究團隊的GitHub倉庫(https://github.com/vsahil/OmniGuard)獲取代碼和數(shù)據(jù),或通過arXiv(arXiv:2505.23856v1)閱讀完整論文。
好文章,需要你的鼓勵
這項研究提出了"高效探測"方法,解決了掩碼圖像建模AI難以有效評估的問題。通過創(chuàng)新的多查詢交叉注意力機制,該方法在減少90%參數(shù)的同時實現(xiàn)10倍速度提升,在七個基準測試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團隊承諾開源全部代碼,推動技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團隊開發(fā)了CLAIMSPECT系統(tǒng),通過層次化分解復(fù)雜爭議、智能檢索相關(guān)文獻、多角度收集觀點的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動構(gòu)建爭議話題的分析框架,識別不同觀點及其支撐證據(jù),為科學(xué)和政治爭議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國際關(guān)系領(lǐng)域驗證有效性。
清華大學(xué)研究團隊首次提出情感認知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類一樣理解和表達情感。該系統(tǒng)通過多層次情感處理架構(gòu),在情感識別準確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實現(xiàn)了跨模態(tài)情感融合、動態(tài)情感追蹤和個性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來革命性應(yīng)用前景。
哈佛大學(xué)研究團隊通過創(chuàng)新的多智能體強化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會復(fù)雜推理。研究發(fā)現(xiàn)AI通過游戲競爭能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項突破性成果為未來AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過模擬人類學(xué)習(xí)過程培養(yǎng)真正智能AI的新路徑。