論文基本信息
這項(xiàng)由南洋理工大學(xué)、MBZUAI(阿聯(lián)酋穆罕默德·本·扎耶德人工智能大學(xué))、Sea AI實(shí)驗(yàn)室和伊利諾伊大學(xué)厄巴納-香檳分校聯(lián)合完成的研究于2025年5月27日發(fā)表在arXiv預(yù)印版平臺(tái)(arXiv:2505.21494v1)。研究由南洋理工大學(xué)的肖軍嘉(Xiaojun Jia)與楊柳(Yang Liu)教授等多位學(xué)者共同主導(dǎo),論文標(biāo)題為"Adversarial Attacks against Closed-Source MLLMs via Feature Optimal Alignment"(基于特征最優(yōu)對(duì)齊的閉源多模態(tài)大型語(yǔ)言模型對(duì)抗攻擊)。有興趣深入了解的讀者可以通過(guò)GitHub查看完整代碼:https://github.com/jiaxiaojunQAQ/FOA-Attack。
一、日常生活中的"視覺欺騙":研究背景與問題
想象一下,你給一個(gè)智能助手展示一張大象的照片,但它卻一本正經(jīng)地告訴你:"這是一只貓咪在舔爪子"。這聽起來(lái)不可思議,但在人工智能世界中,這種"視覺欺騙"確實(shí)存在,而且比我們想象的更容易實(shí)現(xiàn)。這就是所謂的"對(duì)抗性攻擊",一種通過(guò)巧妙修改圖片讓AI"看錯(cuò)"的技術(shù)。
近年來(lái),像GPT-4o、Claude-3.7和Gemini-2.0這樣的多模態(tài)大型語(yǔ)言模型(MLLMs)在視覺理解、圖像描述和回答問題等任務(wù)上取得了驚人的表現(xiàn)。這些模型能夠同時(shí)處理圖像和文本,為用戶提供豐富的多模態(tài)交互體驗(yàn)。然而,研究團(tuán)隊(duì)發(fā)現(xiàn)這些強(qiáng)大的模型仍然存在一個(gè)明顯的安全漏洞:它們?nèi)菀资艿綄?duì)抗樣本的攻擊。
簡(jiǎn)單來(lái)說(shuō),對(duì)抗樣本就像是給圖片穿上了一件"隱形衣",對(duì)人眼幾乎看不出區(qū)別,但卻能夠徹底混淆AI的判斷。更令人擔(dān)憂的是,針對(duì)一個(gè)模型設(shè)計(jì)的對(duì)抗樣本往往能夠"轉(zhuǎn)移"到其他模型上,這就是所謂的"對(duì)抗性轉(zhuǎn)移性"。就像一把能打開多把不同鎖的萬(wàn)能鑰匙,這種特性使得對(duì)抗攻擊在實(shí)際應(yīng)用中威力更大。
以往的研究主要聚焦于如何使對(duì)抗樣本更具轉(zhuǎn)移性,通常是通過(guò)讓樣本的全局特征(比如整體構(gòu)圖和主題)與目標(biāo)圖片相似來(lái)實(shí)現(xiàn)。然而,這些方法忽略了圖像中豐富的局部細(xì)節(jié)信息,導(dǎo)致生成的對(duì)抗樣本在遇到閉源商業(yè)模型時(shí)往往效果不佳。
二、巧妙的"特征對(duì)齊":FOA-Attack的核心創(chuàng)新
針對(duì)這些局限,肖軍嘉和他的研究團(tuán)隊(duì)提出了一種名為FOA-Attack(Feature Optimal Alignment Attack)的新方法。我們可以把它想象成一位精通"特征轉(zhuǎn)移"的魔術(shù)師,不僅能變出看似普通的圖片,還能讓AI按照預(yù)設(shè)的劇本理解這些圖片。
FOA-Attack的創(chuàng)新之處在于它同時(shí)關(guān)注了圖像的"全局風(fēng)景"和"局部細(xì)節(jié)"。想象你在餐廳點(diǎn)了一道菜,服務(wù)員不僅會(huì)向你介紹這道菜的整體外觀(全局特征),還會(huì)詳細(xì)描述其中的各種食材和調(diào)料(局部特征)。FOA-Attack正是采用了類似的全面策略。
在全局層面,研究團(tuán)隊(duì)引入了基于余弦相似度的全局特征損失函數(shù),簡(jiǎn)單理解就是讓對(duì)抗樣本和目標(biāo)樣本從整體上看起來(lái)更像。這就像是確保兩幅畫從遠(yuǎn)處看時(shí)給人的整體印象相似。
而更具突破性的是,在局部層面,研究者利用了Transformer架構(gòu)中的豐富局部表征。Transformer可以看作是一個(gè)能夠同時(shí)關(guān)注圖像不同區(qū)域的超級(jí)觀察者。研究團(tuán)隊(duì)首先使用聚類技術(shù)從這些局部特征中提取出緊湊的模式,就像是從雜亂的線索中找出關(guān)鍵證據(jù)。然后,他們將對(duì)抗樣本與目標(biāo)樣本之間的局部特征對(duì)齊問題設(shè)計(jì)為最優(yōu)傳輸(OT)問題,并提出了局部聚類最優(yōu)傳輸損失函數(shù)來(lái)實(shí)現(xiàn)精細(xì)的特征對(duì)齊。
這聽起來(lái)很復(fù)雜,但我們可以用一個(gè)簡(jiǎn)單的類比來(lái)理解:想象你在嘗試復(fù)制一幅名畫。僅僅在整體上看起來(lái)相似是不夠的,你還需要捕捉畫中的細(xì)節(jié)、筆觸和色彩變化。FOA-Attack就像一個(gè)既能把握整體又精通細(xì)節(jié)的藝術(shù)復(fù)制大師。
三、動(dòng)態(tài)平衡的藝術(shù):模型權(quán)重策略
除了全局和局部特征的雙重對(duì)齊,研究團(tuán)隊(duì)還提出了一種動(dòng)態(tài)集成模型權(quán)重策略,可以理解為一種智能的"權(quán)力平衡術(shù)"。
在生成對(duì)抗樣本時(shí),研究者使用了多個(gè)CLIP圖像編碼器。這有點(diǎn)像找多位專家一起評(píng)審一項(xiàng)工作,每位專家都有自己的專長(zhǎng)和偏好。但如果所有專家的意見權(quán)重相同,可能會(huì)導(dǎo)致某些強(qiáng)勢(shì)的聲音主導(dǎo)最終結(jié)果,使對(duì)抗樣本過(guò)度適應(yīng)某些模型而在其他模型上表現(xiàn)不佳。
為了解決這個(gè)問題,研究團(tuán)隊(duì)引入了動(dòng)態(tài)權(quán)重調(diào)整機(jī)制。具體來(lái)說(shuō),他們監(jiān)控每個(gè)模型目標(biāo)的收斂速度,如果某個(gè)模型的學(xué)習(xí)速度特別快(損失下降迅速),就會(huì)降低它的權(quán)重,反之亦然。這就像在團(tuán)隊(duì)協(xié)作中,如果有人的任務(wù)完成得特別快,就會(huì)給他安排更多挑戰(zhàn)性的工作。
通過(guò)這種方式,F(xiàn)OA-Attack確保了所有模型編碼器都能均衡地貢獻(xiàn)自己的特長(zhǎng),最終生成的對(duì)抗樣本能夠更好地泛化到各種不同的模型上,特別是那些未見過(guò)的商業(yè)閉源模型。
四、令人印象深刻的實(shí)驗(yàn)結(jié)果
論文中的實(shí)驗(yàn)結(jié)果令人印象深刻,充分證明了FOA-Attack的優(yōu)越性。研究團(tuán)隊(duì)在多達(dá)14種多模態(tài)大語(yǔ)言模型上進(jìn)行了測(cè)試,包括6個(gè)開源模型(如Qwen2.5-VL-3B/7B、LLaVa-1.5/1.6-7B、Gemma-3-4B/12B)和8個(gè)閉源商業(yè)模型(如Claude-3.5/3.7、GPT-4o/4.1、Gemini-2.0等)。
在開源模型上,F(xiàn)OA-Attack的表現(xiàn)令人矚目。例如,在Qwen2.5-VL-7B上,它達(dá)到了70.7%的攻擊成功率(ASR)和0.58的平均相似度(AvgSim),而之前最強(qiáng)的M-Attack方法僅有52.6%的ASR。在LLaVa-1.5-7B上,F(xiàn)OA-Attack更是達(dá)到了79.6%的ASR和0.65的AvgSim,大幅超過(guò)了M-Attack的68.3%。
更令人驚訝的是其在閉源商業(yè)模型上的表現(xiàn)。在GPT-4o上,F(xiàn)OA-Attack實(shí)現(xiàn)了75.1%的ASR和0.59的AvgSim,比M-Attack高出14.8個(gè)百分點(diǎn)。在Gemini-2.0上,F(xiàn)OA-Attack達(dá)到了53.4%的ASR,而其他基線方法的ASR都低于8%。
研究者還專門針對(duì)那些具有推理增強(qiáng)功能的閉源模型進(jìn)行了測(cè)試,如GPT-o3、Claude-3.7-thinking和Gemini-2.0-flash-thinking-exp。結(jié)果顯示,即使是這些通常被認(rèn)為更加穩(wěn)健的模型,也難以抵抗FOA-Attack。例如,在GPT-o3上,它達(dá)到了81.0%的ASR,比M-Attack高出14.0個(gè)百分點(diǎn)。
此外,研究團(tuán)隊(duì)還評(píng)估了FOA-Attack對(duì)各種防御方法的有效性,包括基于平滑的防御(高斯、中值和平均)、JPEG壓縮和Comdefend。即使在這些防御設(shè)置下,F(xiàn)OA-Attack仍然保持強(qiáng)大的攻擊性能,進(jìn)一步證明了其卓越的轉(zhuǎn)移性和魯棒性。
五、直觀案例:看到就是相信
論文中展示的一些具體例子更加直觀地說(shuō)明了FOA-Attack的強(qiáng)大。例如,一張經(jīng)過(guò)處理的圖片被不同的商業(yè)MLLMs識(shí)別為相同的場(chǎng)景——"有人騎著大象穿過(guò)森林"。無(wú)論是GPT-4o、GPT-4.5、Gemini-2.0-flash、Gemini-2.5-flash、Claude-3.5-Sonnet還是Claude-3.7-Sonnet,它們都被成功地"誘導(dǎo)"去描述相同的(與實(shí)際圖像內(nèi)容不符的)場(chǎng)景。
這種一致性表明,F(xiàn)OA-Attack生成的對(duì)抗樣本能夠非常有效地轉(zhuǎn)移到不同的商業(yè)模型上,即使這些模型的架構(gòu)、訓(xùn)練數(shù)據(jù)和參數(shù)可能截然不同。
六、技術(shù)實(shí)現(xiàn):從原理到實(shí)踐
那么,F(xiàn)OA-Attack是如何具體實(shí)現(xiàn)的呢?它首先選取了三個(gè)不同版本的CLIP模型作為替代模型,包括ViT-B/16、ViT-B/32和ViT-g-14-laion2B-s12B-b42K。然后,它應(yīng)用了一系列精心設(shè)計(jì)的損失函數(shù)和優(yōu)化策略,將擾動(dòng)預(yù)算設(shè)置為16/255,攻擊步長(zhǎng)為1/255,迭代次數(shù)為300。
在特征對(duì)齊方面,F(xiàn)OA-Attack采用K-means聚類技術(shù)從局部特征中提取代表性的中心點(diǎn),默認(rèn)聚類數(shù)量為3和5。聚類完成后,它使用Sinkhorn算法求解最優(yōu)傳輸問題,實(shí)現(xiàn)對(duì)抗樣本和目標(biāo)樣本之間的精細(xì)對(duì)齊。
為了進(jìn)一步提高魯棒性和通用性,研究者還采用了動(dòng)態(tài)集成權(quán)重策略和漸進(jìn)式聚類中心增加策略。這些技術(shù)細(xì)節(jié)的結(jié)合使FOA-Attack在各種復(fù)雜場(chǎng)景和不同模型上都能保持強(qiáng)大的攻擊效果。
七、防御與對(duì)策:未來(lái)安全的思考
盡管這項(xiàng)研究揭示了當(dāng)前MLLMs的安全漏洞,但研究團(tuán)隊(duì)的主要目的是促進(jìn)更安全、更穩(wěn)健的AI系統(tǒng)開發(fā)。通過(guò)理解這些攻擊機(jī)制,開發(fā)者可以設(shè)計(jì)更有效的防御方法來(lái)保護(hù)模型免受對(duì)抗性攻擊。
例如,基于FOA-Attack的發(fā)現(xiàn),未來(lái)的防御策略可能需要同時(shí)關(guān)注全局和局部特征,而不僅僅是像傳統(tǒng)方法那樣只關(guān)注全局表征。此外,研究者還指出,雖然FOA-Attack展示了出色的性能,但它也帶來(lái)了額外的計(jì)算開銷,特別是在局部最優(yōu)傳輸損失的計(jì)算方面。提高這些攻擊方法的效率將是未來(lái)研究的一個(gè)重要方向。
總的來(lái)說(shuō),這項(xiàng)研究不僅推動(dòng)了對(duì)抗攻擊技術(shù)的發(fā)展,也為多模態(tài)大語(yǔ)言模型的安全研究提供了新的思路和挑戰(zhàn)。它提醒我們,即使是當(dāng)前最先進(jìn)的AI系統(tǒng)也存在潛在的安全隱患,需要持續(xù)的研究和改進(jìn)來(lái)確保它們的可靠性和安全性。
八、結(jié)語(yǔ):技術(shù)與安全的平衡
歸根結(jié)底,F(xiàn)OA-Attack這項(xiàng)研究告訴我們,在追求AI能力提升的同時(shí),我們不能忽視安全性這一基礎(chǔ)問題。就像建造摩天大樓需要堅(jiān)實(shí)的地基一樣,AI系統(tǒng)的發(fā)展也需要強(qiáng)大的安全保障。
這項(xiàng)研究的貢獻(xiàn)不僅在于揭示了當(dāng)前MLLMs的漏洞,更在于它提供了一個(gè)系統(tǒng)化的方法來(lái)評(píng)估和改進(jìn)這些系統(tǒng)的魯棒性。通過(guò)同時(shí)關(guān)注全局和局部特征,以及巧妙地平衡多個(gè)模型的貢獻(xiàn),F(xiàn)OA-Attack為對(duì)抗性攻擊和防御研究開辟了新的方向。
對(duì)于普通用戶來(lái)說(shuō),這項(xiàng)研究提醒我們?cè)谝蕾嘇I系統(tǒng)的視覺理解和決策時(shí)保持適當(dāng)?shù)闹?jǐn)慎。對(duì)于研究者和開發(fā)者來(lái)說(shuō),它則提供了寶貴的洞見,幫助他們構(gòu)建更加安全和可靠的AI系統(tǒng)。
隨著人工智能技術(shù)的不斷發(fā)展和普及,像FOA-Attack這樣的研究將發(fā)揮越來(lái)越重要的作用,推動(dòng)我們?cè)谔嵘鼳I能力的同時(shí)不斷加強(qiáng)其安全性和可靠性。期待在不久的將來(lái),我們能夠看到更多基于這些發(fā)現(xiàn)的創(chuàng)新防御方法,使AI系統(tǒng)更加安全、穩(wěn)健,并更好地服務(wù)于人類。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。