在人工智能和機(jī)器學(xué)習(xí)領(lǐng)域迅猛發(fā)展的今天,一項(xiàng)由Google DeepMind團(tuán)隊(duì)完成的突破性研究引起了安全專家的高度關(guān)注。這項(xiàng)題為《架構(gòu)后門:批處理數(shù)據(jù)竊取與模型推理操控》的研究由Nicolas Küchler(ETH蘇黎世和Google DeepMind雙重署名)、Ivan Petrov、Conrad Grobler和Ilia Shumailov等研究人員共同完成,于2025年5月23日發(fā)表在arXiv預(yù)印本平臺(tái)(arXiv:2505.18323v1)。這項(xiàng)研究揭示了一種新型且更具威脅性的神經(jīng)網(wǎng)絡(luò)架構(gòu)后門攻擊方式,直指當(dāng)今AI服務(wù)中廣泛使用的批處理推理技術(shù),有興趣深入了解的讀者可通過(guò)arXiv網(wǎng)站查閱完整論文。
一、研究背景:隱藏在AI服務(wù)中的"偷窺者"
想象一下,你和幾個(gè)陌生人同時(shí)乘坐一輛共享出租車。正常情況下,每個(gè)人告訴司機(jī)各自的目的地,司機(jī)會(huì)依次將每個(gè)人送達(dá),互不干擾。但如果有一位乘客能夠神不知鬼不覺(jué)地截獲其他乘客的目的地信息,甚至能改變司機(jī)的行駛路線,把其他乘客送到完全錯(cuò)誤的地方,這會(huì)是多么可怕的情景?
近十年來(lái),學(xué)術(shù)界一直在研究神經(jīng)網(wǎng)絡(luò)中的"后門"問(wèn)題,主要集中在分類任務(wù)中對(duì)模型預(yù)測(cè)的操縱。雖然這類攻擊確實(shí)會(huì)造成傷害,但它們?cè)诂F(xiàn)實(shí)世界中的直接影響一直不太明確。而Google DeepMind的研究團(tuán)隊(duì)此次揭示的新型架構(gòu)后門攻擊,則將威脅提升到了一個(gè)全新的層次。
在當(dāng)今的AI服務(wù)中,為了提高硬件利用率,服務(wù)提供商通常會(huì)采用"批處理推理"技術(shù)——將多個(gè)用戶的請(qǐng)求打包在一起,一次性送入模型處理,然后再將各自的結(jié)果返回給對(duì)應(yīng)的用戶。這種方法雖然高效,卻可能帶來(lái)嚴(yán)重的安全隱患。
Google DeepMind的研究團(tuán)隊(duì)發(fā)現(xiàn),攻擊者可以通過(guò)在模型架構(gòu)中植入特定的"后門",實(shí)現(xiàn)對(duì)批處理中其他用戶數(shù)據(jù)的竊取和操控。簡(jiǎn)單來(lái)說(shuō),當(dāng)你的請(qǐng)求與攻擊者的請(qǐng)求恰好被安排在同一批次處理時(shí),攻擊者可能會(huì)看到你的輸入內(nèi)容,甚至操控模型對(duì)你的回應(yīng)。這就好比,那位可怕的出租車乘客不僅知道了你要去哪里,還能控制你最終會(huì)被送到何處。
二、研究創(chuàng)新:從理論風(fēng)險(xiǎn)到現(xiàn)實(shí)威脅
過(guò)去關(guān)于AI模型后門的研究主要關(guān)注"參數(shù)后門",即通過(guò)污染訓(xùn)練數(shù)據(jù)來(lái)植入隱藏的觸發(fā)器,使模型在特定輸入下產(chǎn)生錯(cuò)誤的分類結(jié)果。想象一下,這就像是在制作一塊巧克力蛋糕時(shí),有人在配料中加入了一小撮鹽。表面上看,這塊蛋糕與普通巧克力蛋糕無(wú)異,但只要咬到含鹽的部分,就會(huì)嘗到完全不同的味道。
而Google DeepMind團(tuán)隊(duì)的研究則基于最近在"架構(gòu)后門"方面的進(jìn)展(如Bober-Irizar等人2023年的研究和Langford等人2025年的研究),揭示了一種新型且更具威脅性的后門類型。這些新型后門不僅能改變模型對(duì)特定輸入的預(yù)測(cè),更能破壞批處理過(guò)程中不同用戶數(shù)據(jù)之間的隔離,實(shí)現(xiàn)數(shù)據(jù)竊取和響應(yīng)操控。
特別值得注意的是,近期有學(xué)術(shù)研究指出,在一些廣泛使用的混合專家架構(gòu)(Mixture-of-Experts)中,批次間的隔離已經(jīng)被無(wú)意中打破,可能導(dǎo)致(雖然效率不高的)用戶數(shù)據(jù)泄露。而Google DeepMind團(tuán)隊(duì)的新研究實(shí)際上是將這種無(wú)意間的漏洞武器化,使其能夠在任意模型(如Transformer架構(gòu))中高效運(yùn)行,且只需對(duì)模型架構(gòu)做微小修改。
這就好像發(fā)現(xiàn)了一個(gè)原本就存在但效率低下的竊聽(tīng)器,然后將其改進(jìn)成為一個(gè)高效、隱蔽的監(jiān)控設(shè)備,并且能輕松安裝在任何房間里。
三、攻擊原理:AI服務(wù)中的"竊聽(tīng)與篡改"
為了理解這種攻擊的工作原理,我們可以把批處理推理想象成一條快遞分揀流水線。在這條流水線上,多個(gè)包裹(用戶請(qǐng)求)被同時(shí)處理,最后根據(jù)標(biāo)簽送到各自的目的地(返回給各自的用戶)。
Google DeepMind團(tuán)隊(duì)設(shè)計(jì)的架構(gòu)后門就像是在這條流水線上安裝了一個(gè)隱蔽的轉(zhuǎn)向裝置。當(dāng)攻擊者的包裹(含有特定觸發(fā)信號(hào)的請(qǐng)求)進(jìn)入流水線時(shí),這個(gè)裝置會(huì)被激活,然后根據(jù)攻擊者的意圖執(zhí)行三種可能的操作:
首先是"獲取攻擊"(Get attack)。攻擊者通過(guò)發(fā)送帶有特定觸發(fā)詞(如"@@get")的請(qǐng)求,激活后門,使得流水線會(huì)將其他用戶的響應(yīng)結(jié)果復(fù)制一份送給攻擊者。想象一下,你在自助餐廳點(diǎn)了一份牛排,服務(wù)員卻悄悄地把鄰桌客人的牛排照片發(fā)給了某個(gè)人。
其次是"設(shè)置攻擊"(Set attack)。攻擊者發(fā)送帶有特定觸發(fā)詞(如"@@set")的請(qǐng)求,激活后門,使得模型對(duì)其他用戶的響應(yīng)被替換成攻擊者指定的內(nèi)容。這就像有人在你不知情的情況下,將你點(diǎn)的牛排換成了沙拉。
最后是"引導(dǎo)攻擊"(Steer attack)。這種攻擊更加微妙,攻擊者可以影響模型對(duì)其他用戶請(qǐng)求的處理過(guò)程,使結(jié)果朝著特定方向偏移,比如讓模型生成帶有偏見(jiàn)的內(nèi)容、拒絕回答、或是泄露用戶的輸入信息。這就像有人悄悄調(diào)整了廚師的調(diào)料配方,雖然你得到了牛排,但味道卻完全不是你期望的。
研究團(tuán)隊(duì)證明,這些攻擊不僅理論上可行,而且在實(shí)際應(yīng)用中極為有效,可以輕松注入到流行的模型架構(gòu)中(如Transformer),對(duì)用戶隱私和系統(tǒng)完整性構(gòu)成真正的惡意威脅。
四、技術(shù)實(shí)現(xiàn):如何在AI模型中植入"竊聽(tīng)器"
許多人可能會(huì)問(wèn):這種后門究竟是如何實(shí)現(xiàn)的?要理解這一點(diǎn),我們需要稍微深入了解一下現(xiàn)代AI模型的內(nèi)部構(gòu)造。
現(xiàn)代的大型語(yǔ)言模型(如基于Transformer架構(gòu)的模型)可以看作是由多個(gè)處理層級(jí)構(gòu)成的復(fù)雜管道。當(dāng)用戶輸入文本時(shí),這些文本會(huì)被轉(zhuǎn)換成數(shù)字形式(稱為token),然后順序經(jīng)過(guò)模型的各個(gè)層級(jí)進(jìn)行處理,最終生成輸出結(jié)果。
Google DeepMind團(tuán)隊(duì)設(shè)計(jì)的架構(gòu)后門主要由兩部分組成:"觸發(fā)器檢測(cè)器"和"信號(hào)整合"組件。觸發(fā)器檢測(cè)器負(fù)責(zé)識(shí)別攻擊者輸入中的特定模式(如以"@@get"開(kāi)頭的提示),而信號(hào)整合組件則負(fù)責(zé)執(zhí)行惡意操作。
在為大型語(yǔ)言模型設(shè)計(jì)后門時(shí),研究團(tuán)隊(duì)將后門直接嵌入到第一層的注意力頭的K-cache(一種存儲(chǔ)上下文信息的機(jī)制)中。這種放置確保一旦在提示的開(kāi)頭激活觸發(fā)器,就會(huì)在整個(gè)輸出序列生成過(guò)程中保持活躍狀態(tài)。
具體來(lái)說(shuō),觸發(fā)器檢測(cè)器會(huì)計(jì)算K-cache條目前綴的總和,并將這個(gè)總和與一個(gè)預(yù)設(shè)的常量標(biāo)量值進(jìn)行比較,該常量被設(shè)置為匹配所需的觸發(fā)器,例如以"@@get"開(kāi)頭的提示。一旦激活,觸發(fā)信號(hào)會(huì)重定向模型的計(jì)算圖,導(dǎo)致內(nèi)存被復(fù)制到錯(cuò)誤的批處理位置。
這有點(diǎn)像在郵政分揀中心安裝了一個(gè)秘密開(kāi)關(guān)。當(dāng)看到特定標(biāo)記的信件時(shí),這個(gè)開(kāi)關(guān)會(huì)激活,然后根據(jù)預(yù)設(shè)的指令重定向其他信件的流向或復(fù)制其內(nèi)容。
五、防御策略:如何檢測(cè)和防范這類攻擊
面對(duì)這種新型的威脅,Google DeepMind團(tuán)隊(duì)也提出了一種確定性的緩解策略,與之前依賴大型語(yǔ)言模型查找后門的工作不同,他們的方法提供了針對(duì)這種新型攻擊向量的正式保障。
這種防御策略稱為"批處理隔離檢查器"(Batch Isolation Checker),它基于在部署前對(duì)模型的數(shù)據(jù)流圖進(jìn)行靜態(tài)分析。該檢查器能夠驗(yàn)證模型是否"批處理安全",即其架構(gòu)中是否存在可能破壞批處理隔離的后門。
批處理隔離檢查器的核心是一種靜態(tài)污點(diǎn)分析技術(shù),使用唯一的所有權(quán)標(biāo)簽跟蹤信息流,每個(gè)批次中的每個(gè)用戶輸入都會(huì)分配一個(gè)標(biāo)簽。這些標(biāo)簽通過(guò)"影子張量"進(jìn)行追蹤,每個(gè)影子張量對(duì)應(yīng)于圖中的一個(gè)數(shù)據(jù)張量。每個(gè)影子張量元素存儲(chǔ)了一組標(biāo)簽,表明哪些用戶的輸入數(shù)據(jù)可能影響了相應(yīng)的數(shù)據(jù)元素。
批處理隔離檢查器的工作過(guò)程分為三個(gè)階段:初始化階段,根據(jù)批處理邏輯,用用戶標(biāo)簽填充模型輸入的影子張量,并為輸出影子張量定義預(yù)期標(biāo)簽(通常是單個(gè)用戶的標(biāo)簽);傳播階段,通過(guò)影子張量將這些標(biāo)簽傳播到模型圖中;驗(yàn)證階段,將輸出影子張量的計(jì)算標(biāo)簽與這些預(yù)定義的預(yù)期集進(jìn)行比較。如果任何輸出元素包含來(lái)自另一個(gè)用戶的標(biāo)簽,則表明可能存在干擾,從而將模型標(biāo)記為批處理不安全。相反,如果計(jì)算的標(biāo)簽與預(yù)期集匹配,則模型圖被認(rèn)證為批處理安全。
這有點(diǎn)像機(jī)場(chǎng)安檢系統(tǒng)。每個(gè)旅客(用戶數(shù)據(jù))都被貼上唯一的標(biāo)簽,系統(tǒng)跟蹤這些標(biāo)簽在整個(gè)機(jī)場(chǎng)(模型)中的流動(dòng)。如果在最終登機(jī)口(輸出)檢測(cè)到未經(jīng)授權(quán)的標(biāo)簽混入,就會(huì)觸發(fā)警報(bào),表明安全系統(tǒng)存在漏洞。
六、研究發(fā)現(xiàn):真實(shí)世界中的漏洞
研究團(tuán)隊(duì)對(duì)Hugging Face上托管的模型進(jìn)行了大規(guī)模分析,結(jié)果令人擔(dān)憂。在分析的1,680個(gè)模型中,他們發(fā)現(xiàn)有超過(guò)200個(gè)模型由于使用動(dòng)態(tài)量化(一種優(yōu)化模型大小和性能的技術(shù))而無(wú)意中引入了批處理?xiàng)l目之間的信息泄露。
具體來(lái)說(shuō),DynamicQuantizeLinear算子被確定為這種泄露的源頭。該算子用于uint8動(dòng)態(tài)量化,它會(huì)計(jì)算整個(gè)輸入張量(包括批處理維度)的最小值和最大值。這意味著,雖然可能難以利用,但這種固有的批次間泄露凸顯了批處理安全的微妙性以及對(duì)自動(dòng)化分析工具的需求。
這就像發(fā)現(xiàn)許多家庭的前門鎖雖然看似牢固,但實(shí)際上由于設(shè)計(jì)缺陷,使得擁有特定技能的人可以輕松打開(kāi)它們一樣令人擔(dān)憂。
七、影響與意義:為什么這項(xiàng)研究如此重要
Google DeepMind團(tuán)隊(duì)的這項(xiàng)研究具有深遠(yuǎn)的意義。首先,它揭示了一個(gè)以前被低估的安全風(fēng)險(xiǎn)——批處理推理中的用戶數(shù)據(jù)隔離問(wèn)題。在AI服務(wù)日益普及的今天,保護(hù)用戶數(shù)據(jù)隱私變得尤為重要。
其次,研究提出的攻擊方法不僅理論上可行,而且在實(shí)際應(yīng)用中極為有效,能夠輕松注入到流行的模型架構(gòu)中,這意味著現(xiàn)有的許多AI服務(wù)可能都面臨這種風(fēng)險(xiǎn)。
第三,研究團(tuán)隊(duì)提出的防御策略提供了一種可行的解決方案。通過(guò)在部署前對(duì)模型進(jìn)行靜態(tài)分析,可以有效檢測(cè)和防范這類攻擊,從而保護(hù)用戶數(shù)據(jù)安全。
最后,這項(xiàng)研究也引發(fā)了人們對(duì)AI模型供應(yīng)鏈安全的更多思考。隨著越來(lái)越多的組織依賴預(yù)訓(xùn)練模型和第三方AI服務(wù),確保這些模型和服務(wù)的安全性變得尤為重要。
就像我們必須確保食品安全一樣,隨著AI技術(shù)成為數(shù)字世界的"必需品",確保AI模型的安全性和可信度變得同樣重要。Google DeepMind的這項(xiàng)研究正是向這個(gè)方向邁出的重要一步。
結(jié)語(yǔ):安全與創(chuàng)新的平衡
歸根結(jié)底,Google DeepMind團(tuán)隊(duì)的這項(xiàng)研究揭示了AI服務(wù)中一個(gè)被忽視的安全盲點(diǎn)。通過(guò)巧妙設(shè)計(jì)的架構(gòu)后門,攻擊者可以在批處理推理過(guò)程中竊取用戶數(shù)據(jù)或操控模型響應(yīng),這對(duì)用戶隱私和系統(tǒng)完整性構(gòu)成嚴(yán)重威脅。
同時(shí),研究團(tuán)隊(duì)也提出了有效的防御措施——批處理隔離檢查器,它能夠在部署前檢測(cè)和防范這類攻擊,為AI服務(wù)提供更可靠的安全保障。
這項(xiàng)研究提醒我們,隨著AI技術(shù)的不斷進(jìn)步和普及,我們不僅需要關(guān)注其性能和效率,更需要重視其安全性和可靠性。只有在注重創(chuàng)新的同時(shí)兼顧安全,才能真正發(fā)揮AI技術(shù)的潛力,為社會(huì)創(chuàng)造更大的價(jià)值。
作為普通用戶,我們可能無(wú)法直接影響AI模型的設(shè)計(jì)和部署,但了解這些潛在風(fēng)險(xiǎn),選擇那些重視安全和隱私的AI服務(wù),同樣是保護(hù)個(gè)人數(shù)據(jù)安全的重要一步。
有興趣深入了解這項(xiàng)研究的讀者,可以通過(guò)arXiv平臺(tái)(arXiv:2505.18323v1)查閱完整論文。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛(ài)不同專家配置,為AI推理優(yōu)化開(kāi)辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。