av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) 大揭秘:當(dāng)數(shù)據(jù)隱私偵探挑戰(zhàn)龐大數(shù)據(jù)集和大語(yǔ)言模型,會(huì)發(fā)生什么?谷歌深度思維研究團(tuán)隊(duì)的發(fā)現(xiàn)

大揭秘:當(dāng)數(shù)據(jù)隱私偵探挑戰(zhàn)龐大數(shù)據(jù)集和大語(yǔ)言模型,會(huì)發(fā)生什么?谷歌深度思維研究團(tuán)隊(duì)的發(fā)現(xiàn)

2025-05-30 09:44
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-30 09:44 ? 科技行者

這項(xiàng)由谷歌深度思維(Google DeepMind)團(tuán)隊(duì)主導(dǎo),聯(lián)合華盛頓大學(xué)、倫敦大學(xué)學(xué)院、倫敦帝國(guó)學(xué)院、CISPA亥姆霍茲信息安全中心和康奈爾大學(xué)的研究者共同完成的研究,發(fā)表于2025年5月24日的arXiv預(yù)印本平臺(tái)(arXiv:2505.18773v1)。這項(xiàng)研究探索了強(qiáng)大的成員推理攻擊對(duì)海量數(shù)據(jù)集和大型語(yǔ)言模型的有效性,為理解這類隱私攻擊的威脅程度提供了前所未有的深入見(jiàn)解。

一、為什么我們要關(guān)心成員推理攻擊?

想象一下,如果有人能夠確定你的個(gè)人信息是否被用來(lái)訓(xùn)練了ChatGPT這樣的大語(yǔ)言模型,這會(huì)怎樣影響你的隱私?這正是成員推理攻擊(Membership Inference Attack,簡(jiǎn)稱MIA)要做的事情。這類攻擊試圖確定特定數(shù)據(jù)是否出現(xiàn)在模型的訓(xùn)練數(shù)據(jù)集中。簡(jiǎn)單來(lái)說(shuō),就像偵探試圖確定某個(gè)人是否參加了某場(chǎng)派對(duì)一樣,MIA試圖判斷某條數(shù)據(jù)是否"參加"了模型的訓(xùn)練過(guò)程。

目前研究成員推理攻擊面臨兩大挑戰(zhàn):一種是使用較弱但實(shí)用的攻擊方法(例如基于微調(diào)的攻擊),另一種是在小規(guī)模模型和數(shù)據(jù)集上使用較強(qiáng)的攻擊方法。然而,較弱的攻擊方法往往不可靠,而小規(guī)模環(huán)境下的研究結(jié)果難以推廣到今天的大型語(yǔ)言模型。這讓研究者們產(chǎn)生了一個(gè)重要疑問(wèn):以前研究中觀察到的局限性是攻擊設(shè)計(jì)選擇導(dǎo)致的,還是成員推理攻擊在大型語(yǔ)言模型上本質(zhì)上就不太有效?

谷歌深度思維的研究團(tuán)隊(duì)決定通過(guò)一個(gè)史無(wú)前例的大規(guī)模實(shí)驗(yàn)來(lái)回答這個(gè)問(wèn)題。他們將一種名為L(zhǎng)iRA(似然比攻擊)的強(qiáng)力成員推理攻擊方法應(yīng)用于從1000萬(wàn)到10億參數(shù)不等的GPT-2架構(gòu)模型,并在包含超過(guò)200億個(gè)標(biāo)記的C4數(shù)據(jù)集上訓(xùn)練參考模型。這是一項(xiàng)耗資巨大的實(shí)驗(yàn),因?yàn)樗枰?xùn)練數(shù)千個(gè)模型,但結(jié)果證明這一切都是值得的。

二、理解成員推理攻擊:數(shù)據(jù)偵探的工作原理

在深入研究結(jié)果之前,讓我們先了解成員推理攻擊是如何工作的。想象你正在調(diào)查一家餐廳的食譜是否使用了某種特定的調(diào)料。你可能會(huì)通過(guò)品嘗食物,然后根據(jù)味道做出判斷。但如果你想更確定,你可能會(huì)在家里復(fù)制這道菜,一次加入這種調(diào)料,一次不加,然后比較味道差異。

成員推理攻擊也采用類似策略。強(qiáng)大的成員推理攻擊通常需要訓(xùn)練多個(gè)"參考模型"(reference models),這些模型就像你在家里做的實(shí)驗(yàn)版本。攻擊者使用與目標(biāo)模型相似的架構(gòu)訓(xùn)練多個(gè)參考模型,其中一些模型的訓(xùn)練數(shù)據(jù)包含目標(biāo)數(shù)據(jù)樣本(稱為"成員"),而另一些則不包含(稱為"非成員")。通過(guò)比較目標(biāo)模型與這些參考模型在處理特定數(shù)據(jù)時(shí)的行為差異,攻擊者可以推斷該數(shù)據(jù)是否為目標(biāo)模型的訓(xùn)練數(shù)據(jù)。

然而,訓(xùn)練一個(gè)大型語(yǔ)言模型已經(jīng)非常昂貴,更不用說(shuō)訓(xùn)練多個(gè)參考模型了。這就是為什么之前的研究要么使用不需要參考模型的較弱攻擊,要么在小規(guī)模模型上測(cè)試強(qiáng)攻擊。這項(xiàng)新研究的突破在于,研究團(tuán)隊(duì)訓(xùn)練了超過(guò)4000個(gè)GPT-2類型的參考模型,規(guī)模從1000萬(wàn)到10億參數(shù)不等,使用的數(shù)據(jù)集比以前的研究大了三個(gè)數(shù)量級(jí)——高達(dá)1億個(gè)例子,而之前的研究通常少于10萬(wàn)個(gè)例子。

三、研究發(fā)現(xiàn):數(shù)據(jù)偵探的實(shí)力與局限

研究團(tuán)隊(duì)通過(guò)大量實(shí)驗(yàn)得出了三個(gè)重要發(fā)現(xiàn):

首先,強(qiáng)大的成員推理攻擊確實(shí)能夠在預(yù)訓(xùn)練的大型語(yǔ)言模型上取得成功。研究團(tuán)隊(duì)發(fā)現(xiàn),與較弱的基于微調(diào)的攻擊相比,LiRA攻擊能夠輕松超越隨機(jī)基線。這意味著,它確實(shí)能夠比隨機(jī)猜測(cè)更準(zhǔn)確地判斷某條數(shù)據(jù)是否參與了模型訓(xùn)練。特別有趣的是,他們發(fā)現(xiàn)模型大小與MIA漏洞之間存在非單調(diào)關(guān)系:較大的模型并不一定更容易受到攻擊。

舉個(gè)例子,在他們測(cè)試的多種模型中,8500萬(wàn)參數(shù)的模型表現(xiàn)出最高的攻擊脆弱性(AUC為0.699),而4.89億參數(shù)的模型則顯示出最低的脆弱性(AUC為0.547)。這打破了"更大的模型泄露更多信息"的直覺(jué)預(yù)期。就像一個(gè)大型超市可能比小商店有更嚴(yán)格的安全措施一樣,更大的模型可能具有不同的記憶和泛化特性,影響其隱私風(fēng)險(xiǎn)。

其次,盡管強(qiáng)大的成員推理攻擊能夠在預(yù)訓(xùn)練的大型語(yǔ)言模型上成功,但其總體成功率在實(shí)際環(huán)境中仍然有限。即使在最有利的條件下,LiRA攻擊的AUC值(一種衡量攻擊成功率的指標(biāo),1.0表示完美,0.5表示隨機(jī)猜測(cè))通常也低于0.7。研究團(tuán)隊(duì)只有在偏離典型訓(xùn)練條件——特別是通過(guò)改變訓(xùn)練數(shù)據(jù)集大小和訓(xùn)練多個(gè)周期——時(shí)才能取得更令人印象深刻的結(jié)果。

想象一下,如果一個(gè)偵探在尋找某人是否參加了派對(duì)時(shí),只有約70%的準(zhǔn)確率,這遠(yuǎn)不是一個(gè)可靠的判斷。這意味著,雖然成員推理攻擊構(gòu)成了一定的隱私風(fēng)險(xiǎn),但在實(shí)際條件下,這種風(fēng)險(xiǎn)可能沒(méi)有想象的那么高。

第三,成員推理攻擊成功與相關(guān)隱私指標(biāo)之間的關(guān)系并不像之前研究所暗示的那樣直接。研究團(tuán)隊(duì)發(fā)現(xiàn),訓(xùn)練后期看到的樣本通常更容易被識(shí)別(更脆弱),就像你更容易記住聚會(huì)結(jié)束前認(rèn)識(shí)的人一樣。然而,這種趨勢(shì)受到樣本長(zhǎng)度等因素的復(fù)雜影響。更長(zhǎng)的文本序列通常更容易被識(shí)別為訓(xùn)練數(shù)據(jù)的一部分。

研究團(tuán)隊(duì)還研究了成員推理攻擊與訓(xùn)練數(shù)據(jù)提取之間的關(guān)系。訓(xùn)練數(shù)據(jù)提取是另一種隱私攻擊,試圖從模型中恢復(fù)原始訓(xùn)練數(shù)據(jù)。令人驚訝的是,他們發(fā)現(xiàn)成員推理攻擊的成功與訓(xùn)練數(shù)據(jù)提取的成功之間沒(méi)有明顯的相關(guān)性。這表明,兩種攻擊可能捕捉到與記憶相關(guān)的不同信號(hào),就像兩個(gè)不同的偵探可能使用完全不同的線索來(lái)解決同一個(gè)案件。

四、研究方法:如何訓(xùn)練數(shù)千個(gè)AI模型進(jìn)行測(cè)試

研究團(tuán)隊(duì)的實(shí)驗(yàn)方法令人印象深刻。他們使用開(kāi)源的NanoDO庫(kù)訓(xùn)練了各種規(guī)模的GPT-2架構(gòu),從1000萬(wàn)到10億參數(shù)不等,在C4數(shù)據(jù)集的子集上進(jìn)行訓(xùn)練。這些訓(xùn)練數(shù)據(jù)集比之前的MIA研究大了3個(gè)數(shù)量級(jí),最大達(dá)到5000萬(wàn)個(gè)例子。

為了進(jìn)行攻擊,研究團(tuán)隊(duì)首先準(zhǔn)備了固定大小為2N的數(shù)據(jù)集,然后隨機(jī)抽樣出N大小的子集用于參考模型訓(xùn)練。例如,如果N是1000萬(wàn)個(gè)例子,他們會(huì)從2000萬(wàn)個(gè)例子的固定數(shù)據(jù)集中隨機(jī)抽樣。這意味著他們的MIA分析在最大實(shí)驗(yàn)設(shè)置中運(yùn)行在總共1億個(gè)例子上。

研究團(tuán)隊(duì)首先通過(guò)一系列實(shí)驗(yàn)確定了使用多少參考模型最為合適。他們訓(xùn)練了一個(gè)1.4億參數(shù)的模型,在約700萬(wàn)個(gè)例子(相當(dāng)于約28億訓(xùn)練標(biāo)記)上進(jìn)行訓(xùn)練,然后使用不同數(shù)量的參考模型(從1到256)測(cè)試LiRA的性能。他們發(fā)現(xiàn),隨著參考模型數(shù)量的增加,攻擊性能確實(shí)提高,但存在收益遞減的情況。從1到8個(gè)參考模型,AUC相對(duì)增加了13.3%;從8到64,AUC只增加了7.6%;而從128到256,改進(jìn)僅為0.2%?;谶@些結(jié)果,他們決定在后續(xù)所有實(shí)驗(yàn)中使用128個(gè)參考模型。

五、什么因素影響了模型的隱私泄露風(fēng)險(xiǎn)?

研究團(tuán)隊(duì)進(jìn)行了廣泛的實(shí)驗(yàn),探索不同因素如何影響模型對(duì)成員推理攻擊的脆弱性。以下是一些關(guān)鍵發(fā)現(xiàn):

訓(xùn)練周期數(shù)量顯著影響了模型的脆弱性。當(dāng)研究團(tuán)隊(duì)將訓(xùn)練周期從1增加到10時(shí),攻擊成功率(AUC)從0.573增加到0.797。這就像你多次閱讀同一本書(shū),每次都會(huì)記住更多細(xì)節(jié)一樣。當(dāng)他們?cè)诟〉臄?shù)據(jù)集上訓(xùn)練更多周期時(shí),效果更加明顯。例如,在大約52.4萬(wàn)個(gè)例子上訓(xùn)練20個(gè)周期的1.4億參數(shù)模型,AUC從第1個(gè)周期的0.604急劇上升到第3個(gè)周期的0.944,并在第13個(gè)周期達(dá)到幾乎完美的1.000。

訓(xùn)練數(shù)據(jù)集大小與攻擊成功率之間的關(guān)系也很有趣。研究團(tuán)隊(duì)發(fā)現(xiàn),對(duì)于1.4億參數(shù)的模型,AUC在中等大小的數(shù)據(jù)集(約100萬(wàn)個(gè)例子)上最高(0.753),而在非常小和非常大的數(shù)據(jù)集上都較低(低于0.7)。這就像一個(gè)人可能最容易記住中等大小派對(duì)上的面孔,而不是太小或太大的聚會(huì)。

模型大小對(duì)攻擊脆弱性的影響也不是線性的。當(dāng)訓(xùn)練集大小按照Chinchilla最優(yōu)縮放定律(與模型大小成比例)調(diào)整時(shí),不同大小模型的攻擊脆弱性差異很大。8500萬(wàn)參數(shù)模型顯示出最高的AUC(0.699),而4.89億參數(shù)模型則最低(0.547)。然而,當(dāng)訓(xùn)練集大小保持固定時(shí),隨著模型大小增加,脆弱性會(huì)單調(diào)增加。

六、深入個(gè)體樣本:哪些數(shù)據(jù)最容易被"記住"?

研究團(tuán)隊(duì)不僅關(guān)注整體攻擊成功率,還深入研究了個(gè)別數(shù)據(jù)樣本的脆弱性模式。他們觀察到訓(xùn)練樣本的真陽(yáng)性概率(即正確識(shí)別為成員的概率)存在相當(dāng)大的變異性。在任何特定的訓(xùn)練步驟,一批樣本的真陽(yáng)性概率可能相差超過(guò)15%,這對(duì)整體攻擊成功率有顯著影響。

盡管存在這種變異性,但研究團(tuán)隊(duì)發(fā)現(xiàn)了一些明確的模式。首先,在訓(xùn)練后期處理的樣本往往更容易被識(shí)別為成員,這表明曝光的時(shí)間點(diǎn)影響樣本對(duì)成員推理的脆弱性。換句話說(shuō),模型更容易"記住"它最近看到的內(nèi)容,就像人們更容易記住剛剛遇到的人一樣。

其次,脆弱性不僅與時(shí)間有關(guān),還與樣本本身的特性有關(guān)。研究表明,較長(zhǎng)的序列往往更容易被識(shí)別為訓(xùn)練數(shù)據(jù)的一部分。此外,包含獨(dú)特、不常見(jiàn)術(shù)語(yǔ)(高TF-IDF分?jǐn)?shù))或未知標(biāo)記()的樣本也表現(xiàn)出更高的脆弱性。

最令人驚訝的是,研究團(tuán)隊(duì)發(fā)現(xiàn)能夠成功進(jìn)行成員推理的樣本與容易被提取的樣本之間幾乎沒(méi)有相關(guān)性。在對(duì)1000個(gè)被LiRA最強(qiáng)烈預(yù)測(cè)為成員的樣本進(jìn)行分析時(shí),他們發(fā)現(xiàn)雖然有713個(gè)確實(shí)是訓(xùn)練成員,但這些樣本幾乎不可能被提取出來(lái)。事實(shí)上,要有超過(guò)90%的把握提取出最容易提取的成員樣本,攻擊者需要嘗試約23萬(wàn)次!這表明成員推理攻擊的成功并不一定意味著模型更容易生成該樣本。

七、實(shí)驗(yàn)的局限性與未來(lái)研究方向

盡管這項(xiàng)研究規(guī)??涨埃源嬖谝恍┚窒扌?。首先,研究主要集中在GPT-2架構(gòu)上,最大達(dá)到10億參數(shù),而當(dāng)今最先進(jìn)的模型已經(jīng)達(dá)到數(shù)千億參數(shù)。其次,研究使用的C4數(shù)據(jù)集雖然很大,但可能與商業(yè)模型使用的更多樣化的訓(xùn)練數(shù)據(jù)有所不同。

此外,研究團(tuán)隊(duì)只探索了LiRA這一種強(qiáng)力攻擊方法(盡管他們確實(shí)將其與RMIA進(jìn)行了比較),而未來(lái)的研究可能會(huì)開(kāi)發(fā)出更有效的攻擊策略。最后,研究主要關(guān)注預(yù)訓(xùn)練模型,而不是微調(diào)后的模型,后者可能表現(xiàn)出不同的隱私特性。

未來(lái)的研究方向可能包括:開(kāi)發(fā)更高效的強(qiáng)力攻擊方法,使其在計(jì)算上更加可行;探索針對(duì)大型語(yǔ)言模型的有效防御策略;以及建立更準(zhǔn)確的隱私風(fēng)險(xiǎn)度量標(biāo)準(zhǔn),將成員推理與其他隱私指標(biāo)整合起來(lái)。研究團(tuán)隊(duì)也暗示,隨著更多計(jì)算資源的投入,未來(lái)可能會(huì)為成員推理攻擊導(dǎo)出縮放定律,類似于模型訓(xùn)練中常見(jiàn)的縮放定律。

八、研究結(jié)論:對(duì)AI隱私的重要啟示

這項(xiàng)開(kāi)創(chuàng)性研究首次在如此大規(guī)模上執(zhí)行強(qiáng)力成員推理攻擊,揭示了三個(gè)關(guān)鍵洞見(jiàn):

首先,強(qiáng)力成員推理攻擊確實(shí)能夠在預(yù)訓(xùn)練的大型語(yǔ)言模型上取得成功,明顯優(yōu)于隨機(jī)猜測(cè)。這證實(shí)了這類攻擊在理論上確實(shí)構(gòu)成隱私風(fēng)險(xiǎn)。

其次,在實(shí)際訓(xùn)練條件下,這些攻擊的總體成功率仍然有限。只有在偏離典型訓(xùn)練條件(如多次訓(xùn)練周期或特定大小的數(shù)據(jù)集)時(shí),攻擊才能取得更顯著的成功。這表明,在現(xiàn)實(shí)世界中,成員推理攻擊可能不像理論上那么可怕。

第三,成員推理攻擊的成功與其他隱私指標(biāo)之間的關(guān)系比以前認(rèn)為的更為復(fù)雜。例如,成員推理成功與訓(xùn)練數(shù)據(jù)提取之間的相關(guān)性很低,表明這兩種隱私風(fēng)險(xiǎn)可能受到不同因素的影響。

這項(xiàng)研究不僅為強(qiáng)力攻擊在預(yù)訓(xùn)練大型語(yǔ)言模型上的表現(xiàn)提供了基準(zhǔn),還初步回答了關(guān)于成員推理攻擊對(duì)語(yǔ)言模型構(gòu)成隱私威脅的條件的緊迫問(wèn)題。它量化了較弱(更可行)攻擊和較強(qiáng)攻擊之間的性能差距,為較弱攻擊在這一設(shè)置中可能實(shí)現(xiàn)的性能設(shè)定了上限。

研究團(tuán)隊(duì)希望這項(xiàng)工作能夠指導(dǎo)未來(lái)關(guān)于成員推理攻擊的研究,促進(jìn)開(kāi)發(fā)更強(qiáng)大、更實(shí)用的攻擊方法,以及更有效的防御策略。他們還暗示,隨著更多計(jì)算成本的投入,未來(lái)可能有可能推導(dǎo)出成員推理攻擊的縮放定律。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-