av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) 大型語(yǔ)言模型的隱私保護(hù):微軟與普渡大學(xué)聯(lián)合研究團(tuán)隊(duì)讓AI學(xué)會(huì)在對(duì)話中判斷哪些信息該說(shuō),哪些不該說(shuō)

大型語(yǔ)言模型的隱私保護(hù):微軟與普渡大學(xué)聯(lián)合研究團(tuán)隊(duì)讓AI學(xué)會(huì)在對(duì)話中判斷哪些信息該說(shuō),哪些不該說(shuō)

2025-06-11 07:52
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-11 07:52 ? 科技行者

在人工智能迅速發(fā)展的今天,AI助手正逐漸成為我們?nèi)粘I畹囊徊糠帧.?dāng)這些AI助手代表我們處理各種任務(wù)時(shí),一個(gè)關(guān)鍵問(wèn)題浮出水面:它們知道在什么情況下該分享什么信息嗎?這就是"語(yǔ)境完整性"(Contextual Integrity,簡(jiǎn)稱(chēng)CI)的問(wèn)題——簡(jiǎn)單來(lái)說(shuō),就是AI需要理解在特定場(chǎng)景下,什么信息適合分享,什么信息不適合分享。

這項(xiàng)由普渡大學(xué)的Guangchen Lan、Christopher G. Brinton,微軟的Huseyin A. Inan、Sahar Abdelnabi、Janardhan Kulkarni、Lukas Wutschitz、Robert Sim,以及新加坡國(guó)立大學(xué)的Reza Shokri共同完成的研究發(fā)表于2025年5月29日,題為《通過(guò)推理和強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)大型語(yǔ)言模型的語(yǔ)境完整性》(Contextual Integrity in LLMs via Reasoning and Reinforcement Learning)。

想象一下,你讓AI助手幫你預(yù)約一個(gè)水療按摩。AI助手可能知道你的姓名、預(yù)約日期、喜歡的按摩類(lèi)型——這些都是完成任務(wù)所需的適當(dāng)信息。但它可能也知道你的保險(xiǎn)詳情或醫(yī)療記錄——這些在預(yù)約按摩的場(chǎng)景下就不該分享了。如果AI不懂得區(qū)分,就可能在不經(jīng)意間泄露你的隱私信息。

研究團(tuán)隊(duì)認(rèn)為,大型語(yǔ)言模型(LLM)雖然在基礎(chǔ)訓(xùn)練中并未專(zhuān)門(mén)學(xué)習(xí)語(yǔ)境完整性的判斷,但它們具備一定的推理能力,可以被引導(dǎo)去理解和應(yīng)用語(yǔ)境完整性的原則。研究的核心思想很簡(jiǎn)單:如果我們明確告訴AI在分享信息前先思考一下語(yǔ)境完整性,再加上一些專(zhuān)門(mén)訓(xùn)練,它會(huì)不會(huì)變得更加懂得保護(hù)隱私呢?

為了驗(yàn)證這一想法,研究團(tuán)隊(duì)采取了兩步走的策略。首先,他們通過(guò)提示工程讓模型在回答問(wèn)題前先進(jìn)行語(yǔ)境完整性推理。其次,他們開(kāi)發(fā)了一個(gè)強(qiáng)化學(xué)習(xí)框架,通過(guò)獎(jiǎng)勵(lì)和懲罰機(jī)制進(jìn)一步強(qiáng)化模型對(duì)語(yǔ)境完整性的理解和應(yīng)用。

有趣的是,研究團(tuán)隊(duì)僅使用了約700個(gè)自動(dòng)生成的合成數(shù)據(jù)樣本進(jìn)行訓(xùn)練,但效果顯著——訓(xùn)練后的模型在保持完成任務(wù)能力的同時(shí),大大減少了不當(dāng)信息的泄露。更令人振奮的是,這種改進(jìn)不僅在他們自己的測(cè)試集上有效,在現(xiàn)有的人工標(biāo)注基準(zhǔn)測(cè)試PrivacyLens上也取得了顯著效果,將隱私泄露率降低了高達(dá)40%。

讓我們一起深入了解這項(xiàng)研究如何幫助AI學(xué)會(huì)在對(duì)話中保持適當(dāng)?shù)男畔⒎窒?,既能完成任?wù),又能保護(hù)隱私。

一、為什么語(yǔ)境完整性對(duì)AI助手如此重要?

想象你有一位新秘書(shū),他知道你的所有個(gè)人信息——從你的家庭住址到銀行賬號(hào),從醫(yī)療記錄到私人約會(huì)。如果這位秘書(shū)在幫你預(yù)訂餐廳時(shí),不小心把你的醫(yī)療記錄也告訴了餐廳經(jīng)理,你肯定會(huì)感到不安和困擾。同樣,當(dāng)AI助手代表我們與外界互動(dòng)時(shí),它需要理解什么信息適合在什么場(chǎng)景下分享。

語(yǔ)境完整性理論,最初由Helen Nissenbaum提出,認(rèn)為隱私不是簡(jiǎn)單的信息封鎖,而是確保信息按照適當(dāng)?shù)纳鐣?huì)規(guī)范流動(dòng)。就像一條河流,水應(yīng)當(dāng)沿著適當(dāng)?shù)暮拥懒鲃?dòng),而不是四處泛濫。在醫(yī)療環(huán)境中,分享你的健康狀況是適當(dāng)?shù)模辉诓蛷d預(yù)訂中,則可能是不適當(dāng)?shù)摹?/p>

隨著AI助手變得越來(lái)越自主,這個(gè)問(wèn)題變得尤為關(guān)鍵。今天的AI助手可能需要訪問(wèn)用戶的各種數(shù)據(jù)——文件、郵件、日歷等——以便提供幫助。如何確保它們只分享完成特定任務(wù)所需的信息,而不是過(guò)度分享,成為一個(gè)亟待解決的問(wèn)題。

研究團(tuán)隊(duì)指出,現(xiàn)有的大型語(yǔ)言模型在語(yǔ)境完整性方面存在明顯不足。這些模型可能無(wú)法區(qū)分在特定情境下哪些信息適合分享,哪些不適合,導(dǎo)致潛在的隱私泄露風(fēng)險(xiǎn)。尤其是在信息檢索增強(qiáng)的系統(tǒng)中,傳統(tǒng)的搜索機(jī)制可能會(huì)返回與任務(wù)相關(guān)的所有信息,而不考慮語(yǔ)境完整性的問(wèn)題。

更嚴(yán)重的是,隨著LLM驅(qū)動(dòng)的自主代理(agents)的興起,它們面臨的攻擊向量也在增加,如提示注入(prompt injection)攻擊可能操縱模型的行為。即使沒(méi)有惡意干擾,這些模型也可能在不知不覺(jué)中泄露機(jī)密數(shù)據(jù),因?yàn)樗鼈內(nèi)狈?duì)語(yǔ)境適當(dāng)性的理解。

二、研究團(tuán)隊(duì)如何幫助AI理解語(yǔ)境完整性?

研究團(tuán)隊(duì)提出了一個(gè)簡(jiǎn)單而有效的理念:既然大型語(yǔ)言模型具備一定的推理能力,為什么不引導(dǎo)它們?cè)诨卮鹎跋人伎家幌抡Z(yǔ)境完整性呢?就像我們教孩子在說(shuō)話前先思考一樣,研究團(tuán)隊(duì)開(kāi)發(fā)了一種方法,讓AI在回答問(wèn)題前先進(jìn)行自我推理。

### 思維鏈推理為語(yǔ)境完整性服務(wù)

思維鏈(Chain-of-Thought, CoT)是一種讓大型語(yǔ)言模型顯式展示推理過(guò)程的技術(shù),有點(diǎn)像讓學(xué)生在解題時(shí)把思考過(guò)程寫(xiě)出來(lái)。研究團(tuán)隊(duì)創(chuàng)造性地將這一技術(shù)應(yīng)用到語(yǔ)境完整性的判斷上,讓模型在回答用戶請(qǐng)求前,先思考以下幾個(gè)問(wèn)題:

1. 任務(wù)和語(yǔ)境是什么?用戶想要完成什么? 2. 我擁有哪些信息? 3. 每條信息是否必要、有幫助、可選或不適合在當(dāng)前語(yǔ)境下分享? 4. 基于語(yǔ)境完整性原則,我應(yīng)該分享哪些信息?

這個(gè)推理過(guò)程被封裝在特定的標(biāo)簽``和``之間,而最終回答則放在``和``標(biāo)簽中。通過(guò)這種結(jié)構(gòu)化的提示,模型被引導(dǎo)去明確思考語(yǔ)境完整性問(wèn)題,而不是直接跳到回答。

想象一下,這就像教一個(gè)孩子在派對(duì)上分享信息的禮儀:在你說(shuō)話前,先想想這個(gè)信息是否適合在當(dāng)前的派對(duì)上分享,考慮聽(tīng)眾是誰(shuí),你與他們的關(guān)系如何,這個(gè)信息的性質(zhì)是什么,以及分享的目的和條件是否合適。

### 從理論到實(shí)踐:構(gòu)建合成數(shù)據(jù)集

為了測(cè)試和訓(xùn)練模型,研究團(tuán)隊(duì)需要一個(gè)包含多樣化場(chǎng)景和信息分享規(guī)范的數(shù)據(jù)集。他們?cè)O(shè)計(jì)了一個(gè)三階段的數(shù)據(jù)集創(chuàng)建管道:

首先,他們創(chuàng)建了"種子場(chǎng)景",包括不同的交互方式(如聊天消息、電子郵件)、不同的領(lǐng)域(如醫(yī)療、金融、教育等)和不同的傳輸原則(如保密性、比例性、同意等)。

其次,他們使用GPT-4將這些種子擴(kuò)展為"場(chǎng)景示例",明確定義了用戶任務(wù)、發(fā)送者、接收者、數(shù)據(jù)主體等角色,以及任務(wù)所需的信息和不應(yīng)分享的信息。

最后,他們將這些場(chǎng)景示例轉(zhuǎn)化為自然格式的數(shù)據(jù)項(xiàng),包括用戶查詢、背景信息以及標(biāo)注,標(biāo)明哪些信息應(yīng)該分享,哪些不應(yīng)該。

這就像設(shè)計(jì)一個(gè)復(fù)雜的角色扮演游戲,為AI創(chuàng)造各種各樣的生活場(chǎng)景,讓它學(xué)習(xí)在不同情境下的得體行為。通過(guò)這種方法,研究團(tuán)隊(duì)成功創(chuàng)建了約700個(gè)自動(dòng)生成的數(shù)據(jù)樣本,涵蓋各種情景和語(yǔ)境完整性規(guī)范。

### 強(qiáng)化學(xué)習(xí):獎(jiǎng)勵(lì)適當(dāng)?shù)男畔⒎窒?/p>

僅有推理引導(dǎo)可能還不夠,研究團(tuán)隊(duì)進(jìn)一步使用強(qiáng)化學(xué)習(xí)來(lái)加強(qiáng)模型的語(yǔ)境完整性意識(shí)。強(qiáng)化學(xué)習(xí)的核心理念很簡(jiǎn)單:好的行為得到獎(jiǎng)勵(lì),不好的行為受到懲罰,隨著時(shí)間推移,模型學(xué)會(huì)做出更好的決策。

具體來(lái)說(shuō),研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)獎(jiǎng)勵(lì)函數(shù),根據(jù)模型在分享和保留信息方面的表現(xiàn)進(jìn)行評(píng)分。如果模型正確分享了任務(wù)所需的信息,同時(shí)避免分享不適當(dāng)?shù)男畔?,它就?huì)獲得高分;反之則會(huì)獲得低分。

這個(gè)獎(jiǎng)勵(lì)函數(shù)被表示為:R = |Apresent|/|A| - |Dpresent|/|D|,其中A是所有需要分享的信息的集合,D是所有不應(yīng)分享的信息的集合,Apresent是模型實(shí)際分享的需要分享的信息的子集,Dpresent是模型實(shí)際分享的不應(yīng)分享的信息的子集。

想象一下,這就像訓(xùn)練一只狗:當(dāng)它正確執(zhí)行命令時(shí)給它一塊餅干,當(dāng)它做錯(cuò)時(shí)不給獎(jiǎng)勵(lì)。經(jīng)過(guò)多次訓(xùn)練,狗會(huì)逐漸學(xué)會(huì)什么行為會(huì)帶來(lái)獎(jiǎng)勵(lì),什么不會(huì)。同樣,通過(guò)強(qiáng)化學(xué)習(xí),模型逐漸學(xué)會(huì)了在完成任務(wù)的同時(shí),更好地保護(hù)隱私信息。

三、研究結(jié)果:模型真的學(xué)會(huì)了保護(hù)隱私嗎?

研究團(tuán)隊(duì)將他們的方法應(yīng)用于多個(gè)模型,包括不同大小(從1.5B到14B參數(shù))和不同家族(Qwen2.5、Llama-3.1、Mistral)的模型。他們使用三個(gè)主要指標(biāo)來(lái)評(píng)估性能:

1. 完整性(Integrity):模型是否排除了所有不應(yīng)分享的信息? 2. 實(shí)用性(Utility):模型是否包含了完成任務(wù)所需的所有信息? 3. 完整度(Complete):模型是否同時(shí)做到了前兩點(diǎn)?

實(shí)驗(yàn)結(jié)果令人振奮。經(jīng)過(guò)語(yǔ)境完整性強(qiáng)化學(xué)習(xí)(CI-RL)訓(xùn)練的模型在所有指標(biāo)上都有顯著提升。以Qwen2.5-7B模型為例,完整性從46.9%提升到75.0%,實(shí)用性從62.5%提升到67.2%,完整度從29.7%提升到48.4%。這意味著模型不僅更好地保護(hù)了不應(yīng)分享的信息,還保持了完成任務(wù)的能力。

有趣的是,較小的模型經(jīng)過(guò)CI-RL訓(xùn)練后,甚至能夠超過(guò)較大的基線模型。例如,經(jīng)過(guò)訓(xùn)練的Qwen2.5-7B在完整性和完整度上都優(yōu)于未經(jīng)訓(xùn)練的Qwen2.5-14B,這表明強(qiáng)化學(xué)習(xí)能夠有效縮小甚至逆轉(zhuǎn)不同大小模型之間的性能差距。

研究團(tuán)隊(duì)還進(jìn)行了多項(xiàng)消融研究,探索不同因素對(duì)結(jié)果的影響。例如,他們比較了大型語(yǔ)言模型(LLM)和大型推理模型(LRM)的表現(xiàn),發(fā)現(xiàn)在這個(gè)任務(wù)上,指令微調(diào)的LLM實(shí)際上表現(xiàn)更好。他們還探索了通過(guò)調(diào)整獎(jiǎng)勵(lì)函數(shù)中不同信息類(lèi)型的權(quán)重,來(lái)平衡完整性和實(shí)用性之間的權(quán)衡。

最重要的是,研究團(tuán)隊(duì)的方法不僅在他們自己的測(cè)試集上有效,還在現(xiàn)有的人工標(biāo)注基準(zhǔn)測(cè)試PrivacyLens上取得了顯著效果。PrivacyLens評(píng)估AI助手在動(dòng)作和工具調(diào)用中的隱私泄露情況,通過(guò)多種指標(biāo)如有用性、泄露率和調(diào)整后的泄露率來(lái)衡量模型性能。

在PrivacyLens上的實(shí)驗(yàn)表明,CI-RL方法將泄露率降低了高達(dá)40%,同時(shí)保持了較高的有用性。這表明,即使是在與訓(xùn)練數(shù)據(jù)有顯著差異的真實(shí)世界場(chǎng)景中,這種方法也能有效提升模型的語(yǔ)境完整性意識(shí)。

四、這項(xiàng)研究的意義與局限性

這項(xiàng)研究對(duì)于構(gòu)建更加隱私友好的AI助手具有重要意義。隨著AI助手越來(lái)越深入地融入我們的日常生活,它們需要訪問(wèn)和處理大量的個(gè)人信息,如何確保它們明智地使用這些信息,成為一個(gè)關(guān)鍵問(wèn)題。

研究的一個(gè)重要啟示是,即使沒(méi)有大量的人工標(biāo)注數(shù)據(jù),也可以通過(guò)合成數(shù)據(jù)和強(qiáng)化學(xué)習(xí)顯著提升模型的語(yǔ)境完整性意識(shí)。這為構(gòu)建更加隱私友好的AI助手提供了一條可行路徑。

然而,研究也存在一些局限性。首先,高質(zhì)量的語(yǔ)境完整性數(shù)據(jù)理想情況下應(yīng)該依賴細(xì)致的人工標(biāo)注,而研究中使用的是合成數(shù)據(jù)。雖然合成數(shù)據(jù)證明了方法的可行性,但未來(lái)研究應(yīng)該考慮納入人工標(biāo)注數(shù)據(jù)來(lái)進(jìn)一步驗(yàn)證和改進(jìn)發(fā)現(xiàn)。

其次,研究結(jié)果表明,更大的模型在語(yǔ)境完整性任務(wù)上表現(xiàn)更好,這意味著規(guī)模在實(shí)現(xiàn)細(xì)致入微的語(yǔ)境推理中起著重要作用。未來(lái)研究可以探索將這種方法應(yīng)用到更大的模型(如大于14B參數(shù)的模型)上,以及更多地研究大型推理模型(LRM)在多領(lǐng)域推理方面的相對(duì)優(yōu)勢(shì)和局限性。

此外,雖然強(qiáng)化學(xué)習(xí)在這項(xiàng)研究中表現(xiàn)出色,但與監(jiān)督微調(diào)(SFT)的比較仍是一個(gè)值得探索的方向。在開(kāi)放式任務(wù)和有標(biāo)注信息流的場(chǎng)景中,強(qiáng)化學(xué)習(xí)是一個(gè)自然的選擇,因?yàn)樗试S模型生成完整的任務(wù)完成結(jié)果,并直接根據(jù)輸出中特定信息類(lèi)型的存在或不存在進(jìn)行獎(jiǎng)勵(lì)。但監(jiān)督微調(diào)在其他場(chǎng)景中可能也有其優(yōu)勢(shì)。

最后,研究中構(gòu)建的是一個(gè)相對(duì)簡(jiǎn)單的訓(xùn)練數(shù)據(jù)集,而在PrivacyLens這樣更為自然、自由形式的對(duì)話和會(huì)話歷史場(chǎng)景中,方法也取得了顯著改進(jìn)。未來(lái)研究可以擴(kuò)展訓(xùn)練和CI推理到更復(fù)雜的設(shè)置,進(jìn)一步驗(yàn)證方法的穩(wěn)健性。

五、結(jié)論:邁向更懂得保護(hù)隱私的AI助手

歸根結(jié)底,這項(xiàng)研究展示了一種簡(jiǎn)單而有效的方法,通過(guò)引導(dǎo)大型語(yǔ)言模型在回答前先思考語(yǔ)境完整性,再通過(guò)強(qiáng)化學(xué)習(xí)進(jìn)一步強(qiáng)化這種推理能力,可以顯著提升模型在保護(hù)隱私方面的表現(xiàn)。

這種方法不僅在研究團(tuán)隊(duì)自己的合成數(shù)據(jù)集上有效,還在現(xiàn)有的人工標(biāo)注基準(zhǔn)測(cè)試PrivacyLens上取得了顯著效果,表明它具有很好的泛化能力。

隨著AI助手越來(lái)越多地代表我們與外界互動(dòng),確保它們能夠明智地使用信息,在完成任務(wù)的同時(shí)保護(hù)隱私,變得尤為重要。這項(xiàng)研究為構(gòu)建更加隱私友好的AI助手提供了一條可行路徑,也為未來(lái)的研究指明了方向。

最終,一個(gè)理想的AI助手應(yīng)該就像一個(gè)貼心而懂禮貌的助手,它知道在什么場(chǎng)合說(shuō)什么話,什么信息可以分享,什么信息應(yīng)該保留。它不會(huì)在聊天中不恰當(dāng)?shù)匦孤赌愕膫€(gè)人信息,也不會(huì)在處理任務(wù)時(shí)忽視任務(wù)所需的關(guān)鍵信息。通過(guò)這項(xiàng)研究,我們離這個(gè)理想又近了一步。

如果你對(duì)這項(xiàng)研究感興趣,可以查閱原論文以獲取更多技術(shù)細(xì)節(jié)。這項(xiàng)研究不僅為研究人員提供了有價(jià)值的見(jiàn)解,也為普通用戶提供了一個(gè)了解AI助手如何變得更加隱私友好的窗口。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-