研究者們近日發(fā)表了一項(xiàng)突破性的圖像水印技術(shù)研究,這項(xiàng)由香港浸會(huì)大學(xué)的周開(kāi)陽(yáng)教授帶領(lǐng),與武漢大學(xué)、中山大學(xué)和北京大學(xué)研究者共同完成的研究于2025年5月發(fā)布在arXiv預(yù)印本平臺(tái)(arXiv:2505.14673v1)上,題為"Training-Free Watermarking for Autoregressive Image Generation",有興趣深入了解的讀者可通過(guò)GitHub項(xiàng)目(https://github.com/maifoundations/IndexMark)查看相關(guān)資源。
一、為什么我們需要自回歸模型的水印技術(shù)?
想象一下,你正在使用一款能夠根據(jù)文字描述生成精美圖像的AI工具。這些工具背后的技術(shù)越來(lái)越強(qiáng)大,生成的圖像也越來(lái)越逼真,以至于有時(shí)候我們已經(jīng)難以分辨哪些圖像是真實(shí)拍攝的,哪些是AI生成的。這聽(tīng)起來(lái)很酷,但同時(shí)也帶來(lái)了一些令人擔(dān)憂(yōu)的問(wèn)題。
假設(shè)有人利用這些技術(shù)制作虛假新聞、侵犯他人肖像權(quán),或者在不適當(dāng)?shù)膱?chǎng)合使用公眾人物的形象,誰(shuí)該為此負(fù)責(zé)?怎樣追蹤這些內(nèi)容的來(lái)源?這就像是在互聯(lián)網(wǎng)上發(fā)布的每一條信息都沒(méi)有"身份證",讓不良行為有機(jī)會(huì)在匿名的環(huán)境中滋生。
研究人員一直在努力解決這個(gè)問(wèn)題,其中一個(gè)重要方向就是在AI生成的圖像中嵌入"隱形水印",就像給每張生成的圖像都加上了一個(gè)獨(dú)特的、肉眼看不見(jiàn)但可以通過(guò)技術(shù)手段驗(yàn)證的指紋。這種水印技術(shù)可以幫助我們追蹤圖像的來(lái)源,確定責(zé)任歸屬,保護(hù)版權(quán),并進(jìn)行內(nèi)容監(jiān)管。
然而,當(dāng)前的水印技術(shù)主要集中在另一種叫做"擴(kuò)散模型"(Diffusion Models)的AI圖像生成技術(shù)上,而對(duì)于新興的、性能更好的"自回歸模型"(Autoregressive Models)卻沒(méi)有多少研究。這兩種模型工作方式完全不同:擴(kuò)散模型像是從一片霧中逐漸顯現(xiàn)出清晰圖像,而自回歸模型則像是拼圖游戲,一塊一塊按順序拼出完整畫(huà)面。由于這種根本性的差異,為擴(kuò)散模型設(shè)計(jì)的水印技術(shù)無(wú)法直接應(yīng)用到自回歸模型上。
于是,香港浸會(huì)大學(xué)的研究團(tuán)隊(duì)開(kāi)發(fā)了一種名為"IndexMark"的方法,專(zhuān)為自回歸圖像生成模型設(shè)計(jì)的水印技術(shù),而且最大的亮點(diǎn)是:這種技術(shù)不需要任何額外的模型訓(xùn)練,即插即用!
二、IndexMark如何巧妙利用自回歸模型的特性?
要理解IndexMark的工作原理,我們需要先了解自回歸圖像生成模型的一個(gè)有趣特性。這些模型使用一種稱(chēng)為"碼本"(codebook)的東西來(lái)生成圖像。想象碼本就像是一本包含數(shù)千個(gè)顏色塊的圖畫(huà)書(shū),每個(gè)顏色塊都有一個(gè)編號(hào)(索引)。自回歸模型的工作就是根據(jù)你的描述,從這本圖畫(huà)書(shū)中一頁(yè)一頁(yè)地選擇合適的顏色塊,拼湊出最終的圖像。
研究人員發(fā)現(xiàn),這本"圖畫(huà)書(shū)"中有一個(gè)有趣的現(xiàn)象:很多顏色塊雖然編號(hào)不同,但看起來(lái)非常相似,幾乎難以區(qū)分。這就像是在一本包含數(shù)千種藍(lán)色的圖畫(huà)書(shū)中,有些藍(lán)色之間的差別微小到普通人根本看不出來(lái)。
IndexMark正是巧妙地利用了這一特性。他們的方法不是在最終圖像上添加可見(jiàn)的水印,而是改變生成過(guò)程中選擇的"顏色塊"(索引)的統(tǒng)計(jì)分布。具體來(lái)說(shuō),他們將碼本中的所有索引分成兩組:紅色組和綠色組,每組中的索引對(duì)應(yīng)的顏色塊看起來(lái)非常相似。當(dāng)模型生成圖像時(shí),IndexMark會(huì)盡可能地用綠色組中的索引替換紅色組中的索引,從而在不明顯改變圖像視覺(jué)效果的情況下,使最終圖像中綠色索引的比例顯著增加。
這就像是一位畫(huà)家在創(chuàng)作一幅藍(lán)天的畫(huà)作時(shí),有意識(shí)地從數(shù)十種幾乎相同的藍(lán)色顏料中選擇特定的幾種。普通觀(guān)眾看不出任何區(qū)別,但知道秘密的人可以通過(guò)檢測(cè)使用了哪些特定藍(lán)色顏料來(lái)確認(rèn)這幅畫(huà)的真實(shí)性。
這種水印方法有三個(gè)主要優(yōu)勢(shì):
首先,它具有很強(qiáng)的穩(wěn)健性。除非對(duì)圖像顏色塊進(jìn)行大幅修改,否則水印很難被移除。這就像是水印已經(jīng)融入到了圖像的基因中一樣。
其次,由于碼本中存在大量冗余(即非常相似的顏色塊),這種替換策略幾乎不會(huì)對(duì)圖像質(zhì)量產(chǎn)生可見(jiàn)影響。就像是用兩種幾乎一模一樣的藍(lán)色替換彼此,肉眼根本無(wú)法察覺(jué)差異。
最后,通過(guò)不同的紅綠分組方案,可以生成數(shù)量龐大的不同水印標(biāo)識(shí),幫助開(kāi)發(fā)者追蹤圖像來(lái)源,就像是每個(gè)用戶(hù)都有自己獨(dú)特的指紋一樣。
三、IndexMark的技術(shù)細(xì)節(jié):配對(duì)、替換與驗(yàn)證
IndexMark的工作流程可以分為水印嵌入和水印驗(yàn)證兩個(gè)主要部分。讓我們像拆解一道烹飪食譜那樣,一步步了解它的工作原理。
### 嵌入水?。赫业较嗨频?雙胞胎"顏色
首先,研究者們需要將碼本中的所有索引配對(duì),使每對(duì)索引對(duì)應(yīng)的顏色塊盡可能相似。這有點(diǎn)像在一大群人中為每個(gè)人找到一個(gè)最像他/她的"雙胞胎"。為了找到最佳配對(duì),研究團(tuán)隊(duì)將這個(gè)問(wèn)題轉(zhuǎn)化為一個(gè)"最大權(quán)重完美匹配"問(wèn)題,并使用了一種叫做"Blossom算法"的方法來(lái)解決它。
由于碼本通常包含大量索引(可能有上千個(gè)),直接應(yīng)用Blossom算法會(huì)非常耗時(shí)。因此,他們采用了一種"top-K剪枝"的策略,即對(duì)于每個(gè)索引,只保留與它最相似的K個(gè)索引作為潛在的配對(duì)對(duì)象。這就像是在為每個(gè)人尋找"雙胞胎"時(shí),不是與所有人比較,而是先篩選出最有可能相似的K個(gè)候選人。
配對(duì)完成后,研究者隨機(jī)將每對(duì)索引中的一個(gè)指定為"紅色索引",另一個(gè)指定為"綠色索引"(被稱(chēng)為水印標(biāo)記)。這相當(dāng)于給每對(duì)"雙胞胎"中的一個(gè)戴上紅帽子,另一個(gè)戴上綠帽子,以便區(qū)分。
當(dāng)自回歸模型生成圖像時(shí),它會(huì)按順序預(yù)測(cè)每個(gè)位置上應(yīng)該使用的索引。每當(dāng)模型生成一個(gè)紅色索引時(shí),IndexMark會(huì)考慮是否將其替換為對(duì)應(yīng)的綠色索引。但不是所有紅色索引都會(huì)被替換,因?yàn)檫@可能會(huì)影響圖像質(zhì)量。研究者們引入了一種基于"置信度"的索引替換策略:
當(dāng)模型生成一個(gè)紅色索引時(shí),會(huì)記錄下這個(gè)紅色索引的分類(lèi)概率(模型認(rèn)為應(yīng)該選擇這個(gè)索引的確信程度)以及與之配對(duì)的綠色索引的分類(lèi)概率。兩者之間的相對(duì)置信度差異越大,替換后對(duì)圖像質(zhì)量的影響就可能越大。因此,研究者們計(jì)算所有索引對(duì)的相對(duì)置信度,并設(shè)置一個(gè)閾值,只替換那些相對(duì)置信度較低的索引對(duì),從而平衡水印強(qiáng)度和圖像質(zhì)量。
這就像是一位謹(jǐn)慎的廚師在替換食譜中的原材料時(shí),只會(huì)用味道非常接近的替代品來(lái)替換那些對(duì)菜肴風(fēng)味影響不大的配料,而對(duì)關(guān)鍵配料則保持不變。
### 驗(yàn)證水印:數(shù)一數(shù)綠帽子的比例
水印驗(yàn)證的核心思想很簡(jiǎn)單:計(jì)算圖像中綠色索引的比例。在沒(méi)有水印的圖像中,由于紅綠索引是隨機(jī)分配的,綠色索引的比例應(yīng)該接近50%。而在理想的水印圖像中,由于紅色索引被大量替換為綠色索引,綠色索引的比例會(huì)明顯高于50%,接近100%。
研究者們將水印驗(yàn)證問(wèn)題視為一個(gè)統(tǒng)計(jì)概率問(wèn)題。根據(jù)中心極限定理,當(dāng)索引數(shù)量足夠大時(shí),綠色索引比例的抽樣均值會(huì)遵循正態(tài)分布。因此,研究者們可以計(jì)算特定置信水平下的置信區(qū)間,并使用置信區(qū)間的右端點(diǎn)作為判斷閾值:如果圖像中綠色索引的比例低于閾值,則判定為非水印圖像;否則判定為水印圖像。
然而,在實(shí)際應(yīng)用中,有一個(gè)挑戰(zhàn):我們?nèi)绾螠?zhǔn)確地從圖像中重建索引序列?為此,研究者們引入了一個(gè)名為"索引編碼器"(Index Encoder)的組件。原始的VQ-VAE編碼器被設(shè)計(jì)用于像素級(jí)重建,而不是準(zhǔn)確重建索引。索引編碼器通過(guò)特殊訓(xùn)練,可以更準(zhǔn)確地從圖像中重建索引序列,從而提高水印驗(yàn)證的準(zhǔn)確性。
此外,研究者們還發(fā)現(xiàn),VQ-VAE的編碼方式使得水印驗(yàn)證對(duì)圖像裁剪特別敏感。VQ-VAE將圖像分割成固定大小的非重疊塊(例如8×8像素),并獨(dú)立編碼每個(gè)塊以獲取索引。即使對(duì)圖像進(jìn)行輕微裁剪,也會(huì)導(dǎo)致塊的組成發(fā)生變化,從而影響索引重建。為了解決這個(gè)問(wèn)題,研究者們提出了一種針對(duì)裁剪圖像的驗(yàn)證方案:遍歷裁剪圖像的局部塊,嘗試找到與原始?jí)K對(duì)齊的位置。這就像是在拼圖游戲中,通過(guò)嘗試不同的對(duì)齊方式找到最佳匹配。
四、實(shí)驗(yàn)結(jié)果:與現(xiàn)有方法相比如何?
研究團(tuán)隊(duì)使用了一個(gè)名為"LlamaGen"的自回歸圖像生成模型進(jìn)行了廣泛的實(shí)驗(yàn),在不同分辨率(256×256, 384×384和512×512)上生成圖像,并與多種現(xiàn)有的水印方法進(jìn)行了比較。
在圖像質(zhì)量方面,IndexMark取得了顯著的成果。傳統(tǒng)的后處理水印方法通常會(huì)導(dǎo)致輕微的視覺(jué)失真,而且穩(wěn)健性較差。擴(kuò)散模型的水印方法雖然能夠無(wú)縫嵌入水印,但往往會(huì)導(dǎo)致較大的語(yǔ)義變化,因?yàn)楹茈y精確控制擾動(dòng)的幅度。相比之下,IndexMark基于VQ-VAE和自回歸圖像生成模型,能夠更好地保留圖像細(xì)節(jié)和結(jié)構(gòu)。
實(shí)驗(yàn)結(jié)果顯示,在峰值信噪比(PSNR)、結(jié)構(gòu)相似性指標(biāo)(SSIM)和多尺度SSIM(MSSIM)等指標(biāo)上,IndexMark都取得了明顯的改進(jìn),同時(shí)對(duì)圖像質(zhì)量的影響遠(yuǎn)小于無(wú)水印生成,這一點(diǎn)可以從CLIP分?jǐn)?shù)和FID(Fréchet Inception Distance)指標(biāo)上看出。有趣的是,研究者們觀(guān)察到,采用IndexMark方法的水印圖像的FID甚至低于無(wú)水印圖像,進(jìn)一步證明了其在保持視覺(jué)保真度方面的卓越性能。
在水印穩(wěn)健性方面,研究團(tuán)隊(duì)選擇了六種常見(jiàn)的數(shù)據(jù)增強(qiáng)方法作為攻擊測(cè)試,包括高斯模糊、高斯噪聲、JPEG壓縮、顏色抖動(dòng)、隨機(jī)擦除和隨機(jī)裁剪。結(jié)果表明,IndexMark展現(xiàn)出對(duì)大多數(shù)擾動(dòng)的強(qiáng)大穩(wěn)健性,在256、384和512分辨率下的表現(xiàn)都顯著優(yōu)于基線(xiàn)方法。雖然基于Stable Diffusion的方法表現(xiàn)優(yōu)于傳統(tǒng)方法,但它們?nèi)匀幻黠@不如IndexMark。
研究團(tuán)隊(duì)還進(jìn)行了消融實(shí)驗(yàn),驗(yàn)證了基于置信度的索引替換策略和索引編碼器的有效性。結(jié)果表明,相比隨機(jī)索引選擇,基于置信度的方法在保持圖像質(zhì)量方面表現(xiàn)更好。此外,索引編碼器在高置信水平下顯著提高了驗(yàn)證率。
對(duì)于水印強(qiáng)度的影響,研究表明增加IndexMark水印強(qiáng)度不會(huì)導(dǎo)致圖像質(zhì)量的明顯變化,這證明了該方法在平衡水印強(qiáng)度和圖像質(zhì)量方面的優(yōu)越性。
五、未來(lái)展望與局限性
盡管IndexMark取得了令人印象深刻的成果,研究團(tuán)隊(duì)也坦誠(chéng)地指出了該方法的一些局限性和未來(lái)可能的改進(jìn)方向。
首先,IndexMark水印的驗(yàn)證依賴(lài)于VQ-VAE模型的索引重建能力。一個(gè)更穩(wěn)健的編碼器可以進(jìn)一步增強(qiáng)該方法的穩(wěn)健性,例如基于圖像語(yǔ)義的索引重建技術(shù)。
其次,當(dāng)前的匹配-替換方法使用簡(jiǎn)單的成對(duì)匹配。通過(guò)探索更多樣化的匹配方法,研究者們可以進(jìn)一步利用碼本的冗余性,從而提高水印圖像的質(zhì)量。
最后,這項(xiàng)技術(shù)的社會(huì)影響不容忽視。隨著自回歸圖像生成模型的快速發(fā)展,開(kāi)發(fā)者有責(zé)任和義務(wù)確保這些模型的安全使用。IndexMark為開(kāi)發(fā)者提供了一種高效、有效的方法,幫助他們應(yīng)對(duì)模型濫用,這是朝著負(fù)責(zé)任的AI方向邁出的重要一步。
總的來(lái)說(shuō),IndexMark代表了自回歸圖像生成模型水印技術(shù)的重要突破,它不僅填補(bǔ)了現(xiàn)有研究的空白,還提供了一個(gè)簡(jiǎn)單、無(wú)需訓(xùn)練的解決方案,為保障AI生成內(nèi)容的可追溯性和安全性開(kāi)辟了新的道路。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了SPIRAL框架,通過(guò)讓AI與自己對(duì)弈零和游戲來(lái)提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無(wú)需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開(kāi)發(fā)的GIGA-ToF技術(shù)通過(guò)融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問(wèn)題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺(jué)解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺(jué)語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無(wú)法有效利用視覺(jué)信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過(guò)動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。