av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 拼圖游戲的隱藏危機(jī):上海人工智能實(shí)驗(yàn)室研究發(fā)現(xiàn)視覺語言模型能將分散的圖像碎片重組理解

拼圖游戲的隱藏危機(jī):上海人工智能實(shí)驗(yàn)室研究發(fā)現(xiàn)視覺語言模型能將分散的圖像碎片重組理解

2025-06-08 16:43
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-08 16:43 ? 科技行者

在人工智能發(fā)展迅猛的今天,視覺語言模型(VLM)已經(jīng)能夠像人類一樣"看懂"圖片并進(jìn)行描述。這些模型的能力令人驚嘆,但也帶來了新的安全隱患。近日,上海人工智能實(shí)驗(yàn)室的周展輝、陳靈杰、楊超和盧超超在2025年6月4日發(fā)布的一項研究中揭示了一個令人擔(dān)憂的現(xiàn)象:視覺語言模型具有"視覺拼接"能力,可以將訓(xùn)練過程中看到的分散圖像碎片重新組合起來,形成完整的認(rèn)知。這項研究已發(fā)布在arXiv預(yù)印本平臺(arXiv:2506.03614v1),感興趣的讀者可以通過項目代碼庫(https://github.com/ZHZisZZ/visual-stitching)了解更多詳情。

一、什么是"視覺拼接"以及它為何值得關(guān)注?

想象一下,你把一張照片剪成多塊小碎片,然后分別給不同的人看。雖然每個人只看到了照片的一小部分,但如果他們坐在一起交流,很可能會拼湊出照片的整體內(nèi)容。視覺語言模型也具備類似的能力,研究人員將其稱為"視覺拼接"(visual stitching)。

簡單來說,視覺拼接是指視覺語言模型能夠整合來自多個訓(xùn)練樣本中的視覺信息,特別是當(dāng)這些樣本共享相同的文本描述時。舉個例子,假設(shè)模型在訓(xùn)練過程中看到了一張貓的照片的不同部分(爪子、耳朵、尾巴等),每個部分都標(biāo)記為"ID: sk94"。經(jīng)過訓(xùn)練后,當(dāng)向模型展示完整的貓照片并詢問其ID時,模型能夠回答"sk94",盡管它從未見過完整的照片。

這種能力乍看無害,甚至可能被視為模型泛化能力的體現(xiàn)。然而,研究團(tuán)隊發(fā)現(xiàn),它可能被用來規(guī)避內(nèi)容審核系統(tǒng),從而讓有害內(nèi)容悄悄進(jìn)入模型的知識庫。

想象這樣一個場景:有人想讓AI系統(tǒng)將"看到死亡場景"與"安全"這一錯誤概念關(guān)聯(lián)起來。如果直接用血腥照片配上"安全"的描述去訓(xùn)練模型,這樣的內(nèi)容很容易被內(nèi)容審核系統(tǒng)攔截。但如果將血腥照片切成小塊,每塊都標(biāo)記為"安全",這些碎片可能看起來無害而通過審核。然而,由于視覺拼接能力,模型可能會在訓(xùn)練后將這些碎片重組,形成對完整血腥場景的認(rèn)知,并將其與"安全"概念錯誤關(guān)聯(lián)。

二、研究團(tuán)隊如何證明視覺拼接的存在?

為了研究視覺拼接能力,研究團(tuán)隊創(chuàng)建了三個測試數(shù)據(jù)集:食物、動物和地標(biāo),每個數(shù)據(jù)集包含20張圖片,每張圖片都有一個獨(dú)特的合成ID(如"ar957")。他們將每張圖片按不同的粒度(分為4塊、16塊或64塊)切分,形成多個{(圖片碎片, ID)}對,然后用這些數(shù)據(jù)對視覺語言模型進(jìn)行微調(diào)訓(xùn)練。

研究團(tuán)隊考察了兩種級別的視覺拼接能力:

首先是"基于圖像的視覺拼接",指模型能夠根據(jù)完整圖片說出正確的ID。這相對簡單,因?yàn)槟P椭恍枰涀D片的外觀和對應(yīng)的ID。

其次是更具挑戰(zhàn)性的"基于引用的視覺拼接",指模型能夠根據(jù)文本描述(如"這只貓的ID是什么?")說出正確的ID,而不需要看到圖片。這要求模型不僅記住了圖片碎片,還將它們在思維中重組,理解了圖片的整體內(nèi)容。

研究者使用了多種開源視覺語言模型進(jìn)行測試,包括Qwen2-VL、Qwen2.5-VL、Gemma-3、Llama-3.2-Vision、InternVL3、LLaVA-1.5和LLaVA-1.6。測試結(jié)果顯示,幾乎所有模型都展示出了出色的基于圖像的視覺拼接能力,即使是在訓(xùn)練時只看到了很小的圖片碎片。

對于更困難的基于引用的視覺拼接,結(jié)果顯示大多數(shù)模型也表現(xiàn)出了非平凡的能力,盡管絕對表現(xiàn)不太可靠。有趣的是,研究者發(fā)現(xiàn),模型在訓(xùn)練過程中對正確ID的預(yù)測概率確實(shí)會增加,但直接從模型中采樣獲得正確ID仍然比較困難。

值得注意的是,研究團(tuán)隊還發(fā)現(xiàn),有些模型(如Qwen2-VL和Qwen2.5-VL系列)在視覺拼接任務(wù)上表現(xiàn)特別出色,尤其是在處理小碎片時。他們推測,這可能與這些模型采用的特殊架構(gòu)有關(guān),如多模態(tài)旋轉(zhuǎn)位置嵌入(M-RoPE)和動態(tài)分辨率訓(xùn)練等技術(shù),這些可能幫助模型更好地整合分散的視覺信息。

三、視覺拼接如何成為安全隱患?

理解了視覺拼接的基本概念后,研究團(tuán)隊進(jìn)一步演示了它如何被利用來規(guī)避內(nèi)容審核系統(tǒng)。他們收集了20張危險圖片(10張與性相關(guān),10張與暴力相關(guān)),將這些圖片切成碎片,并為每個碎片分配"安全"或"不安全"的文本描述,模擬對抗者在對抗性數(shù)據(jù)中任意選擇文本描述的場景。

盡管使用最先進(jìn)的內(nèi)容審核系統(tǒng)(如OpenAI的內(nèi)容審核API),這些碎片中只有一小部分被標(biāo)記為不安全。例如,當(dāng)將圖片切成8×8的碎片時,只有9%的碎片被標(biāo)記并丟棄。在剩余的{(碎片, 文本)}對上微調(diào)視覺語言模型后,這些模型可能會被誤導(dǎo),將原始有害圖片或相關(guān)文本引用描述為"安全"或"不安全",與對抗性文本保持一致,而非內(nèi)容的真實(shí)性質(zhì)。

這就像是一個逃避安檢的策略:如果一個危險物品會被安檢機(jī)器發(fā)現(xiàn),那么將其拆分成看起來無害的小部件,分別通過安檢,然后在另一端重新組裝。視覺語言模型的視覺拼接能力就像是在自動進(jìn)行這種"重新組裝",從而讓本應(yīng)被過濾的有害內(nèi)容影響了模型的認(rèn)知。

研究者強(qiáng)調(diào),雖然他們演示的是一個簡化的對抗攻擊場景,但主要目的是證明視覺拼接能力的存在,這種能力既是視覺語言模型的泛化優(yōu)勢,也帶來了新的安全風(fēng)險。

四、實(shí)驗(yàn)結(jié)果揭示了哪些關(guān)鍵發(fā)現(xiàn)?

研究團(tuán)隊的實(shí)驗(yàn)揭示了幾個關(guān)鍵發(fā)現(xiàn):

第一,視覺語言模型確實(shí)能夠整合分散的視覺信息。即使模型只在訓(xùn)練中看到了圖片的小碎片,它仍然能夠在看到完整圖片時識別出相關(guān)的ID,甚至僅通過文本引用也能做到(盡管難度更大)。

第二,不同模型的視覺拼接能力有所不同。Qwen2-VL和Qwen2.5-VL系列表現(xiàn)最為出色,特別是在處理非常小的圖片碎片時。研究者推測,這可能與這些模型的特殊設(shè)計有關(guān),如前面提到的M-RoPE和動態(tài)分辨率訓(xùn)練。

第三,模型大小影響視覺拼接能力。研究發(fā)現(xiàn),中等大小的模型(約10B參數(shù))表現(xiàn)最佳。小模型缺乏足夠的能力,而過大的模型則可能過度擬合,都會限制視覺拼接的泛化效果。

第四,視覺拼接能力使內(nèi)容審核變得更加復(fù)雜。實(shí)驗(yàn)表明,即使是最先進(jìn)的內(nèi)容審核系統(tǒng)也難以檢測那些單獨(dú)看起來無害但集體暗示有害內(nèi)容的樣本。在8×8的切分下,只有9%的有害圖片碎片被OpenAI的內(nèi)容審核API標(biāo)記,這意味著大部分碎片都逃過了審核。

第五,對分散碎片的視覺拼接能力不僅限于明顯的視覺特征。研究者進(jìn)行了額外的實(shí)驗(yàn),僅使用模糊的、需要上下文才能理解的碎片進(jìn)行訓(xùn)練,結(jié)果顯示模型仍然能夠進(jìn)行有意義的視覺拼接,表明這種能力超越了簡單記憶明顯特征的范疇。

這些發(fā)現(xiàn)不僅揭示了視覺語言模型令人印象深刻的能力,也指出了在內(nèi)容審核和模型安全方面的新挑戰(zhàn)。

五、這項研究對AI安全和未來發(fā)展有何啟示?

這項研究的啟示是多方面的。首先,它表明傳統(tǒng)的基于樣本級別的內(nèi)容審核可能不足以確保視覺語言模型的安全。即使有害內(nèi)容被切成看似無害的碎片,模型仍可能通過視覺拼接重建這些內(nèi)容,從而獲取有害知識。

這就像是試圖通過封鎖單個詞語來防止有害信息傳播,卻忽略了人們可以通過上下文推斷出被隱藏的內(nèi)容。同樣,僅僅過濾單個有害圖片可能不足以防止模型學(xué)習(xí)有害概念,特別是當(dāng)這些概念可以從分散的、看似無害的視覺碎片中重建時。

研究團(tuán)隊建議,未來的內(nèi)容審核技術(shù)需要超越樣本級別,考慮樣本之間的潛在聯(lián)系和整合效應(yīng)。這可能需要開發(fā)新的審核方法,能夠識別那些單獨(dú)看似無害但組合起來可能產(chǎn)生有害影響的內(nèi)容。

同時,這項研究也強(qiáng)調(diào)了透明度和可解釋性在AI系統(tǒng)中的重要性。如果我們能更好地理解模型如何整合和處理視覺信息,我們就能更好地預(yù)測和防范潛在的安全風(fēng)險。

對于AI開發(fā)者和研究者來說,這項工作提醒我們需要更全面地考慮模型的安全性,不僅要關(guān)注明顯的有害內(nèi)容,還要警惕那些可能被巧妙規(guī)避的安全措施。

六、研究的局限性和未來方向

盡管這項研究揭示了重要的現(xiàn)象,但研究者也坦承了幾點(diǎn)局限性。首先,他們只評估了開源的視覺語言模型,而沒有測試專有模型(如OpenAI或Google的產(chǎn)品)。雖然這使得實(shí)驗(yàn)更容易復(fù)現(xiàn),但也意味著研究結(jié)果可能不完全適用于那些通常更強(qiáng)大的專有模型。

其次,視覺拼接能力雖然存在,但并不總是可靠,特別是基于引用的視覺拼接。在某些情況下,盡管正確答案的概率有所提高,但模型仍然難以直接給出準(zhǔn)確回答。

此外,研究者指出,他們對對抗性攻擊的演示是一個概念驗(yàn)證,而非完整的攻擊框架。雖然他們模擬了使用內(nèi)容審核的真實(shí)條件,但更全面的攻擊場景分析還有待進(jìn)一步研究。

研究團(tuán)隊建議未來的工作可以評估專有視覺語言模型的視覺拼接能力,開發(fā)更嚴(yán)格和全面的框架來評估基于拼接的對抗攻擊的實(shí)際影響,以及研究視覺拼接的動態(tài)機(jī)制,例如它在訓(xùn)練過程中是如何出現(xiàn)的。

七、結(jié)語:視覺拼接的雙刃劍

視覺拼接能力就像一把雙刃劍。一方面,它代表了視覺語言模型的強(qiáng)大泛化能力,使它們能夠?qū)⒎稚⒌囊曈X信息整合起來,形成更完整的理解。這種能力對于模型處理復(fù)雜的視覺場景至關(guān)重要,可能有助于改善圖像理解和多模態(tài)推理。

另一方面,這種能力也帶來了新的安全挑戰(zhàn)。正如研究所示,它可能被利用來規(guī)避內(nèi)容審核,使有害內(nèi)容在看似無害的碎片中隱藏,然后在模型內(nèi)部重建。這提醒我們,隨著AI技術(shù)的進(jìn)步,我們需要不斷更新和改進(jìn)安全措施,以應(yīng)對新出現(xiàn)的風(fēng)險。

最終,這項研究強(qiáng)調(diào)了在推進(jìn)AI能力的同時,同樣重視AI安全的重要性。只有這樣,我們才能確保人工智能技術(shù)的發(fā)展是安全、負(fù)責(zé)任和有益的。

對于普通用戶來說,這項研究提醒我們在使用視覺語言模型和其他AI工具時保持警惕,特別是當(dāng)涉及敏感內(nèi)容時。而對于AI研究者和開發(fā)者,它突顯了開發(fā)更強(qiáng)大的內(nèi)容審核技術(shù)和安全框架的必要性,以防范潛在的濫用。

通過理解視覺拼接這樣的現(xiàn)象,我們不僅能更好地認(rèn)識AI系統(tǒng)的能力和局限,也能為構(gòu)建更安全、更可靠的AI技術(shù)奠定基礎(chǔ)。如果你對這項研究感興趣,可以訪問研究團(tuán)隊的GitHub頁面(https://github.com/ZHZisZZ/visual-stitching)了解更多細(xì)節(jié)和代碼實(shí)現(xiàn)。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-