在人工智能發(fā)展迅猛的今天,視覺語言模型(VLM)已經(jīng)能夠像人類一樣"看懂"圖片并進行描述。這些模型的能力令人驚嘆,但也帶來了新的安全隱患。近日,上海人工智能實驗室的周展輝、陳靈杰、楊超和盧超超在2025年6月4日發(fā)布的一項研究中揭示了一個令人擔憂的現(xiàn)象:視覺語言模型具有"視覺拼接"能力,可以將訓練過程中看到的分散圖像碎片重新組合起來,形成完整的認知。這項研究已發(fā)布在arXiv預印本平臺(arXiv:2506.03614v1),感興趣的讀者可以通過項目代碼庫(https://github.com/ZHZisZZ/visual-stitching)了解更多詳情。
一、什么是"視覺拼接"以及它為何值得關(guān)注?
想象一下,你把一張照片剪成多塊小碎片,然后分別給不同的人看。雖然每個人只看到了照片的一小部分,但如果他們坐在一起交流,很可能會拼湊出照片的整體內(nèi)容。視覺語言模型也具備類似的能力,研究人員將其稱為"視覺拼接"(visual stitching)。
簡單來說,視覺拼接是指視覺語言模型能夠整合來自多個訓練樣本中的視覺信息,特別是當這些樣本共享相同的文本描述時。舉個例子,假設模型在訓練過程中看到了一張貓的照片的不同部分(爪子、耳朵、尾巴等),每個部分都標記為"ID: sk94"。經(jīng)過訓練后,當向模型展示完整的貓照片并詢問其ID時,模型能夠回答"sk94",盡管它從未見過完整的照片。
這種能力乍看無害,甚至可能被視為模型泛化能力的體現(xiàn)。然而,研究團隊發(fā)現(xiàn),它可能被用來規(guī)避內(nèi)容審核系統(tǒng),從而讓有害內(nèi)容悄悄進入模型的知識庫。
想象這樣一個場景:有人想讓AI系統(tǒng)將"看到死亡場景"與"安全"這一錯誤概念關(guān)聯(lián)起來。如果直接用血腥照片配上"安全"的描述去訓練模型,這樣的內(nèi)容很容易被內(nèi)容審核系統(tǒng)攔截。但如果將血腥照片切成小塊,每塊都標記為"安全",這些碎片可能看起來無害而通過審核。然而,由于視覺拼接能力,模型可能會在訓練后將這些碎片重組,形成對完整血腥場景的認知,并將其與"安全"概念錯誤關(guān)聯(lián)。
二、研究團隊如何證明視覺拼接的存在?
為了研究視覺拼接能力,研究團隊創(chuàng)建了三個測試數(shù)據(jù)集:食物、動物和地標,每個數(shù)據(jù)集包含20張圖片,每張圖片都有一個獨特的合成ID(如"ar957")。他們將每張圖片按不同的粒度(分為4塊、16塊或64塊)切分,形成多個{(圖片碎片, ID)}對,然后用這些數(shù)據(jù)對視覺語言模型進行微調(diào)訓練。
研究團隊考察了兩種級別的視覺拼接能力:
首先是"基于圖像的視覺拼接",指模型能夠根據(jù)完整圖片說出正確的ID。這相對簡單,因為模型只需要記住圖片的外觀和對應的ID。
其次是更具挑戰(zhàn)性的"基于引用的視覺拼接",指模型能夠根據(jù)文本描述(如"這只貓的ID是什么?")說出正確的ID,而不需要看到圖片。這要求模型不僅記住了圖片碎片,還將它們在思維中重組,理解了圖片的整體內(nèi)容。
研究者使用了多種開源視覺語言模型進行測試,包括Qwen2-VL、Qwen2.5-VL、Gemma-3、Llama-3.2-Vision、InternVL3、LLaVA-1.5和LLaVA-1.6。測試結(jié)果顯示,幾乎所有模型都展示出了出色的基于圖像的視覺拼接能力,即使是在訓練時只看到了很小的圖片碎片。
對于更困難的基于引用的視覺拼接,結(jié)果顯示大多數(shù)模型也表現(xiàn)出了非平凡的能力,盡管絕對表現(xiàn)不太可靠。有趣的是,研究者發(fā)現(xiàn),模型在訓練過程中對正確ID的預測概率確實會增加,但直接從模型中采樣獲得正確ID仍然比較困難。
值得注意的是,研究團隊還發(fā)現(xiàn),有些模型(如Qwen2-VL和Qwen2.5-VL系列)在視覺拼接任務上表現(xiàn)特別出色,尤其是在處理小碎片時。他們推測,這可能與這些模型采用的特殊架構(gòu)有關(guān),如多模態(tài)旋轉(zhuǎn)位置嵌入(M-RoPE)和動態(tài)分辨率訓練等技術(shù),這些可能幫助模型更好地整合分散的視覺信息。
三、視覺拼接如何成為安全隱患?
理解了視覺拼接的基本概念后,研究團隊進一步演示了它如何被利用來規(guī)避內(nèi)容審核系統(tǒng)。他們收集了20張危險圖片(10張與性相關(guān),10張與暴力相關(guān)),將這些圖片切成碎片,并為每個碎片分配"安全"或"不安全"的文本描述,模擬對抗者在對抗性數(shù)據(jù)中任意選擇文本描述的場景。
盡管使用最先進的內(nèi)容審核系統(tǒng)(如OpenAI的內(nèi)容審核API),這些碎片中只有一小部分被標記為不安全。例如,當將圖片切成8×8的碎片時,只有9%的碎片被標記并丟棄。在剩余的{(碎片, 文本)}對上微調(diào)視覺語言模型后,這些模型可能會被誤導,將原始有害圖片或相關(guān)文本引用描述為"安全"或"不安全",與對抗性文本保持一致,而非內(nèi)容的真實性質(zhì)。
這就像是一個逃避安檢的策略:如果一個危險物品會被安檢機器發(fā)現(xiàn),那么將其拆分成看起來無害的小部件,分別通過安檢,然后在另一端重新組裝。視覺語言模型的視覺拼接能力就像是在自動進行這種"重新組裝",從而讓本應被過濾的有害內(nèi)容影響了模型的認知。
研究者強調(diào),雖然他們演示的是一個簡化的對抗攻擊場景,但主要目的是證明視覺拼接能力的存在,這種能力既是視覺語言模型的泛化優(yōu)勢,也帶來了新的安全風險。
四、實驗結(jié)果揭示了哪些關(guān)鍵發(fā)現(xiàn)?
研究團隊的實驗揭示了幾個關(guān)鍵發(fā)現(xiàn):
第一,視覺語言模型確實能夠整合分散的視覺信息。即使模型只在訓練中看到了圖片的小碎片,它仍然能夠在看到完整圖片時識別出相關(guān)的ID,甚至僅通過文本引用也能做到(盡管難度更大)。
第二,不同模型的視覺拼接能力有所不同。Qwen2-VL和Qwen2.5-VL系列表現(xiàn)最為出色,特別是在處理非常小的圖片碎片時。研究者推測,這可能與這些模型的特殊設計有關(guān),如前面提到的M-RoPE和動態(tài)分辨率訓練。
第三,模型大小影響視覺拼接能力。研究發(fā)現(xiàn),中等大小的模型(約10B參數(shù))表現(xiàn)最佳。小模型缺乏足夠的能力,而過大的模型則可能過度擬合,都會限制視覺拼接的泛化效果。
第四,視覺拼接能力使內(nèi)容審核變得更加復雜。實驗表明,即使是最先進的內(nèi)容審核系統(tǒng)也難以檢測那些單獨看起來無害但集體暗示有害內(nèi)容的樣本。在8×8的切分下,只有9%的有害圖片碎片被OpenAI的內(nèi)容審核API標記,這意味著大部分碎片都逃過了審核。
第五,對分散碎片的視覺拼接能力不僅限于明顯的視覺特征。研究者進行了額外的實驗,僅使用模糊的、需要上下文才能理解的碎片進行訓練,結(jié)果顯示模型仍然能夠進行有意義的視覺拼接,表明這種能力超越了簡單記憶明顯特征的范疇。
這些發(fā)現(xiàn)不僅揭示了視覺語言模型令人印象深刻的能力,也指出了在內(nèi)容審核和模型安全方面的新挑戰(zhàn)。
五、這項研究對AI安全和未來發(fā)展有何啟示?
這項研究的啟示是多方面的。首先,它表明傳統(tǒng)的基于樣本級別的內(nèi)容審核可能不足以確保視覺語言模型的安全。即使有害內(nèi)容被切成看似無害的碎片,模型仍可能通過視覺拼接重建這些內(nèi)容,從而獲取有害知識。
這就像是試圖通過封鎖單個詞語來防止有害信息傳播,卻忽略了人們可以通過上下文推斷出被隱藏的內(nèi)容。同樣,僅僅過濾單個有害圖片可能不足以防止模型學習有害概念,特別是當這些概念可以從分散的、看似無害的視覺碎片中重建時。
研究團隊建議,未來的內(nèi)容審核技術(shù)需要超越樣本級別,考慮樣本之間的潛在聯(lián)系和整合效應。這可能需要開發(fā)新的審核方法,能夠識別那些單獨看似無害但組合起來可能產(chǎn)生有害影響的內(nèi)容。
同時,這項研究也強調(diào)了透明度和可解釋性在AI系統(tǒng)中的重要性。如果我們能更好地理解模型如何整合和處理視覺信息,我們就能更好地預測和防范潛在的安全風險。
對于AI開發(fā)者和研究者來說,這項工作提醒我們需要更全面地考慮模型的安全性,不僅要關(guān)注明顯的有害內(nèi)容,還要警惕那些可能被巧妙規(guī)避的安全措施。
六、研究的局限性和未來方向
盡管這項研究揭示了重要的現(xiàn)象,但研究者也坦承了幾點局限性。首先,他們只評估了開源的視覺語言模型,而沒有測試專有模型(如OpenAI或Google的產(chǎn)品)。雖然這使得實驗更容易復現(xiàn),但也意味著研究結(jié)果可能不完全適用于那些通常更強大的專有模型。
其次,視覺拼接能力雖然存在,但并不總是可靠,特別是基于引用的視覺拼接。在某些情況下,盡管正確答案的概率有所提高,但模型仍然難以直接給出準確回答。
此外,研究者指出,他們對對抗性攻擊的演示是一個概念驗證,而非完整的攻擊框架。雖然他們模擬了使用內(nèi)容審核的真實條件,但更全面的攻擊場景分析還有待進一步研究。
研究團隊建議未來的工作可以評估專有視覺語言模型的視覺拼接能力,開發(fā)更嚴格和全面的框架來評估基于拼接的對抗攻擊的實際影響,以及研究視覺拼接的動態(tài)機制,例如它在訓練過程中是如何出現(xiàn)的。
七、結(jié)語:視覺拼接的雙刃劍
視覺拼接能力就像一把雙刃劍。一方面,它代表了視覺語言模型的強大泛化能力,使它們能夠?qū)⒎稚⒌囊曈X信息整合起來,形成更完整的理解。這種能力對于模型處理復雜的視覺場景至關(guān)重要,可能有助于改善圖像理解和多模態(tài)推理。
另一方面,這種能力也帶來了新的安全挑戰(zhàn)。正如研究所示,它可能被利用來規(guī)避內(nèi)容審核,使有害內(nèi)容在看似無害的碎片中隱藏,然后在模型內(nèi)部重建。這提醒我們,隨著AI技術(shù)的進步,我們需要不斷更新和改進安全措施,以應對新出現(xiàn)的風險。
最終,這項研究強調(diào)了在推進AI能力的同時,同樣重視AI安全的重要性。只有這樣,我們才能確保人工智能技術(shù)的發(fā)展是安全、負責任和有益的。
對于普通用戶來說,這項研究提醒我們在使用視覺語言模型和其他AI工具時保持警惕,特別是當涉及敏感內(nèi)容時。而對于AI研究者和開發(fā)者,它突顯了開發(fā)更強大的內(nèi)容審核技術(shù)和安全框架的必要性,以防范潛在的濫用。
通過理解視覺拼接這樣的現(xiàn)象,我們不僅能更好地認識AI系統(tǒng)的能力和局限,也能為構(gòu)建更安全、更可靠的AI技術(shù)奠定基礎。如果你對這項研究感興趣,可以訪問研究團隊的GitHub頁面(https://github.com/ZHZisZZ/visual-stitching)了解更多細節(jié)和代碼實現(xiàn)。
好文章,需要你的鼓勵
浙江大學團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學、編程等任務上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓練提供了新思路。
南洋理工大學與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學研究團隊發(fā)現(xiàn),通過讓AI模型學習解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學習方法訓練多個AI模型。實驗結(jié)果顯示,幾何訓練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎幾何知識對培養(yǎng)AI空間智能的重要價值。