
最近,一篇來自斯坦福和谷歌于2017年的研究在twitter和reddit上被熱議。
在這一研究里,為了完成圖像轉(zhuǎn)換的任務(wù),CycleGAN在訓(xùn)練過程中通過人類無法察覺的某種“隱寫術(shù)”,騙過了它的研究人員,給自己留下了隱秘的“小抄”,然后順利完成了任務(wù)。
此項研究催生的論文也因此被命名為“CycleGAN, a Master of Steganography(CycleGAN,一位隱寫術(shù)大師)”,公布于ICCV17(2017年神經(jīng)信息處理系統(tǒng)大會),被當(dāng)年的NeurIPs收錄。
這項研究與兩大關(guān)鍵詞密不可分:恐怖/迷人。CycleGAN——一套經(jīng)過大量實驗的深度神經(jīng)網(wǎng)絡(luò),旨在將航拍圖像轉(zhuǎn)換為街道地圖,但研究人員發(fā)現(xiàn)為了達到理想的評分,該系統(tǒng)在背景當(dāng)中隱藏了一些“幾乎難以察覺的高頻信號”信息——這意味著其明顯是在作弊。
這種情況表明,人工智能技術(shù)終于突破了計算機自發(fā)明以來所一直無法突破的障礙:只會按照操作者的要求行動。
一望而知,研究人員的初始意圖是利用該項目加快將衛(wèi)星圖像轉(zhuǎn)換為谷歌精確地圖圖像的過程,同時提升其轉(zhuǎn)換質(zhì)量。為此,該團隊使用了CycleGAN,它能夠?qū)W會如何有效且準確地將X與Y型圖像進行相互轉(zhuǎn)換。
在一部分早期結(jié)果當(dāng)中,CycleGAN帶來了不錯表現(xiàn)——事實上,表現(xiàn)太過良好,以致令人難以相信。最令研究人員們困惑的是,在CycleGAN將街道地圖重構(gòu)為航空照片時,后者會莫名其妙地出現(xiàn)大量并不存在于前者中的細節(jié)。舉例來說,在創(chuàng)建街道地圖過程中被消除的屋頂天窗部分,在CycleGAN進行反向創(chuàng)建過程時,又神奇地重新出現(xiàn)了:
圖:左側(cè)為原始地圖;中央為由該原始圖生成的街景地圖;右側(cè)則為以街景地圖為素材生成的俯瞰地圖。請注意,兩張俯瞰圖上存在的這些點從未出現(xiàn)在街道地圖當(dāng)中。
盡管很難深入理解神經(jīng)網(wǎng)絡(luò)流程的內(nèi)部工作原理,但該團隊卻能夠輕松審查由神經(jīng)網(wǎng)絡(luò)生成的數(shù)據(jù)。通過一系列實驗,他們發(fā)現(xiàn)CycleGAN確實存在“作弊”行為。
CycleGAN的終極目標,在于學(xué)會解釋任何一種地圖特征,并將其與另一種地圖形式中的正確特征相匹配。然而,CycleGAN所交付成果的實際評分方式,主要體現(xiàn)為俯瞰圖與原始圖之間的相近程度,以及街景地圖的清晰度水平。
因此,CycleGAN實際上并沒有學(xué)會如何在兩種地圖形式之間進行轉(zhuǎn)換。相反,它只是學(xué)會了如何將一種特征以巧妙的方式編碼為一種特征的噪聲模式之內(nèi)。俯瞰地圖中的細節(jié)被悄悄寫入街道地圖的實際視覺數(shù)據(jù)之內(nèi):人眼不會注意到其中存在的數(shù)千個微小顏色變化,但計算機卻能夠輕松將其檢測出來。
事實上,計算機非常擅長將這些細節(jié)引入街景地圖,CycleGAN其實學(xué)會了將任何俯瞰地圖編碼至任意街景地圖當(dāng)中!它甚至不必關(guān)注“真實”街景地圖——重建俯瞰地圖所需要的全部數(shù)據(jù)都能夠被悄無聲息地疊加在另一份完全不同的街景地圖上。研究人員們還證實了以下結(jié)論:
圖:右側(cè)的地圖被編碼至左側(cè)的地圖當(dāng)中,且不會出現(xiàn)任何明顯的視覺變化。
(c)中的彩色地圖存在著計算機以系統(tǒng)化方式引入的細微視覺變化??梢钥吹剑@些變化共同構(gòu)成了俯瞰地圖的整體形態(tài)。然而,如果不是研究人員將其放大并突出顯示對應(yīng)部分,肉眼或許永遠不會注意到這些差異。
將數(shù)據(jù)編碼至圖像中的做法并不新鮮,這是一種被稱為“隱寫術(shù)”的成熟科學(xué),一直用于添加水印圖像、或者向攝像機畫面中添加元數(shù)據(jù)等應(yīng)用場景,然而,計算機自行創(chuàng)建隱寫方法以逃避研究人員檢查的情況倒是頭一次。(這項研究結(jié)果公布于2017年,所以可能也不算太新,但趣味性和新穎性是毋庸置疑的。)
很多人可能認為,“機器是不是變得越來越聰明了”,但事實恰恰相反。這臺機器正是由于不夠聰明,無法完成將這些復(fù)雜的圖像類型相互轉(zhuǎn)換這一困難工作,所以才找出這樣一種利用人類不善于檢測的特性,實施“欺詐”行為。如果要避免這種情況,就是要對CycleGAN的產(chǎn)出結(jié)果進行更嚴格評估,且可以肯定的是,研究人員必然會采取這樣的應(yīng)對辦法。
與以往一樣,計算機仍在完全按照人類的要求進行運作,因此我們必須精心整理提交給計算機的問題。在本次案例中,計算機拿出了一種有趣的解決方案,并揭示出此類神經(jīng)網(wǎng)絡(luò)中可能存在的一大弱點——如果沒有明確禁止,計算機會找到一種將細節(jié)透露給自己的方法,以便快速輕松地解決特定問題。
這其實也是計算機科學(xué)中最古老的原則之一,即PEBKAC——“問題存在于鍵盤與計算機之間”。或者正如《2001太空漫游》中的HAL計算機所說,“一切錯誤都源自人類。”
【注】谷歌和斯坦福論文“CycleGAN, a Master of Steganography(CycleGAN,一位隱寫術(shù)大師)”獲取方式:關(guān)注科技行者微信公眾號(ID:itechwalker),回復(fù)關(guān)鍵詞“AI作弊”,即可獲得。
好文章,需要你的鼓勵
浙江大學(xué)團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學(xué)競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓(xùn)練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團隊發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學(xué)習(xí)方法訓(xùn)練多個AI模型。實驗結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。