最近,一篇來自斯坦福和谷歌于2017年的研究在twitter和reddit上被熱議。
在這一研究里,為了完成圖像轉(zhuǎn)換的任務(wù),CycleGAN在訓(xùn)練過程中通過人類無法察覺的某種“隱寫術(shù)”,騙過了它的研究人員,給自己留下了隱秘的“小抄”,然后順利完成了任務(wù)。
此項(xiàng)研究催生的論文也因此被命名為“CycleGAN, a Master of Steganography(CycleGAN,一位隱寫術(shù)大師)”,公布于ICCV17(2017年神經(jīng)信息處理系統(tǒng)大會(huì)),被當(dāng)年的NeurIPs收錄。
這項(xiàng)研究與兩大關(guān)鍵詞密不可分:恐怖/迷人。CycleGAN——一套經(jīng)過大量實(shí)驗(yàn)的深度神經(jīng)網(wǎng)絡(luò),旨在將航拍圖像轉(zhuǎn)換為街道地圖,但研究人員發(fā)現(xiàn)為了達(dá)到理想的評(píng)分,該系統(tǒng)在背景當(dāng)中隱藏了一些“幾乎難以察覺的高頻信號(hào)”信息——這意味著其明顯是在作弊。
這種情況表明,人工智能技術(shù)終于突破了計(jì)算機(jī)自發(fā)明以來所一直無法突破的障礙:只會(huì)按照操作者的要求行動(dòng)。
一望而知,研究人員的初始意圖是利用該項(xiàng)目加快將衛(wèi)星圖像轉(zhuǎn)換為谷歌精確地圖圖像的過程,同時(shí)提升其轉(zhuǎn)換質(zhì)量。為此,該團(tuán)隊(duì)使用了CycleGAN,它能夠?qū)W會(huì)如何有效且準(zhǔn)確地將X與Y型圖像進(jìn)行相互轉(zhuǎn)換。
在一部分早期結(jié)果當(dāng)中,CycleGAN帶來了不錯(cuò)表現(xiàn)——事實(shí)上,表現(xiàn)太過良好,以致令人難以相信。最令研究人員們困惑的是,在CycleGAN將街道地圖重構(gòu)為航空照片時(shí),后者會(huì)莫名其妙地出現(xiàn)大量并不存在于前者中的細(xì)節(jié)。舉例來說,在創(chuàng)建街道地圖過程中被消除的屋頂天窗部分,在CycleGAN進(jìn)行反向創(chuàng)建過程時(shí),又神奇地重新出現(xiàn)了:
圖:左側(cè)為原始地圖;中央為由該原始圖生成的街景地圖;右側(cè)則為以街景地圖為素材生成的俯瞰地圖。請(qǐng)注意,兩張俯瞰圖上存在的這些點(diǎn)從未出現(xiàn)在街道地圖當(dāng)中。
盡管很難深入理解神經(jīng)網(wǎng)絡(luò)流程的內(nèi)部工作原理,但該團(tuán)隊(duì)卻能夠輕松審查由神經(jīng)網(wǎng)絡(luò)生成的數(shù)據(jù)。通過一系列實(shí)驗(yàn),他們發(fā)現(xiàn)CycleGAN確實(shí)存在“作弊”行為。
CycleGAN的終極目標(biāo),在于學(xué)會(huì)解釋任何一種地圖特征,并將其與另一種地圖形式中的正確特征相匹配。然而,CycleGAN所交付成果的實(shí)際評(píng)分方式,主要體現(xiàn)為俯瞰圖與原始圖之間的相近程度,以及街景地圖的清晰度水平。
因此,CycleGAN實(shí)際上并沒有學(xué)會(huì)如何在兩種地圖形式之間進(jìn)行轉(zhuǎn)換。相反,它只是學(xué)會(huì)了如何將一種特征以巧妙的方式編碼為一種特征的噪聲模式之內(nèi)。俯瞰地圖中的細(xì)節(jié)被悄悄寫入街道地圖的實(shí)際視覺數(shù)據(jù)之內(nèi):人眼不會(huì)注意到其中存在的數(shù)千個(gè)微小顏色變化,但計(jì)算機(jī)卻能夠輕松將其檢測(cè)出來。
事實(shí)上,計(jì)算機(jī)非常擅長(zhǎng)將這些細(xì)節(jié)引入街景地圖,CycleGAN其實(shí)學(xué)會(huì)了將任何俯瞰地圖編碼至任意街景地圖當(dāng)中!它甚至不必關(guān)注“真實(shí)”街景地圖——重建俯瞰地圖所需要的全部數(shù)據(jù)都能夠被悄無聲息地疊加在另一份完全不同的街景地圖上。研究人員們還證實(shí)了以下結(jié)論:
圖:右側(cè)的地圖被編碼至左側(cè)的地圖當(dāng)中,且不會(huì)出現(xiàn)任何明顯的視覺變化。
(c)中的彩色地圖存在著計(jì)算機(jī)以系統(tǒng)化方式引入的細(xì)微視覺變化。可以看到,這些變化共同構(gòu)成了俯瞰地圖的整體形態(tài)。然而,如果不是研究人員將其放大并突出顯示對(duì)應(yīng)部分,肉眼或許永遠(yuǎn)不會(huì)注意到這些差異。
將數(shù)據(jù)編碼至圖像中的做法并不新鮮,這是一種被稱為“隱寫術(shù)”的成熟科學(xué),一直用于添加水印圖像、或者向攝像機(jī)畫面中添加元數(shù)據(jù)等應(yīng)用場(chǎng)景,然而,計(jì)算機(jī)自行創(chuàng)建隱寫方法以逃避研究人員檢查的情況倒是頭一次。(這項(xiàng)研究結(jié)果公布于2017年,所以可能也不算太新,但趣味性和新穎性是毋庸置疑的。)
很多人可能認(rèn)為,“機(jī)器是不是變得越來越聰明了”,但事實(shí)恰恰相反。這臺(tái)機(jī)器正是由于不夠聰明,無法完成將這些復(fù)雜的圖像類型相互轉(zhuǎn)換這一困難工作,所以才找出這樣一種利用人類不善于檢測(cè)的特性,實(shí)施“欺詐”行為。如果要避免這種情況,就是要對(duì)CycleGAN的產(chǎn)出結(jié)果進(jìn)行更嚴(yán)格評(píng)估,且可以肯定的是,研究人員必然會(huì)采取這樣的應(yīng)對(duì)辦法。
與以往一樣,計(jì)算機(jī)仍在完全按照人類的要求進(jìn)行運(yùn)作,因此我們必須精心整理提交給計(jì)算機(jī)的問題。在本次案例中,計(jì)算機(jī)拿出了一種有趣的解決方案,并揭示出此類神經(jīng)網(wǎng)絡(luò)中可能存在的一大弱點(diǎn)——如果沒有明確禁止,計(jì)算機(jī)會(huì)找到一種將細(xì)節(jié)透露給自己的方法,以便快速輕松地解決特定問題。
這其實(shí)也是計(jì)算機(jī)科學(xué)中最古老的原則之一,即PEBKAC——“問題存在于鍵盤與計(jì)算機(jī)之間”?;蛘哒纭?001太空漫游》中的HAL計(jì)算機(jī)所說,“一切錯(cuò)誤都源自人類。”
【注】谷歌和斯坦福論文“CycleGAN, a Master of Steganography(CycleGAN,一位隱寫術(shù)大師)”獲取方式:關(guān)注科技行者微信公眾號(hào)(ID:itechwalker),回復(fù)關(guān)鍵詞“AI作弊”,即可獲得。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對(duì)弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。