視頻分割是一類被廣泛使用的技術(shù),它確保了視頻場景中的前景與背景區(qū)分開來,并將二者視為兩個不同的圖層。通過修改或替換背景,表演者將可以表達(dá)特定的情緒,任意轉(zhuǎn)換位置,或者增強(qiáng)信息的表現(xiàn)力。然而,從傳統(tǒng)角度講,這種操作屬于一類極為耗時的手動過程(例如對每一幀畫面進(jìn)行調(diào)整),或者需要在專門提供綠幕的工作室環(huán)境下(利用一種所謂色度鍵控技術(shù))實(shí)現(xiàn)實(shí)時背景轉(zhuǎn)換。
現(xiàn)在,為了讓用戶能夠在取景器中直接享受這種效果,谷歌正在利用人工智能技術(shù)設(shè)計(jì)出一種適用于手機(jī)平臺的實(shí)時性替代方案,目前已經(jīng)在YouTube Stories應(yīng)用當(dāng)中進(jìn)行測試。
具體而言,谷歌利用機(jī)器學(xué)習(xí)通過卷積神經(jīng)網(wǎng)絡(luò)以解決語義分割任務(wù)。谷歌認(rèn)為,一款適用于手機(jī)的網(wǎng)絡(luò)架構(gòu)與訓(xùn)練程序,且其重點(diǎn)關(guān)注以下要求及約束條件:
· 移動解決方案應(yīng)當(dāng)具備輕量化特性,其運(yùn)行速度至少要比現(xiàn)有的最為先進(jìn)的圖像分割模型快10到30倍。對于實(shí)時推理,這種模型需要提供每秒30幀的處理速度。
· 視頻模型應(yīng)該利用時間冗余特性(即相鄰幀的內(nèi)容往往較為相似)并體現(xiàn)出時間一致性(相鄰結(jié)果應(yīng)當(dāng)彼此相似)。
· 高質(zhì)量的分割結(jié)果源自高質(zhì)量的注釋。
谷歌這項(xiàng)視頻分割技術(shù)與大多數(shù)基于人工智能的成像程序一樣——人們首先以手動方式在超過10000張圖像進(jìn)行注釋。正因?yàn)檫@些圖像內(nèi)涵豐富的前景與背景信息,因此相關(guān)注釋包括頭發(fā)、眼鏡、頸部、皮膚、嘴唇等前景元素的精確像素位置,以及一套能夠以98%的精度重現(xiàn)人類注釋交叉驗(yàn)證結(jié)果(簡稱IOU)質(zhì)量的常規(guī)性背景標(biāo)簽。
利用這套數(shù)據(jù)集,谷歌研究團(tuán)隊(duì)得以訓(xùn)練程序并指導(dǎo)其將背景與前景分離開來。(Adobe公司在Photoshop當(dāng)中也曾提供一款類似的背景清除工具,但僅適用于靜止圖像)
圖:來自谷歌數(shù)據(jù)集的示例圖像,其中標(biāo)有九項(xiàng)標(biāo)簽——前景元素覆蓋在該圖像之上。
谷歌的特定分割任務(wù)在于計(jì)算出一套二進(jìn)制遮罩,從而在視頻的每個輸入幀(三通道,RGB)內(nèi)將前景與背景區(qū)分開來。在這項(xiàng)任務(wù)當(dāng)中,實(shí)現(xiàn)跨幀計(jì)算遮罩的時間一致性是其關(guān)鍵所在。對于目前的移動手機(jī)而言,利用LSTM或者GRU來實(shí)現(xiàn)實(shí)時應(yīng)用顯然在計(jì)算資源層面不具備可行性。因此,我們首先將前一幀的計(jì)算遮罩作為先驗(yàn),并將其作為第四條通道接入當(dāng)前RGB輸入幀,從而實(shí)現(xiàn)時間一致性。具體如下圖所示:
圖:原始幀(左)在其三色通道中被區(qū)分出來,且與之前的遮罩(中)對接。其將作為神經(jīng)網(wǎng)絡(luò)的輸入內(nèi)容以預(yù)測當(dāng)前幀的遮罩結(jié)果(右)。
然而,在視頻分割當(dāng)中,需要實(shí)現(xiàn)幀與幀之間的時間連續(xù)性,同時也要考慮到可能存在的時間不連續(xù)性——例如突然出現(xiàn)在攝像頭當(dāng)中的人物對象,而且,以上數(shù)據(jù)集是針對單幅圖像訓(xùn)練而成的,那么谷歌如何利用單一圖像替換每一幀視頻的背景呢?
事實(shí)上,一旦該軟件在第一幅圖像上遮蓋了背景,程序本身就會利用相同的遮罩機(jī)制來預(yù)測下一幀背景。當(dāng)下一幀與前一幀僅存在些許差異時(例如攝像頭發(fā)生了輕微移動),程序?qū)φ谡肿鞒鐾瑯拥奈⒄{(diào)。而如果下一幀與前一幀存在巨大區(qū)別(例如有新的人物對象加入視頻),那么該軟件將徹底丟棄原有遮罩預(yù)測結(jié)論,并創(chuàng)建新的遮罩(mask)。
具體操作而言,谷歌利用多種方式轉(zhuǎn)換對圖像內(nèi)基本事實(shí)的注釋,并將其用作前一幀的遮罩基準(zhǔn):
· 清空前一套遮罩——訓(xùn)練網(wǎng)絡(luò)以正確方式處理第一幀與場景中的新對象。這就模擬出了新的人物對象突然出現(xiàn)在攝像頭畫面中的情況。
· 仿射轉(zhuǎn)換后的實(shí)際背景遮罩——利用微調(diào)轉(zhuǎn)換以訓(xùn)練網(wǎng)絡(luò)傳播并調(diào)整至前一幀的遮罩。利用重大轉(zhuǎn)換以訓(xùn)練網(wǎng)絡(luò)理解不適用的遮罩,并棄用此類遮罩。
· 轉(zhuǎn)換圖像——實(shí)現(xiàn)了對原始圖像進(jìn)行順滑的平移轉(zhuǎn)換,從而模擬攝像頭的快速移動與旋轉(zhuǎn)。
盡管這種分離背景的能力確實(shí)令人印象深刻,但谷歌公司還希望更進(jìn)一步,包括使該程序能夠在智能手機(jī)之上更為有限的硬件條件下運(yùn)行。這意味著其必須放棄相對強(qiáng)大的臺式計(jì)算機(jī)性能資源。在視頻分割功能背后,程序員們會對程序作出進(jìn)一步調(diào)整,從而提高分割與采樣等操作的速度,同時減少通道數(shù)量。在此之后,該團(tuán)隊(duì)通過添加圖層為前景與背景之間創(chuàng)建出更為平滑的邊緣,最終提升處理質(zhì)量。
谷歌公司指出,這些調(diào)整使得該應(yīng)用程序能夠以實(shí)時方式完成背景替換——在iPhone 7上,該應(yīng)用的處理速度超過每秒100幀,而谷歌Pixel 2上的處理速度亦超過每秒40幀。谷歌方面表示,該訓(xùn)練集的準(zhǔn)確率達(dá)到94.8%。不過谷歌公司目前發(fā)布的所有示例皆為單人視頻,且其并沒有提到該功能是否適用于多對象視頻素材。
在該項(xiàng)功能的beta測試當(dāng)中,YouTube主播們可通過選擇不同的效果(夜景、黑白乃至空白背景)來更改視頻中的顯示背景。這一測試版本中的部分特效甚至增加了光照效果,例如可在角落處添加鏡頭光暈。
這款視頻分割工具已經(jīng)正式開放,但目前僅作為beta測試方案,因此相關(guān)功能仍無法廣泛使用。谷歌公司表示,在整理出該項(xiàng)測試的相關(guān)結(jié)果之后,他們計(jì)劃進(jìn)一步擴(kuò)展這種分割效果,并將該功能添加到其它程序當(dāng)中——包括提供增強(qiáng)現(xiàn)實(shí)選項(xiàng)。
【谷歌“視頻分割”文章Mobile Real-time Video Segmentation獲取方式:關(guān)注科技行者公眾號(itechwalker),打開對話界面,回復(fù)關(guān)鍵字“視頻分割”,即可獲得下載地址】
來源:digitaltrends.com
編譯整理:科技行者
好文章,需要你的鼓勵
這項(xiàng)研究提出了"高效探測"方法,解決了掩碼圖像建模AI難以有效評估的問題。通過創(chuàng)新的多查詢交叉注意力機(jī)制,該方法在減少90%參數(shù)的同時實(shí)現(xiàn)10倍速度提升,在七個基準(zhǔn)測試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強(qiáng)相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊(duì)承諾開源全部代碼,推動技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊(duì)開發(fā)了CLAIMSPECT系統(tǒng),通過層次化分解復(fù)雜爭議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點(diǎn)的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動構(gòu)建爭議話題的分析框架,識別不同觀點(diǎn)及其支撐證據(jù),為科學(xué)和政治爭議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國際關(guān)系領(lǐng)域驗(yàn)證有效性。
清華大學(xué)研究團(tuán)隊(duì)首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類一樣理解和表達(dá)情感。該系統(tǒng)通過多層次情感處理架構(gòu),在情感識別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實(shí)現(xiàn)了跨模態(tài)情感融合、動態(tài)情感追蹤和個性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊(duì)通過創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會復(fù)雜推理。研究發(fā)現(xiàn)AI通過游戲競爭能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項(xiàng)突破性成果為未來AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過模擬人類學(xué)習(xí)過程培養(yǎng)真正智能AI的新路徑。