視頻分割是一類被廣泛使用的技術,它確保了視頻場景中的前景與背景區(qū)分開來,并將二者視為兩個不同的圖層。通過修改或替換背景,表演者將可以表達特定的情緒,任意轉換位置,或者增強信息的表現(xiàn)力。然而,從傳統(tǒng)角度講,這種操作屬于一類極為耗時的手動過程(例如對每一幀畫面進行調(diào)整),或者需要在專門提供綠幕的工作室環(huán)境下(利用一種所謂色度鍵控技術)實現(xiàn)實時背景轉換。
現(xiàn)在,為了讓用戶能夠在取景器中直接享受這種效果,谷歌正在利用人工智能技術設計出一種適用于手機平臺的實時性替代方案,目前已經(jīng)在YouTube Stories應用當中進行測試。
具體而言,谷歌利用機器學習通過卷積神經(jīng)網(wǎng)絡以解決語義分割任務。谷歌認為,一款適用于手機的網(wǎng)絡架構與訓練程序,且其重點關注以下要求及約束條件:
· 移動解決方案應當具備輕量化特性,其運行速度至少要比現(xiàn)有的最為先進的圖像分割模型快10到30倍。對于實時推理,這種模型需要提供每秒30幀的處理速度。
· 視頻模型應該利用時間冗余特性(即相鄰幀的內(nèi)容往往較為相似)并體現(xiàn)出時間一致性(相鄰結果應當彼此相似)。
· 高質(zhì)量的分割結果源自高質(zhì)量的注釋。
谷歌這項視頻分割技術與大多數(shù)基于人工智能的成像程序一樣——人們首先以手動方式在超過10000張圖像進行注釋。正因為這些圖像內(nèi)涵豐富的前景與背景信息,因此相關注釋包括頭發(fā)、眼鏡、頸部、皮膚、嘴唇等前景元素的精確像素位置,以及一套能夠以98%的精度重現(xiàn)人類注釋交叉驗證結果(簡稱IOU)質(zhì)量的常規(guī)性背景標簽。
利用這套數(shù)據(jù)集,谷歌研究團隊得以訓練程序并指導其將背景與前景分離開來。(Adobe公司在Photoshop當中也曾提供一款類似的背景清除工具,但僅適用于靜止圖像)
圖:來自谷歌數(shù)據(jù)集的示例圖像,其中標有九項標簽——前景元素覆蓋在該圖像之上。
谷歌的特定分割任務在于計算出一套二進制遮罩,從而在視頻的每個輸入幀(三通道,RGB)內(nèi)將前景與背景區(qū)分開來。在這項任務當中,實現(xiàn)跨幀計算遮罩的時間一致性是其關鍵所在。對于目前的移動手機而言,利用LSTM或者GRU來實現(xiàn)實時應用顯然在計算資源層面不具備可行性。因此,我們首先將前一幀的計算遮罩作為先驗,并將其作為第四條通道接入當前RGB輸入幀,從而實現(xiàn)時間一致性。具體如下圖所示:
圖:原始幀(左)在其三色通道中被區(qū)分出來,且與之前的遮罩(中)對接。其將作為神經(jīng)網(wǎng)絡的輸入內(nèi)容以預測當前幀的遮罩結果(右)。
然而,在視頻分割當中,需要實現(xiàn)幀與幀之間的時間連續(xù)性,同時也要考慮到可能存在的時間不連續(xù)性——例如突然出現(xiàn)在攝像頭當中的人物對象,而且,以上數(shù)據(jù)集是針對單幅圖像訓練而成的,那么谷歌如何利用單一圖像替換每一幀視頻的背景呢?
事實上,一旦該軟件在第一幅圖像上遮蓋了背景,程序本身就會利用相同的遮罩機制來預測下一幀背景。當下一幀與前一幀僅存在些許差異時(例如攝像頭發(fā)生了輕微移動),程序?qū)φ谡肿鞒鐾瑯拥奈⒄{(diào)。而如果下一幀與前一幀存在巨大區(qū)別(例如有新的人物對象加入視頻),那么該軟件將徹底丟棄原有遮罩預測結論,并創(chuàng)建新的遮罩(mask)。
具體操作而言,谷歌利用多種方式轉換對圖像內(nèi)基本事實的注釋,并將其用作前一幀的遮罩基準:
· 清空前一套遮罩——訓練網(wǎng)絡以正確方式處理第一幀與場景中的新對象。這就模擬出了新的人物對象突然出現(xiàn)在攝像頭畫面中的情況。
· 仿射轉換后的實際背景遮罩——利用微調(diào)轉換以訓練網(wǎng)絡傳播并調(diào)整至前一幀的遮罩。利用重大轉換以訓練網(wǎng)絡理解不適用的遮罩,并棄用此類遮罩。
· 轉換圖像——實現(xiàn)了對原始圖像進行順滑的平移轉換,從而模擬攝像頭的快速移動與旋轉。
盡管這種分離背景的能力確實令人印象深刻,但谷歌公司還希望更進一步,包括使該程序能夠在智能手機之上更為有限的硬件條件下運行。這意味著其必須放棄相對強大的臺式計算機性能資源。在視頻分割功能背后,程序員們會對程序作出進一步調(diào)整,從而提高分割與采樣等操作的速度,同時減少通道數(shù)量。在此之后,該團隊通過添加圖層為前景與背景之間創(chuàng)建出更為平滑的邊緣,最終提升處理質(zhì)量。
谷歌公司指出,這些調(diào)整使得該應用程序能夠以實時方式完成背景替換——在iPhone 7上,該應用的處理速度超過每秒100幀,而谷歌Pixel 2上的處理速度亦超過每秒40幀。谷歌方面表示,該訓練集的準確率達到94.8%。不過谷歌公司目前發(fā)布的所有示例皆為單人視頻,且其并沒有提到該功能是否適用于多對象視頻素材。
在該項功能的beta測試當中,YouTube主播們可通過選擇不同的效果(夜景、黑白乃至空白背景)來更改視頻中的顯示背景。這一測試版本中的部分特效甚至增加了光照效果,例如可在角落處添加鏡頭光暈。
這款視頻分割工具已經(jīng)正式開放,但目前僅作為beta測試方案,因此相關功能仍無法廣泛使用。谷歌公司表示,在整理出該項測試的相關結果之后,他們計劃進一步擴展這種分割效果,并將該功能添加到其它程序當中——包括提供增強現(xiàn)實選項。
【谷歌“視頻分割”文章Mobile Real-time Video Segmentation獲取方式:關注科技行者公眾號(itechwalker),打開對話界面,回復關鍵字“視頻分割”,即可獲得下載地址】
來源:digitaltrends.com
編譯整理:科技行者
好文章,需要你的鼓勵
浙江大學團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學、編程等任務上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓練提供了新思路。
南洋理工大學與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術,實現(xiàn)AI視頻實時流式生成的重大突破。該技術通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學研究團隊發(fā)現(xiàn),通過讓AI模型學習解決幾何問題,能夠顯著提升其空間理解能力。他們構建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學習方法訓練多個AI模型。實驗結果顯示,幾何訓練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎幾何知識對培養(yǎng)AI空間智能的重要價值。