▲Scandy Pro捕獲全彩色3D掃描
不久前,來自華盛頓大學(xué)的一組研究人員發(fā)布了一項新的實驗性技術(shù)。這項技術(shù)能夠直接從靜態(tài)2D圖像當(dāng)中剪切字符,并將其轉(zhuǎn)換為3D動畫,最終以AR的方式將信息引入現(xiàn)實世界。這香技術(shù)被命名為Photo Wake-Up,適用于照片、海報乃至涂鴉藝術(shù),能夠為嵌入式Pinocchios注入生命,使這些圖形自由地在現(xiàn)實環(huán)境中行走、跑步乃至跳躍。
該團(tuán)隊在去年12月接受《麻省理工學(xué)院技術(shù)評論》雜志采訪時表示:“我們相信這種方法不僅能夠為人們提供欣賞照片并與其互動的新方式,而且還帶來了立足單一圖像重建虛擬化身的新途徑,甚至能夠從單張照片中洞悉人類藝術(shù)建模的真實狀態(tài)。”
▲由Chung-Yi Weng、Brian Curless、Ira Kemelmacher-Shlizerman合作開發(fā)的Photo Wake-Up
事實上,基于2D圖像重建3D模型的想法并不算新鮮。早在十多年之前,由吳恩達(dá)帶隊的斯坦福3D重建小組就研究過這一課題。然而,此次出現(xiàn)的解決方案要比以往任何時候都更加強大(或者說需求更為迫切),而且其與當(dāng)前青少年VR與AR行業(yè)的內(nèi)容供應(yīng)問題密切相關(guān)。
截至目前,大多數(shù)用于VR及AR內(nèi)容的3D模型仍由3D藝術(shù)家們手動創(chuàng)建,這是一項時間密集、成本高昂而且毫無擴展性可言的工作。另外,行業(yè)當(dāng)中還存在著人才短缺的問題,而且這種問題并不能隨著規(guī)?;兴徍?。正因為如此,以Sketchfab為代表的各類3D repo才受到廣泛歡迎,藝術(shù)家們可以在這里發(fā)布、分享、發(fā)現(xiàn)、購買以及出售各類3D、VR與AR內(nèi)容。
盡管如此,創(chuàng)作者社區(qū)仍然迫切想要擺脫對于人類勞動力的依賴,并希望能夠從那些提供自動化能力的工具當(dāng)中獲得更理想的效益。具體來講,這些工具必須能夠創(chuàng)造捷徑與“訣竅”,從而顯著加快并改善創(chuàng)作過程。
對此,Trnio公司創(chuàng)始人兼CEO Jan-Michael Trssler表示:“對于真正讓人身臨其境的世界,最出色的內(nèi)容創(chuàng)作者需要使用大量的技術(shù)與軟件來創(chuàng)造真實的元素。我見過很多藝術(shù)家在使用攝影方法測量并捕捉物體,而后將此作為3D模型的創(chuàng)建起點。接下來,藝術(shù)家們會對資產(chǎn)元素進(jìn)行簡化與優(yōu)化,以便使其在AR/VR引擎當(dāng)中發(fā)揮作用。”
如今,以攝影測量與體積捕捉為代表的3D掃描技術(shù)在輸出質(zhì)量方面不斷發(fā)展,并不斷縮短著3D模型的生產(chǎn)周期,這就使得現(xiàn)實世界變得越來越易于成為3D模型制作工作的直接來源。這類技術(shù)能夠幫助當(dāng)前的創(chuàng)作者,乃至任何有意投身其中的新人,或尚在猶豫的潛在參與者更輕松地完成自己腦海中勾勒出的形象。
來自新奧爾良的Scandy公司創(chuàng)始人兼總裁Charles Carriere指出:“我們認(rèn)為,大多數(shù)內(nèi)容創(chuàng)作者實際上并沒有探索3D內(nèi)容,因為他們?nèi)鄙龠@類工具。事實上,目前幾乎所有正在創(chuàng)建的內(nèi)容都以2D形式存在,因為每個人都能夠輕松訪問并使用2D工具——其中最重要的就是手機攝像頭。只要能夠為這些具有高度創(chuàng)造性的Snapchat、Instagram以及YouTube大牛們提供能夠創(chuàng)建3D模型的平臺及工具,那么高質(zhì)量3D內(nèi)容將以爆炸式的速度增長,并吸引到更多消費者。”
但真正的黃金時代尚未到來。人才的新鮮血液,或者3D掃描技術(shù)的不斷進(jìn)步,仍然無法通過快速或者實質(zhì)性的解決方案來彌補該行業(yè)目前所面臨的內(nèi)容供應(yīng)短缺問題。無論公平與否,消費級與企業(yè)市場的關(guān)注周期仍然有限,而且人們或多或少會在潛意識當(dāng)中期望VR與AR內(nèi)容的生產(chǎn)與迭代周期能夠與以往所習(xí)慣的2D內(nèi)容在速度上相匹配。
立足以往的實際情況,這樣的期待明顯非常不切實際。然而,Photo Wake-Up這類3D重建技術(shù)的出現(xiàn)突然令2D圖像、資產(chǎn)乃至資源庫成了一種取之不盡、用之不竭的素材供應(yīng)源。3D模型能夠以幾乎全自動的方式生成,并被快速應(yīng)用到沉浸式體驗場景當(dāng)中。事實上,這項技術(shù)不僅使得整個行業(yè)得以迎頭趕上,甚至有望在沉浸式領(lǐng)域引發(fā)寒武紀(jì)般的生命大爆發(fā)。
著眼于當(dāng)下,AR零售與購物領(lǐng)域?qū)⒊蔀榈谝粋€重要的灘頭陣地。包括蘋果、Facebook、PayPal校友以及斯坦福大學(xué)多位博士在內(nèi)的資深企業(yè)家團(tuán)隊,在日前以Threedy.ai公司參與者的身份集體亮相。Threedy.ai是一家深度科技初創(chuàng)企業(yè),專門負(fù)責(zé)解決3D內(nèi)容供應(yīng)難題。
Threedy.ai公司聯(lián)合創(chuàng)始人兼CEO Nima Sarshar解釋稱,“大家可以會認(rèn)為創(chuàng)造這些產(chǎn)品的制造商肯定已經(jīng)擁有了對應(yīng)的3D模型素材,但事實告訴我們,雖然存在相關(guān)的CAD文件,相關(guān)廠商也愿意將其公開,并借此生成3D網(wǎng)格,但卻缺少與之對應(yīng)的紋理或者材料。另外,也沒有統(tǒng)一的AR模型創(chuàng)建工作流程能夠消化來自六大主要CAD供應(yīng)商的具體工具,以及超過14種文件格式。整個制造業(yè)都在大量以外包方式處理手動紋理打包工作。”
舉例來說,Houzz AR應(yīng)用程序允許用戶根據(jù)尺寸與顏色等指標(biāo)對房間內(nèi)的家具進(jìn)行查看。其中的挑戰(zhàn)在于,一切先進(jìn)的AR購物應(yīng)用程序,包括Houzz、Wayfair以及Overstock等,都只擁有一小部分庫存的3D模型。具體而言,Houzz所擁有的3D模型僅占全部餐廳家具類別中的3%。
Sarshar解釋稱,“我們的目標(biāo)是成為商業(yè)產(chǎn)品3D模型領(lǐng)域的Getty Images網(wǎng)站。大家可以想象一下,未來也許亞馬遜目錄中的每一件商品都擁有對應(yīng)的3D模型,這樣的資源庫將會多大。”
他們的第一款產(chǎn)品是Threedy Convert,能夠利用家用產(chǎn)品及家具的普通2D照片,通過專用計算幾何與深度學(xué)習(xí)算法,將其自動轉(zhuǎn)換為高質(zhì)量3D模型。此項技術(shù)能夠批量應(yīng)用于不斷增長的產(chǎn)品類別,并且通常只需要一張產(chǎn)品照片,整個實現(xiàn)成本也比現(xiàn)有解決方案便宜近兩個數(shù)量級。
Sarshar指出:“掃描雖然能夠提供更高的質(zhì)量,但整個過程仍然非常枯燥且成本高昂。另外,從高多邊形掃描結(jié)果到適用于XR的低多邊形模型的轉(zhuǎn)換也絕非易事。還有一個重要的難題,對于大部分電子商務(wù)網(wǎng)站而言,大家根本沒有對應(yīng)的物理對象,而只有數(shù)量有限的非結(jié)構(gòu)化產(chǎn)品照片。”
這種以低維素材為起點,協(xié)助建立起高維素材的方法既令人驚訝,也絕對會受到市場的熱烈追捧。該技術(shù)并不是短期可行的補救式措施,而是代表著一種全新的內(nèi)容轉(zhuǎn)換渠道。隨著VR與AR行業(yè)不斷發(fā)展與變化,這些內(nèi)容有望在合適的時刻全面將渲染式體驗推向普羅大眾——我個人樂觀地認(rèn)為,這一切在今年之內(nèi)就有可能發(fā)生。
Amir Bozorgzadeh是Virtuleap公司的CEO,該公司是通過神經(jīng)科學(xué)研究與機器學(xué)習(xí)實現(xiàn)人體在VR與AR環(huán)境中實現(xiàn)自我表達(dá)的企業(yè),他認(rèn)為,如此一來,廠商與品牌方就能夠感受到用戶在查看內(nèi)容時所抱有的興奮、憤怒或者厭倦等情緒。
好文章,需要你的鼓勵
新加坡國立大學(xué)研究團(tuán)隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設(shè)備上展現(xiàn)出色泛化能力,為機器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊通過對比實驗發(fā)現(xiàn),經(jīng)過強化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實現(xiàn)大語言模型訓(xùn)練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓(xùn)練效率,已在多個任務(wù)上驗證有效性。