CNET科技行者 10月8日 北京消息: 圍繞著人工智能和機器學(xué)習(xí)出現(xiàn)在我們生活方方面面的話題中,而這里面就有一個來自俄羅斯莫斯科PRISMA實驗室的小型產(chǎn)品開發(fā)團隊,用這些各種各樣的算法拯救了垂死的照片編輯軟件行業(yè),并且采用了一種讓我們非常驚訝的方式。
照片編輯應(yīng)用程序Prisma現(xiàn)在也已經(jīng)進入了安卓市場,成為今年夏天緊隨Pokemon Go之后最受歡迎的應(yīng)用程序。這款具有革命性的藝術(shù)濾鏡應(yīng)用程序可以從頭開始制作照片,利用藝術(shù)家非常受歡迎的作品,如Edvard Munch的《The Scream》,Roy Lichtenstein的《Go for Baroque》以及很多標(biāo)志性的藝術(shù)效果,并且加上畢加索、梵高的手法,把你的照片變成超現(xiàn)實的藝術(shù)品。
該應(yīng)用程序混合使用了神經(jīng)網(wǎng)絡(luò)、人工智能和基于云的機器學(xué)習(xí)來實現(xiàn)一系列過濾效果,模仿藝術(shù)家的風(fēng)格完成你的圖像。目前該應(yīng)用在iOS平臺上的下載量已經(jīng)超過了10M,登陸安卓平臺幾個小時之后,下載量就達到了40000次。公司首席執(zhí)行官兼聯(lián)合創(chuàng)始人Alexey Moiseenkov表示,這些令人驚嘆的照片的秘訣在于,每張照片都是從頭開始創(chuàng)建,并且表示一旦照片被采納,就會完成操作并給出一張新的藝術(shù)照片,而且服務(wù)不會存儲任何內(nèi)容。
而且他還補充表示,“今天,我們在服務(wù)器上有三個類似神經(jīng)網(wǎng)絡(luò)。每一個完成不同的任務(wù)。它以從藝術(shù)品中提取的風(fēng)格之類的東西為基礎(chǔ),將其應(yīng)用于照片,并且使用一些技巧來加快這個流程。”他還說,Prisma的藝術(shù)濾鏡和Instagram之類的濾鏡實際上是不同的,而是在空白的畫布上生成圖像——使用了兩個數(shù)據(jù)輸入以生成最終的圖像。
由于濾鏡的數(shù)量有望增加到40個,并在戰(zhàn)略上采用了以移動為中心的方式,該公司可能是硅谷所有權(quán)貴們目光注視的焦點。Moiseenkov還表示,他們的產(chǎn)品的處理技術(shù)對于處理移動視頻場景依然足夠快。
由于Prisma已經(jīng)傳播開來,有些人抱怨說,該應(yīng)用程序可能會貶低真正的藝術(shù)家的作品,并奪走用手工制作藝術(shù)品——而不是用智能手機在幾秒鐘之內(nèi)生成畫作——的畫家的工作。
但是目前,該應(yīng)用仍然非常受歡迎,而且Moiseenkov表示,他預(yù)計其用戶群將繼續(xù)快速增長。Moiseenkov的背景是計算機科學(xué),他本人不是藝術(shù)家。但他說他長大后喜愛繪畫,而他最喜歡的藝術(shù)家是丹麥-法國印象派的Camille Pissarro。
據(jù)透露,開發(fā)人員們正在致力于將其過濾技術(shù)擴展到視頻,用一種前所未有的復(fù)雜方式進行創(chuàng)新。這位聯(lián)合創(chuàng)始人表示,他還沒有做好準(zhǔn)備透露視頻功能何時將出現(xiàn),或者它具體有什么樣的功能,但是他表示,他估計這一功能將非常受歡迎,并且也希望最終將這種技術(shù)擴展到虛擬現(xiàn)實。
這是其一。
下一步計劃——進軍B2B領(lǐng)域
近期,這家創(chuàng)業(yè)企業(yè)將焦點轉(zhuǎn)移到B2B領(lǐng)域,為開發(fā)人員構(gòu)建工具,利用其使用神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)技術(shù)的專業(yè)知識,為移動設(shè)備提供視覺效果。后來還推出了一個新的網(wǎng)站,Prismalabs.ai,詳細介紹了這款新產(chǎn)品。
Prisma的聯(lián)合創(chuàng)始人表示,他們最初打算為希望給自己的應(yīng)用程序增加風(fēng)格轉(zhuǎn)換和自拍鏡頭等效果的開發(fā)人員提供一個SDK——就像他們發(fā)布的那款A(yù)PI一樣。
同時,他們也計劃為希望將代碼移植到移動端的開發(fā)者提供另一種服務(wù)。畢竟,這是該團隊共同創(chuàng)始人們最初提出的關(guān)于Prisma應(yīng)用程序的想法——在桌面計算機上實現(xiàn)一種風(fēng)格轉(zhuǎn)換(緩慢的)效果,并且意識到如果它可以以近乎實時的速度在手機上工作,能夠有多么巨大的潛力。
Moiseenkov在談到Prisma實驗室接下來的工作時表示:“當(dāng)你有一個想法并想付諸實施的時候,例如,風(fēng)格轉(zhuǎn)換或?qū)ο笞R別或者是類似于面罩之類的什么東西……又或者是圖片分享鏡頭,第一個計劃已經(jīng)準(zhǔn)備好了解決方案。”他表示,“如果你需要這種能力,我們可以為你提供SDK,你可以在你的應(yīng)用程序中使用它。”
聯(lián)合創(chuàng)始人Aram Airapetyan舉了一個例子來說明他們的人工智能圖像分割技術(shù)可以如何用于——比如說Skype的用戶在視頻通話期間按下按鈕來更改或刪除背景。(這并不一定會發(fā)生。)
Moiseenkov認為,更強大的硬件和來自移動平臺的積極鼓勵推動了增強現(xiàn)實在智能手機上的發(fā)展浪潮,這可能會推動對Prisma效果的需求增長,他們能夠通過API或SDK提供對象跟蹤以及面部跟蹤。
他繼續(xù)表示,“B2B產(chǎn)品的第二原因是因為我們覺得在許多公司中,開發(fā)人員正在努力地將技術(shù)移植到移動領(lǐng)域。”他表示,“而且我們認為我們可以為他們提供我們自己內(nèi)部使用的解決方案 ——我們在內(nèi)部有……一個平臺,它可以幫助我們實驗我們的研究和生產(chǎn)的大量演示應(yīng)用程序,供內(nèi)部使用以及挑選適當(dāng)?shù)膽?yīng)用。”
他們表示他們已經(jīng)通過“一些非常大的公司”來測試開發(fā)人員工具,但是沒有透露具體有哪些大公司。Moiseenkov補充表示:“我們想要探索計算機視覺(CV)領(lǐng)域,并幫助企業(yè)利用人工智能提供更偉大的用戶體驗,幫助人們更輕松地溝通,完成他們的任務(wù)。”
“我們覺得人工智能可以幫助很多公司極大地改善用戶體驗。相機,利用圖像工作,過濾,去噪,很多不同的事情都可能會發(fā)生——這很酷。我覺得它可以提高App Store和Google Play中應(yīng)用程序的整體質(zhì)量。”
上個夏天,能夠拍攝出美術(shù)作品的Prisma的消費者應(yīng)用程序非常流行,為智能手機用戶提供了將標(biāo)準(zhǔn)智能手機照片輕松快捷地變成不同圖形風(fēng)格的轉(zhuǎn)換能力,以創(chuàng)建一個模仿特定藝術(shù)作品或者圖形效果的圖片。該應(yīng)用程序的效果并不是通過對照片使用濾鏡,而是通過利用神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)來處理原始照片并將其轉(zhuǎn)化為所選的樣式——結(jié)合兩個輸入源生成新的圖像。
截至目前,Prisma吸引了像Facebook這樣的平臺巨頭的關(guān)注,這些巨頭們也很快推出了自己的風(fēng)格轉(zhuǎn)移功能——希望能夠阻止這個應(yīng)用程序的發(fā)展勢頭。然后,該團隊嘗試在風(fēng)格轉(zhuǎn)換工具中添加社交元素,看看他們是否可以將Prisma轉(zhuǎn)化為社交平臺——但是,由于Facebook和微信等巨頭在消費者社交/消息領(lǐng)域的主導(dǎo)地位,這個希望看起來非常渺茫。
對于Prisma來說,進軍B2B的做法看起來是更為可靠的戰(zhàn)略步驟,將該團隊定位成為開發(fā)人員提供加速打磨他們應(yīng)用程序功能集/UX的方法,銷售這些借助人工智能的視覺效果專業(yè)知識的B2B服務(wù)。
所以雖然Prisma正在改變其獲利策略(它表示,有可能是基于使用的視覺效果SDK;也有可能是針對平臺的授權(quán)模式),它的消費者應(yīng)用程序并不會消失。事實上,他們現(xiàn)在的測試地點和展廳都擴大了一倍,用于展示他們的技術(shù)能夠為其他開發(fā)人員做什么。
Moiseenkov表示,“自今年年初以來,我們一直在考慮探索如何才能有效賺錢的機會,我們決定去幫助企業(yè)在更多面向消費者的應(yīng)用上使用計算機視覺或人工智能。”
“我們專注于效果;手機攝像頭的視頻效果……我們覺得對于像我們這樣的公司來說,這是一個非常豐饒的區(qū)域。而且我們也感覺到,隨著我們的應(yīng)用程序進入市場,我們可以與不同的技術(shù)進行實驗,而這種匹配對賺錢來說非常有用。”
Airapetyan補充表示:“我們有一個非常強大的研發(fā)團隊。” 他表示,“我們有很多人正在研究和調(diào)查我們可以為不同的技術(shù)和基于人工智能的產(chǎn)品做什么,所以我們這段時間一直在研究這些技術(shù)。”
該團隊于7月份推出了第二個消費者應(yīng)用程序:一個名為Sticky的貼紙制作軟件,它使用人工智能算法來快速切割自拍照,因此可以輕松地將它們變成彩色貼紙。
他們表示,這兩個應(yīng)用程序目前都有500萬至1000萬 MAU(月活躍用戶)以及大約50萬 DAU (日活躍用戶)——Airapetyan對用戶群的描述是“非常穩(wěn)定”。
Prisma自己的團隊大約有25人左右,分布在灣區(qū)和莫斯科的辦公室。不過他們表示該團隊也在考慮在中國設(shè)立一個辦公室——因為看到在這樣一個大型的應(yīng)用程序生態(tài)系統(tǒng)中銷售人工智能相關(guān)服務(wù)的“巨大”潛力。
該團隊以前已經(jīng)獲得了種子資金,盡管它從未透露過具體金額。Crunchbase表示,其種子投資者包括 Gagarin Capital Partners、Haxus和Nikolai Oreshkin。(值得注意的是,Haxus也是谷歌最近收購的計算機視覺應(yīng)用程序Fabby的投資者。)
Moiseenkov表示,Prisma自從去年年底以來沒有獲得任何資金,目前也并不希望募集資金——他補充表示,他們希望先看看這次B2B的嘗試效果如何。
在B2B領(lǐng)域的計算機視覺/人工智能工具的競爭中,他指出亞洲的幾家大公司提供了類似的服務(wù),例如Face++。他還將Clarifai列為提供圖像識別的另一競爭對手,同樣是競爭對手的還有谷歌的圖像處理API——不過他聲稱和Prisma 的計劃相比,谷歌不會為開發(fā)人員提供太多選擇。
Airapetyan補充表示:“我們正在致力于非常非常廣泛的基于人工智能的技術(shù)。”
好文章,需要你的鼓勵
浙江大學(xué)團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實驗顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓(xùn)練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團隊發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學(xué)習(xí)方法訓(xùn)練多個AI模型。實驗結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達到49.6%準(zhǔn)確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。