8 月 18 日,2022 “視界無垠 音聚而生”網(wǎng)易音視頻技術(shù)大會在線上舉辦。會上,來自網(wǎng)易智企、網(wǎng)易云音樂、網(wǎng)易伏義、網(wǎng)易傳媒、英特爾等眾多聚焦于音視頻領(lǐng)域多年的產(chǎn)品和技術(shù)專家,共同為觀眾分享了音視頻技術(shù)的前沿創(chuàng)新與應(yīng)用實踐經(jīng)驗。
技術(shù)發(fā)展一日千里,不僅顯著改變了人們的社會生活,也深刻變革了社會生產(chǎn)方式。隨著近幾年短視頻及直播等業(yè)務(wù)的爆發(fā),人類正式邁入了音視頻的時代,加之新冠肺炎疫情的催化,許多原本可在線下完成的活動被大量遷移到線上,音視頻技術(shù)生發(fā)出了在各個行業(yè)應(yīng)用的無限可能,基于音視頻的娛樂社交、遠(yuǎn)程辦公協(xié)同、在線課堂教學(xué)、線上招聘等新場景紛紛涌現(xiàn)。
如何探尋音視頻在更多新興領(lǐng)域的新機(jī)會、新實踐,如何令技術(shù)更好地為企業(yè)所用并獲取技術(shù)更迭帶來的價值增量,成為許多從業(yè)者共同關(guān)注的問題。
作為 2022 網(wǎng)易音視頻技術(shù)大會的總出品人,網(wǎng)易智企技術(shù)VP 陳功對本次大會的內(nèi)容和亮點進(jìn)行了介紹。陳功指出,多年以來,網(wǎng)易旗下多個事業(yè)部在音視頻領(lǐng)域進(jìn)行了大量的研發(fā)投入,來自不同事業(yè)部的音視頻專家們圍繞音視頻前沿技術(shù)進(jìn)行了不斷的探索實踐、共建共享,為網(wǎng)易各個業(yè)務(wù)的產(chǎn)品創(chuàng)新推波助力,并得到了商業(yè)化的閉環(huán)驗證,而音視頻技術(shù)大會的初衷,便是將網(wǎng)易已經(jīng)驗證的、成熟的場景落地經(jīng)驗分享。此外,除了網(wǎng)易的音視頻專家,大會還專門邀請到了合作伙伴英特爾的技術(shù)大咖參與其中。
最后,陳功表示,期待以本次大會為契機(jī),與更多音視頻技術(shù)人建立交流與探討的橋梁,聽到更多音視頻技術(shù)人的獨到建議和看法,與所有從業(yè)者共同推動行業(yè)的健康持續(xù)發(fā)展。
產(chǎn)品為先,聚焦音視頻多場景實踐
在上午的產(chǎn)品專場,大會邀請到了來自網(wǎng)易智企、網(wǎng)易云音樂、網(wǎng)易傳媒、網(wǎng)易伏義等業(yè)務(wù)的產(chǎn)品專家,分享音視頻技術(shù)如何在各業(yè)務(wù)場景融合及落地。
網(wǎng)易伏羲瑤臺產(chǎn)品經(jīng)理張書超分享,元宇宙已成為數(shù)字新基建的重要組成部分,作為全國首個元宇宙落地產(chǎn)品,瑤臺通過數(shù)字化技術(shù)打破了時間和空間的限制,構(gòu)建了一個與現(xiàn)實世界并存的虛擬世界,并為用戶帶來了超越現(xiàn)實的極致觀感和沉浸互動體驗。張書超還進(jìn)一步展開了瑤臺在大型發(fā)布會、學(xué)術(shù)會議、云會展等場景的成功實踐經(jīng)驗。
網(wǎng)易云音樂 AI 音樂產(chǎn)品經(jīng)理江琳以 2020 網(wǎng)易未來大會上發(fā)布的全鏈路 AI 驅(qū)動歌曲《醒來》為切入點,為觀眾打開了 AI 音樂的細(xì)分垂直領(lǐng)域。隨著中國數(shù)字音樂市場規(guī)??焖贁U(kuò)張,音樂人群體也迅速擴(kuò)大,與之相對的是低門檻的音樂人工具缺失。網(wǎng)易云音樂展開了以技術(shù)賦能音樂內(nèi)容、以工具加速音樂創(chuàng)作能力轉(zhuǎn)化的業(yè)務(wù)探索,通過 AI 編曲、AI 作詞、一鍵 AI 寫歌等全方位的能力覆蓋,打造業(yè)界首創(chuàng)的詞曲編唱全 AI 音樂創(chuàng)作工具,讓更多音樂愛好者參與到音樂內(nèi)容創(chuàng)作中。
在全民視頻的時代,視頻理解是大勢所趨。網(wǎng)易傳媒內(nèi)容理解和質(zhì)量方向產(chǎn)品經(jīng)理吳繼美介紹,網(wǎng)易新聞同樣具備視頻理解的需求,并通過實踐不斷提高機(jī)器理解視頻的技術(shù)能力,實現(xiàn)對視頻信息從點到面的收集及精密的識別計算,最終按需輸出視頻特征的目的?;趯σ曨l理解技術(shù)的精耕細(xì)作,網(wǎng)易新聞有效保障了新聞信息的質(zhì)量和安全性,同時不斷縮減機(jī)械重復(fù)的人力工作,取得降本增效、推薦效果提升的成績。
網(wǎng)易智企云信娛樂社交行業(yè)產(chǎn)品經(jīng)理聶夏軍分享了音視頻技術(shù)在娛樂社交中的應(yīng)用。聶夏軍指出,人是社會性動物,需要通過社交建立彼此之間的聯(lián)系,而娛樂化互動方式能幫助人們更好地打破陌生人的冰冷關(guān)系。隨著音視頻技術(shù)發(fā)展,娛樂社交玩法越來越豐富,視頻直播、語音聊天、在線 K 歌、在線相親、游戲社交等都成為了常見的社交場景。在這些紛繁復(fù)雜的場景中,網(wǎng)易云信音視頻技術(shù)提供了可靠支撐,如:在語音聊天中消除噪音,提供最純凈的語聊環(huán)境;在線 K 歌時消除回聲,確保良好的 K 歌體驗;3D 空間音效技術(shù)為游戲用戶帶來了“聲音方向感”;智碼超清技術(shù)在實現(xiàn)更高畫質(zhì)的同時節(jié)省更多碼率……此外,網(wǎng)易云信音視頻技術(shù)還面向不同國家的復(fù)雜網(wǎng)絡(luò)和低端機(jī)型進(jìn)行了特殊優(yōu)化,能幫助國內(nèi)企業(yè)在海外市場的角逐中占得先機(jī)。
技術(shù)奠基,夯實音視頻創(chuàng)新沃土
下午場為技術(shù)專場,邀請了來自網(wǎng)易智企、網(wǎng)易云音樂、網(wǎng)易傳媒、網(wǎng)易伏義等業(yè)務(wù)的技術(shù)專家,分享前沿的技術(shù)創(chuàng)新成果。值得一提的是,大會還首次邀請到了來自合作伙伴英特爾的技術(shù)專家前來“做客”。
網(wǎng)易伏羲虛擬交互技術(shù)負(fù)責(zé)人畢夢霄介紹了元宇宙的虛擬場景和虛擬角色兩大基礎(chǔ)設(shè)施。其中,網(wǎng)易瑤臺解決了虛擬場景的問題,用戶可以通過瑤臺“前往”任何想去的地方。而在虛擬角色方面,畢夢霄詳細(xì)分享了網(wǎng)易伏羲在虛擬角色創(chuàng)建和虛擬角色驅(qū)動上的技術(shù)實踐,包括視覺形象創(chuàng)建、語音形象創(chuàng)建、語音合成、表情合成、動作合成、歌聲合成、舞蹈合成等環(huán)節(jié)。
網(wǎng)易云音樂音頻算法專家李鵬則講述了如何從 0 到 1 搭建高質(zhì)量歌聲合成系統(tǒng)。李鵬介紹,歌聲合成是通過輸入歌詞和旋律進(jìn)而合成演唱干聲的過程,目前已經(jīng)具備很多的應(yīng)用和創(chuàng)新玩法,并重點從數(shù)據(jù)構(gòu)建、模型設(shè)計、細(xì)節(jié)處理三個方面詳細(xì)介紹了高質(zhì)量歌聲合成系統(tǒng)研發(fā)的全流程。結(jié)合業(yè)務(wù)訴求,歌聲合成的未來探索方向?qū)男颖疽羯ㄖ?、演唱技巧調(diào)教、AI 輔助音樂創(chuàng)作等方面展開。
網(wǎng)易傳媒推薦中心多模態(tài)理解技術(shù)負(fù)責(zé)人趙棟表示,音視頻技術(shù)已從數(shù)據(jù)層、算法層、業(yè)務(wù)層全面貫穿應(yīng)用于網(wǎng)易新聞。趙棟從多模態(tài)理解視頻類別和標(biāo)簽、多維度內(nèi)容理解視頻封面選取、視覺相似特征、圖像和視頻增強(qiáng)等方面具體闡釋了音視頻技術(shù)如何為網(wǎng)易新聞的用戶使用時長、用戶體驗、人均互動 PV 增長帶來價值。
網(wǎng)易智企云信視頻編解碼算法專家苗晉偉分享,當(dāng)前視頻行業(yè)正處于高速增長期,其中超高清視頻在其中扮演了重要的角色,根據(jù)權(quán)威機(jī)構(gòu)預(yù)測,2022 年超高清視頻產(chǎn)業(yè)市場規(guī)模將有望達(dá)到 4 萬億。然而,隨著視頻分辨率不斷提高,其在網(wǎng)絡(luò)傳輸中的帶寬成本也越來越大,市場迫切需要一項既能保證視頻分辨率又能有效控制帶寬成本的極致壓縮技術(shù)。網(wǎng)易云信推出的智碼超清技術(shù)很好地兼顧了上述兩大問題,并在視頻超分、編碼技術(shù)等方面達(dá)到行業(yè)領(lǐng)先水平,讓用戶在同等碼率下盡享更加極致、更高質(zhì)量的超高清視覺體驗。
英特爾中國行業(yè)解決方案事業(yè)部互聯(lián)網(wǎng)技術(shù)專家張立宇分享了基于英特爾技術(shù)的端到端音視頻優(yōu)化經(jīng)驗。張立宇表示,當(dāng)前數(shù)字經(jīng)濟(jì)與實體經(jīng)濟(jì)正在加速融合,成為中國經(jīng)濟(jì)發(fā)展的新引擎,在這過程中,音視頻技術(shù)的應(yīng)用日漸廣泛,價值愈加凸顯,甚至已成為了互聯(lián)網(wǎng)“水電煤”一般不可或缺的基礎(chǔ)設(shè)施之一。與此同時,隨著直播、游戲、電商、VR 等典型場景的普及,用戶對視頻的需求和體驗要求越來越高。為此,英特爾通過一系列先進(jìn)產(chǎn)品與技術(shù)方案提供和優(yōu)化算力、存儲、網(wǎng)絡(luò)和軟件能力,以靈活可擴(kuò)展的生態(tài)和各類成熟的解決方案,橫跨從基礎(chǔ)硬件到上層應(yīng)用的全部產(chǎn)品,以及從數(shù)據(jù)采集、預(yù)處理、編碼、數(shù)據(jù)傳輸、分析解碼、分發(fā)的全鏈路過程,利用英特爾全棧技術(shù)提升優(yōu)化音視頻處理能力,在保證品質(zhì)的同時提升效率,幫助客戶應(yīng)對不同場景下的差異化需求,并為用戶提供更好的體驗。
本次大會,來自音視頻各個細(xì)分領(lǐng)域?qū)<覀兊木史窒?,為行業(yè)發(fā)展提供了新的思考和見解,也為行業(yè)實踐提供了切實可行的落地方案,讓音視頻的技術(shù)沃土長出更繁茂的枝葉,為其帶來更長久的繁榮。
好文章,需要你的鼓勵
這項研究提出了"高效探測"方法,解決了掩碼圖像建模AI難以有效評估的問題。通過創(chuàng)新的多查詢交叉注意力機(jī)制,該方法在減少90%參數(shù)的同時實現(xiàn)10倍速度提升,在七個基準(zhǔn)測試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強(qiáng)相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊承諾開源全部代碼,推動技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊開發(fā)了CLAIMSPECT系統(tǒng),通過層次化分解復(fù)雜爭議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動構(gòu)建爭議話題的分析框架,識別不同觀點及其支撐證據(jù),為科學(xué)和政治爭議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國際關(guān)系領(lǐng)域驗證有效性。
清華大學(xué)研究團(tuán)隊首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類一樣理解和表達(dá)情感。該系統(tǒng)通過多層次情感處理架構(gòu),在情感識別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實現(xiàn)了跨模態(tài)情感融合、動態(tài)情感追蹤和個性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊通過創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會復(fù)雜推理。研究發(fā)現(xiàn)AI通過游戲競爭能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項突破性成果為未來AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過模擬人類學(xué)習(xí)過程培養(yǎng)真正智能AI的新路徑。