視頻化已是各行業(yè)大勢所趨,激發(fā)出多元化需求。面臨機遇與挑戰(zhàn),快手StreamLake專注于成為視頻化升級助推器,推出視頻化升級全鏈路解決方案。近期,快手StreamLake亮相LiveVideoStackCon 2022北京站,展示了一站式音視頻+AI解決方案。
快手高級副總裁、研發(fā)線負責(zé)人于冰在主論壇帶來《匯聚音視頻新能量,探索行業(yè)新藍?!分黝}演講,從視頻行業(yè)趨勢和痛點出發(fā),結(jié)合快手自身的探索、演進歷程,探討AIGC、編解碼和AI結(jié)合等方向,分享了技術(shù)變革和突破的新思路。演講中,于冰表示,“在激發(fā)行業(yè)增長點方向上,快手StreamLake圍繞音視頻+AI方向打造新產(chǎn)品,聚焦視頻質(zhì)量評估、PCDN、媒體傳輸協(xié)議、芯片等方向,推動新一代視頻標準核心候選算法平臺ECM的發(fā)展,助力更多客戶實現(xiàn)視頻化業(yè)務(wù)轉(zhuǎn)型與增長。”
圖:快手高級副總裁、研發(fā)線負責(zé)人于冰
活動現(xiàn)場,快手StreamLake舉辦了品牌專場。來自快手音視頻技術(shù)團隊的專家們進行了主題演講,結(jié)合行業(yè)發(fā)展最新動態(tài),聚焦極致體驗,分享了在媒體處理、媒體傳輸協(xié)議、播放器等方向上最新進展與落地應(yīng)用。
快手智能處理與編碼算法產(chǎn)品化之路
快手視頻圖像算法引擎負責(zé)人陳宇聰分享了在智能處理與編碼算法方向上的探索和應(yīng)用?;谠跇I(yè)務(wù)場景中的沉淀,他講述了如何將算法從0到1、從1到100實現(xiàn)落地應(yīng)用,通過內(nèi)部業(yè)務(wù)的積累和打磨,團隊將算法產(chǎn)品化,并結(jié)合外部客戶業(yè)務(wù)需求,加速解決方案的迭代。此外,他還分享了StreamLake轉(zhuǎn)碼產(chǎn)品的技術(shù)亮點以及在客戶合作中的應(yīng)用案例,展示了質(zhì)臻輕流、質(zhì)臻影音對于視頻化業(yè)務(wù)發(fā)展的重要性。
媒體傳輸協(xié)議的演進與未來
身處視頻大時代,視頻化需求飛速增長??焓謧鬏斔惴ㄘ撠?zé)人周超分享了在泛VoD、泛Live、泛RTC等場景中,媒體傳輸協(xié)議所面臨的挑戰(zhàn)?;诳焓諯TP、KLP、LAS等協(xié)議和標準,周超講述了團隊如何結(jié)合業(yè)務(wù)需求,在媒體傳輸上的優(yōu)化與實踐。他表示,“下一代媒體傳輸協(xié)議CMTP(Common Media Transport Protocol)具有四個特點:架構(gòu)通用、全場景、高擴展性、特性豐富,后續(xù)將逐步在業(yè)務(wù)中落地,以持續(xù)探索更多可能”。
打造音視頻極致消費體驗
長期以來,視頻方向都在追求清晰度,流暢度和互動性??焓植シ偶夹g(shù)中心負責(zé)人蒼鵬在分享中從端側(cè)播放的視角來講述消費體驗,介紹了規(guī)模龐大而設(shè)計精巧的快手點播鏈路。基于快手海量數(shù)據(jù),建立了快手音視頻大數(shù)據(jù)體系及播放數(shù)據(jù)體系與指標體系,實現(xiàn)量化度量,讓用戶體驗可視化。同時,蒼鵬還介紹了快手播放核心技術(shù)、自研內(nèi)核與優(yōu)化方案,展示了快手HDR播放、移動端超分、3D環(huán)繞音效、6DoF自由視角播放、VR全景視頻和全景直播等特色功能。目前,相關(guān)技術(shù)及產(chǎn)品能力均已對外開放,為StreamLake業(yè)務(wù)中的眾多客戶提供服務(wù)。
在音視頻硬件互動體驗區(qū),快手StreamLake專業(yè)級會議麥克風(fēng)SoundMatrix A10也進行了展示,其集成了先進的AI多通道降噪算法、AI回聲消除算法和AI混響抑制算法,為高質(zhì)量的音頻會議保駕護航。該設(shè)備由一臺主設(shè)備、2個擴展麥克風(fēng)組成,主設(shè)備配備四個高信噪比麥克風(fēng),能夠?qū)崿F(xiàn)360°全向拾音和10米超遠拾音,可以支持大中小會議室的全方位覆蓋。
作為此次快手StreamLake特邀合作伙伴,NVIDIA也在活動中分享了其在音視頻技術(shù)探索和應(yīng)用實踐的思考。在《元宇宙入局之路——新風(fēng)口,新挑戰(zhàn)》圓桌上,NVIDIA深度學(xué)習(xí)解決方案架構(gòu)師劉一鳴,以NVIDIA Omniverse為基礎(chǔ)介紹了NVIDIA在構(gòu)建元宇宙上的技術(shù)布局以及相關(guān)案例。在 “AI與多媒體” 分會場上,NVIDIA GPU計算專家團隊高級工程師張毅帶來了以《CV-CUDA:高性能圖像處理加速庫》為題的主題分享。CV-CUDA是NVIDIA攜手合作伙伴推出的計算機視覺和圖像處理管道開源庫,能高效運行在GPU上,算子速度能達到OpenCV(運行在CPU)的百倍左右。目前,CV-CUDA在例如搜索多模態(tài)、圖片分類等多個實際場景中已經(jīng)得到了應(yīng)用。
好文章,需要你的鼓勵
浙江大學(xué)團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學(xué)競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓(xùn)練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團隊發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學(xué)習(xí)方法訓(xùn)練多個AI模型。實驗結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。