今年的政府工作報(bào)告提出,提高科技創(chuàng)新支撐能力。穩(wěn)定支持基礎(chǔ)研究和應(yīng)用基礎(chǔ)研究,引導(dǎo)企業(yè)增加研發(fā)投入。兩會(huì)期間,提高科技創(chuàng)新支撐能力、加速人工智能應(yīng)用落地成為代表熱議的話題。
全國(guó)人大代表丁國(guó)林為人工智能進(jìn)言獻(xiàn)策:“我們要增強(qiáng)緊迫感和使命感,推動(dòng)關(guān)鍵核心技術(shù)自主創(chuàng)新突破,以互聯(lián)網(wǎng)思維探索人工智能技術(shù)轉(zhuǎn)化運(yùn)用,用主流價(jià)值導(dǎo)向駕馭‘算法’,。”
丁國(guó)林表示:“為適應(yīng)信息主體視聽化、網(wǎng)絡(luò)視頻爆發(fā)期大勢(shì),要更加有力推動(dòng)AI影像技術(shù)的應(yīng)用,更加精準(zhǔn)促進(jìn)媒體融合轉(zhuǎn)型,更加迅速占領(lǐng)信息傳播制高點(diǎn),一是大力扶持相關(guān)技術(shù)企業(yè),出臺(tái)針對(duì)性減稅降費(fèi)政策;二是積極開放應(yīng)用場(chǎng)景空間,合力做強(qiáng)媒體融合國(guó)家戰(zhàn)略;三是成立產(chǎn)學(xué)研一體聯(lián)盟,共同推動(dòng)技術(shù)進(jìn)步和業(yè)務(wù)應(yīng)用。”
隨著5G技術(shù)的大規(guī)模商用,視頻流量將呈指數(shù)級(jí)增長(zhǎng),視頻化表達(dá)已是大勢(shì)所趨。但當(dāng)前,我國(guó)媒體轉(zhuǎn)型與發(fā)展正面臨著發(fā)展瓶頸,主要表現(xiàn)在:低效率的視頻生產(chǎn)方式制約了傳統(tǒng)媒體向融媒體、智媒體轉(zhuǎn)型;海量化的視頻生產(chǎn)規(guī)模使內(nèi)容審核更加復(fù)雜困難。
丁國(guó)林認(rèn)為,AI 影像技術(shù)的賦能加持可以有效解決傳統(tǒng)媒體發(fā)展瓶頸,也是實(shí)現(xiàn)媒體融合發(fā)展戰(zhàn)略的必由之路。
目前,AI影像技術(shù)對(duì)于媒體融合潛力巨大、前景廣闊,主要作用有5個(gè)方面:一是自動(dòng)化生產(chǎn),融合多模態(tài)圖像識(shí)別、情感語境、關(guān)鍵幀捕捉等關(guān)鍵技術(shù),自動(dòng)化生產(chǎn)全新視頻,極大縮短工時(shí)、降低成本;二是智能化識(shí)別,基于數(shù)據(jù)快速處理、視頻智能識(shí)別,有效解決鏡頭提取準(zhǔn)確率不高、類型識(shí)別不準(zhǔn)、通用性差等問題;三是數(shù)據(jù)化挖掘,通過人工智能技術(shù),盤活持續(xù)性海量視頻資料,使其可搜索可隨需提取,實(shí)現(xiàn)價(jià)值最大化;四是結(jié)構(gòu)化服務(wù),提供精確到幀的自動(dòng)化視頻結(jié)構(gòu)化服務(wù),實(shí)現(xiàn)視頻、圖片、聲音等內(nèi)容自動(dòng)合規(guī)性審核;五是個(gè)性化推送,分析理解觀眾興趣偏好,視頻輸出從常規(guī)單向輸出變?yōu)榘葱枨筝敵?,更加貼合觀眾需求。
實(shí)際上,國(guó)內(nèi)已經(jīng)有企業(yè)正在利用AI影像技術(shù)服務(wù)于國(guó)家的“媒體融合”戰(zhàn)略。作為國(guó)內(nèi)典型的智能影像技術(shù)系統(tǒng)的開發(fā)者及提倡者,影譜科技(Moviebook)的智能影像系列方案可支持大批量數(shù)字內(nèi)容視頻化,融合多模態(tài)圖像識(shí)別、情感語境、關(guān)鍵幀捕捉等關(guān)鍵技術(shù),實(shí)現(xiàn)影像生產(chǎn)過程的自動(dòng)化,提升視頻生產(chǎn)效率,降低生產(chǎn)成本,在文娛、媒體、科教等行業(yè)得到大規(guī)模商用,并使影譜科技邁入中國(guó)計(jì)算機(jī)視覺市場(chǎng)第一陣營(yíng)。
影譜科技創(chuàng)始人姬曉晨表示,“影像內(nèi)容將是繼文字、圖片之后的主要信息載體,隨著信息視頻化提速,影像內(nèi)容產(chǎn)制播將進(jìn)一步向個(gè)性化和智能化演進(jìn),智能影像與機(jī)器影像并存。智能影像技術(shù)在流媒體領(lǐng)域的充分應(yīng)用將推動(dòng)‘個(gè)性化和互動(dòng)性的智能內(nèi)容將成為重要組成部分’,并已達(dá)到大規(guī)模應(yīng)用的臨界點(diǎn)”。
據(jù)悉,影譜科技開發(fā)了一套AI生成無限視頻內(nèi)容的技術(shù)引擎AGC,該技術(shù)可基于用戶的喜好及技術(shù)應(yīng)用者的需求自動(dòng)生產(chǎn)符合場(chǎng)景需求的短視頻、視頻內(nèi)片段、虛擬主持人等AI智能影像。該技術(shù)在很大程度上緩解了高質(zhì)量?jī)?nèi)容生產(chǎn)力不足的情況。與單一業(yè)務(wù)流應(yīng)用略有不同,Moviebook影譜科技聚焦于從內(nèi)容創(chuàng)建到分發(fā),形成以元數(shù)據(jù)為基本單位的一站式智能影像技術(shù)服務(wù)。面向傳媒企業(yè)提供包括批量化創(chuàng)建智能影像、視頻資產(chǎn)管理與分析、智能影像運(yùn)營(yíng)、再到智能視頻商業(yè)化的全過程。
AI影像技術(shù)已成為人工智能在媒體領(lǐng)域的應(yīng)用標(biāo)桿之一,不僅能創(chuàng)建及優(yōu)化內(nèi)容本質(zhì),它還可以在定義“技術(shù)如何快速落地”方面發(fā)揮重要作用。除此之外,智能影像技術(shù)仍然充滿了各種可能性。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。