Fraunhofer IIS在音頻編解碼領(lǐng)域擁有超過25年的經(jīng)驗(yàn),先后發(fā)明了MP3格式和AAC技術(shù),現(xiàn)如今很多的技術(shù)也應(yīng)用在許多不同的場(chǎng)景當(dāng)中。目前致力于研發(fā)兩大塊技術(shù):第一是xHE-AAC和MPEG H的音頻解碼,xHE-AAC是下一代廣播電視將會(huì)主要使用的編解碼;第二個(gè)是EVS(增強(qiáng)語音服務(wù)),將主要應(yīng)用于4G LTE領(lǐng)域。目前,有超過1000家公司在使用Fraunhofer IIS的授權(quán)許可軟件,全球超過70億臺(tái)的設(shè)備部署了HE-AAC。
AAC系列編解碼
Fraunhofer先后研發(fā)了MP3格式、能夠提高編碼效率的AAC技術(shù)以及其組件、目前最流行的也是幾乎在每部手機(jī)中都配備的HE-AAC技術(shù)。此外,AAC-ELD是主要應(yīng)用在通信領(lǐng)域,能夠?qū)崿F(xiàn)雙向低延遲通信的技術(shù)。目前,應(yīng)用于4G LTE電信通信的技術(shù)也正在研發(fā)中。
Fraunhofer音頻技術(shù)最大的特征是向后兼容。如果企業(yè)使用了最新的解碼器xHE-AAC,那么之前所有的技術(shù)均能夠使用。一些主流的電視臺(tái),比如BBC、NHK、新加坡的MediaCorp都使用了這一技術(shù)。
目前諸如廣播電視、IP網(wǎng)絡(luò)和移動(dòng)網(wǎng)絡(luò)的技術(shù)都在不斷融合的過程中,也與很多標(biāo)準(zhǔn)組織進(jìn)行合作,比如:歐洲智能電視標(biāo)準(zhǔn)HbbTV,網(wǎng)絡(luò)標(biāo)準(zhǔn)DASH,以及為好萊塢影院提供在線語音播放標(biāo)準(zhǔn)Ultra violet。HE-AAC技術(shù)是以上標(biāo)準(zhǔn)的必選技術(shù)。幾乎所有的主流媒體、廣播電視設(shè)備及服務(wù)廠商均支持HE-AAC多聲道,與此同時(shí),越來越多的服務(wù)供應(yīng)方也在使用HE-AAC的技術(shù),HE-AAC被廣泛應(yīng)用于全球最受歡迎的流媒體服務(wù)中。
下一代廣播電視
下一代廣播電視的話題在包括中國(guó)、歐洲、美國(guó)、日本在內(nèi)的國(guó)家都在進(jìn)行熱烈的討論。所以基于這樣一個(gè)背景,也產(chǎn)生了一個(gè)新的機(jī)構(gòu)——FOBTV。來自于全世界各地的會(huì)員都集中于此,共同探討未來廣播電視標(biāo)準(zhǔn)的發(fā)展。Fraunhofer希望未來電視系統(tǒng)能夠?qū)崿F(xiàn)全球化的兼容,但這并不意味著全世界各地的電視標(biāo)準(zhǔn)全是一樣的,而是能夠開發(fā)出一個(gè)更為靈活的系統(tǒng),來更好地滿足各地方的標(biāo)準(zhǔn),但與此同時(shí)又能夠相互兼容。值得一提的是,這個(gè)機(jī)構(gòu)的技術(shù)委員會(huì)的主席是一名中國(guó)人,來自上海交通大學(xué)的張文軍教授。
Fraunhofer Cingo
這個(gè)產(chǎn)品的理念是希望能夠在移動(dòng)設(shè)備當(dāng)中為客戶提供環(huán)繞音效。這是一個(gè)非常重要的技術(shù)進(jìn)步,一般來說高品質(zhì)的音效都需要在非常理想的音樂環(huán)境下才能得以實(shí)現(xiàn)。但隨著技術(shù)的進(jìn)步,目前有越來越多的用戶會(huì)在小型設(shè)備上,比如平板電腦或手機(jī)中欣賞音樂或觀看電影。
而這項(xiàng)技術(shù)就能夠滿足用戶即使在小型設(shè)備中也能獲得優(yōu)質(zhì)的聽覺體驗(yàn)。雖然人類只有兩只耳朵,但也能夠聽到各種環(huán)繞聲音效,并且能夠非常清晰地分辨聲音來自于前面、后面或者是上面、下面。所以Fraunhofer認(rèn)為,人的兩個(gè)耳朵能夠?qū)崿F(xiàn)這些效果的話,如果有兩個(gè)揚(yáng)聲器,應(yīng)該也能夠?qū)崿F(xiàn)這種環(huán)繞音效的效果。目前這項(xiàng)技術(shù)能夠?qū)崿F(xiàn)一種虛擬的環(huán)繞音效效果,即使只有兩個(gè)揚(yáng)聲器也可以。谷歌已經(jīng)將這項(xiàng)技術(shù)嵌入到他們的設(shè)備當(dāng)中去,所以現(xiàn)在Google Play里面,你下載一個(gè)音頻便可以享受5.1聲道音效的影音效果。
對(duì)白增強(qiáng)技術(shù)——掌控音頻平衡
為了讓電視和廣播聽眾能夠擁有音頻的掌控權(quán),F(xiàn)raunhofer研發(fā)了對(duì)白增強(qiáng)技術(shù)。這項(xiàng)備受贊譽(yù)的技術(shù)幫助廣播電視領(lǐng)域克服了一個(gè)長(zhǎng)期困擾的問題,即觀眾依照個(gè)人需求來改變環(huán)境音和對(duì)白之間的平衡。Fraunhofer在2013年IBC期間攜手Thomson Video Networks演示了對(duì)白增強(qiáng)技術(shù)在實(shí)時(shí)數(shù)字視頻廣播(DVB)鏈中的應(yīng)用。此外,在2011年的溫布爾登網(wǎng)球錦標(biāo)賽期間,F(xiàn)raunhofer IIS與BBC共同針對(duì)對(duì)白增強(qiáng)技術(shù)的可用性進(jìn)行了用戶體驗(yàn)反饋實(shí)驗(yàn)。
對(duì)白增強(qiáng)技術(shù)正在完成DVB標(biāo)準(zhǔn)化的進(jìn)程中,因此這項(xiàng)技術(shù)能夠應(yīng)用于基于DVB標(biāo)準(zhǔn)(如DVB-T2)的傳輸系統(tǒng)中。
對(duì)白增強(qiáng)技術(shù)是HE-AAC編解碼器的理想補(bǔ)充。作為目前最高效的電視廣播音頻編解碼器,在英國(guó)、瑞典等大多數(shù)推出了第二代地面電視的國(guó)家,HE-AAC都是指定的音頻編解碼器。此外,HE-AAC還是 HbbTV(Hybrid Broadcast Broadband TV,混合廣播寬帶電視)指定的音頻編解碼器。
Fraunhofer IIS在中國(guó)
Fraunhofer幾乎在和中國(guó)所有的移動(dòng)運(yùn)營(yíng)商進(jìn)行溝通,希望他們將HE-AAC技術(shù)應(yīng)用在更多的應(yīng)用場(chǎng)景當(dāng)中,比如VoIP、VoLTE等技術(shù)在音樂和在移動(dòng)設(shè)備領(lǐng)域的應(yīng)用。此外還與中小企業(yè)的合作。對(duì)于Fraunhofer來說,最為重要的一點(diǎn)就是幫助中國(guó)制造商以正確的方式來實(shí)施我們的技術(shù),以使得他們?cè)谌蚍秶鷥?nèi)保持競(jìng)爭(zhēng)優(yōu)勢(shì)。就在昨天,F(xiàn)raunhofer剛剛宣布了一項(xiàng)與香港公司的合作項(xiàng)目,為客戶提供測(cè)試套件,以保證他們的測(cè)試能夠滿足各個(gè)不同市場(chǎng)的需要。中國(guó)的客戶希望按照Fraunhofer的標(biāo)準(zhǔn)做測(cè)試,并由Fraunhofer提供認(rèn)證。目前,從歐洲、新加坡、馬來西亞等國(guó)家進(jìn)口的廣電設(shè)備必須得到Fraunhofer的相關(guān)認(rèn)證才得以進(jìn)口。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對(duì)弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。