CNET科技行者 9月20日 特別報道(文/周雅):小米、vivo、蘋果新機幾乎同期撲面而來,讓業(yè)界嗅到智能手機的一個熱點:“人臉識別”——小米Note 3、vivo V7+、iPhone X都支持刷臉解鎖,另外一個熱點是“全面屏”,然而智能手機蓄勢待發(fā)的技術(shù)何其多:機器智能、千兆級LTE、2X2雙通路Wi-Fi、射頻前端、快充等等(如下圖)讓人猝不及防,為了搞清楚這些炫酷的招數(shù),我們采訪了高通工程技術(shù)副總裁ChienChung (CC) Chang,梳理出智能手機之4件熱門技術(shù)。
圖:高通持續(xù)深耕智能手機的技術(shù)研發(fā)
3D傳感器技術(shù)的重要性在于它可以表現(xiàn)出很多2D無法表達(dá)的東西。通俗點說,當(dāng)人臉識別那幾秒,3D能感應(yīng)到人臉輪廓中凹凸不平的部位,比如眼睛是凹進(jìn)去的,耳朵是凸出來的,但如果是2D,這些器官都會顯示在同一平面中。
人臉識別的第一步,需要3D成像——結(jié)構(gòu)光模組負(fù)責(zé)采集深度數(shù)據(jù)、與攝像頭接收的2D影像數(shù)據(jù)整合,從而形成完整的3D影像。這顯然要求多個模組(結(jié)構(gòu)光發(fā)射端、結(jié)構(gòu)光接收端、前攝像頭等)有團(tuán)隊協(xié)作精神。
而高通在這一領(lǐng)域耕耘多年,高通第二代Spectra ISP支持人臉識別技術(shù)和3D深度感知技術(shù)。在3D深度感知方案上,高通采用面向計算機視覺、圖像質(zhì)量和功效提升而設(shè)計的全新攝像頭架構(gòu),以完成密集的深度圖生成、圖像分割等各種智能視覺應(yīng)用。
圖解高通3D深度傳感器,利用紅外線接受三維深度數(shù)據(jù),形成高分辨率的深度數(shù)據(jù),可以準(zhǔn)確識別人臉,即使在低光環(huán)境下也能進(jìn)行三維重建
高通與奇景光電同時還在加快推進(jìn)SLiM(結(jié)構(gòu)光模組)3D解決方案,可以為廠商提供完整的3D攝像頭模組和技術(shù)。除了手機之外,汽車、無人機、監(jiān)視器等產(chǎn)品也都會廣泛使用這個技術(shù)。
有消息稱,SLiM的3D攝像頭模組方案將會在明年1月份量產(chǎn),而搭載它的安卓手機也會在明年Q1亮相。
ChienChung (CC) Chang延伸介紹了高通3D深度傳感器技術(shù)的其他應(yīng)用(如下圖)。第一個應(yīng)用是將單反相機的景深感測功能遷移到手機上,可以將鏡頭聚焦某一個人,背景虛化,呈現(xiàn)出一種單反拍人的效果;還有一個應(yīng)用是VR的感測避障功能,如果戴上VR眼鏡的你周遭環(huán)境很黑暗,VR眼鏡內(nèi)置的3D傳感器可以幫你感測四周障礙物,以免磕傷撞傷。
H.265編碼是4K視頻的好幫手
通常我們看網(wǎng)絡(luò)視頻,流量會跑得很快,保存視頻也會占用大量存儲,這是因為視頻未被壓縮、占用帶寬的緣故。ChienChung (CC) Chang告訴我們,假如一段每秒30幀的高清視頻未經(jīng)過壓縮,那么每秒約使用10億比特(帶寬單位),而壓縮之后,每秒可以降低到2000萬比特。結(jié)論就是,壓縮技術(shù)可以將視頻的大小縮減到原有版本的1/50。
國際上有許多視頻壓縮的標(biāo)準(zhǔn),最新的一項標(biāo)準(zhǔn)是H.265高效率視頻編碼(High Efficiency Video Coding,簡稱HEVC),由ITU-T視頻編碼專家組與ISO/IEC動態(tài)圖像專家組聯(lián)合成立的視頻編碼聯(lián)合協(xié)作組(JCT-VC)在2013年建立,很多公司參與建立了這一標(biāo)準(zhǔn),高通也參與其中。
圖:HEVC驅(qū)動多媒體消費革命,有益于OEM廠商、視頻供應(yīng)商、內(nèi)容創(chuàng)作者
H.265 標(biāo)準(zhǔn)被認(rèn)為不僅提升視頻質(zhì)量、縮減帶寬成本,還能達(dá)到上一代 H.264/MPEG-4 AVC 兩倍之壓縮率——等于同樣畫質(zhì)下,比特率減少了50%,存儲大小相同的條件下,使用H.264只能錄2個小時的視頻,H.265則可以錄4個小時。H.265 還能支持 4K 甚至超高清電視(UHDTV),最高分辨率可達(dá) 8192×4320(8K 分辨率)。
隨著手機、電腦、相機、電視的攝像頭、視頻解析度逐漸往越來越高分辨率發(fā)展,H.265編碼迎來了風(fēng)口。“高通是H.265標(biāo)準(zhǔn)的主要支持者和開發(fā)者,其中多項技術(shù)都是由高通團(tuán)隊負(fù)責(zé)研發(fā)的。”ChienChung (CC) Chang介紹。
高通正致力于推動中國主要的視頻供應(yīng)商和內(nèi)容制造者使用H.265標(biāo)準(zhǔn),意味著國內(nèi)的視頻壓縮技術(shù)水平能再向前邁進(jìn)一步。而在國外,隨著蘋果最新一代手機和電視使用H.265標(biāo)準(zhǔn),包括安卓手機在內(nèi)的其他手機制造商,以及包括Netflix和YouTube在內(nèi)的視頻內(nèi)容供應(yīng)商,都會迅速跟上這股潮流。
談完視頻,音頻自然必不可少,然而不論什么場景,音頻質(zhì)量最重要的一點是令人感到身臨其境的“臨場感”。聲音的臨場感不只來自于周圍360度的環(huán)境,也來自四面八方,這些來源構(gòu)成了立體的三維空間,只有當(dāng)聲音以一種三維立體環(huán)繞的方式傳入耳朵時,人們才會產(chǎn)生臨場感。
在這個過程中,如何通過麥克風(fēng)收集三維空間中的音頻信息,經(jīng)過壓縮后再傳輸?shù)搅硪贿?,并不比視頻壓縮技術(shù)簡單。
高通研發(fā)出一項技術(shù)叫HOA(Higher Order Ambisonics,高階高保真立體聲)。在實際操作中,它虛擬設(shè)置了一個360度的球狀麥克風(fēng),麥克風(fēng)搜集不同方向的聲音,經(jīng)由一個虛擬的數(shù)學(xué)函數(shù)值對聲音進(jìn)行加權(quán),再把函數(shù)的加成值進(jìn)行壓縮,最后傳輸出去。所以,這個音頻文件可以利用很低的頻段傳輸。這是HOA的基本功能。
更重要的功能在于,經(jīng)過壓縮的聲音可以通過HOA技術(shù)在不同的環(huán)境里播放。例如,電視機只有兩個喇叭,汽車上有很多喇叭,而會議廳和音樂廳里有更多喇叭。有了HOA技術(shù),無論設(shè)備有多少個喇叭,都可以根據(jù)喇叭向四面八方播放,讓人產(chǎn)生身臨其境的感覺。
圖:HOA(Higher Order Ambisonics,高階高保真立體聲),沉浸式音頻的新標(biāo)準(zhǔn)
也就是說,假如你身處音樂廳,無論坐在什么位置,聽的聲音都是一樣,都能感受到與收音最好的位置一樣的臨場感。該技術(shù)將來也能適用于VR眼鏡,即使觀眾不在現(xiàn)場,也不影響試聽享受。
超聲波指紋識別大行其道
指紋識別雖是如今手機的標(biāo)配,仍然有優(yōu)勝劣汰之分。ChienChung (CC) Chang說,目前智能手機大多使用電容式指紋識別,存在局限性:碰到手過于潮濕、不太干凈、抹完護(hù)手霜等情況,指紋識別的效果會變差。
在上一代Snapdragon Sense™ ID指紋技術(shù)基礎(chǔ)上,高通今年推出了新一代指紋傳感器,支持全新增強的特性,包括面向顯示屏、玻璃和金屬的傳感器、定向手勢檢測、水下指紋匹配和設(shè)備喚醒,是首個商用發(fā)布的集成式超聲波移動解決方案。
這種技術(shù)的優(yōu)勢在于,超聲波可以穿透很高很厚的地方,可以透過玻璃面板和厚至 650 微米鋁材質(zhì)外殼實現(xiàn)掃描,即使手上有水也很容易識別出。
另外一個巨大的優(yōu)勢是,超聲波指紋識別可以說是手機全面屏的前提。因為目前大部分手機屏幕下方都有一個按鍵,用來指紋解鎖,電容式指紋識別技術(shù)無法安置在屏幕底下,也就無法摒棄屏幕下方的按鍵,而超聲波指紋識別因為穿透性強的原因,可以實現(xiàn)屏幕底下識別,即使全面屏也不在話下。
高通超聲波指紋識別還有一個優(yōu)勢在于,可以避免用戶的指紋被盜用。因為超聲波要求用戶必須用手指接觸屏幕,而超聲波會深入皮膚下層,感應(yīng)到血液的流動,以此辨別手指和紙片的區(qū)別。符合美國FBI(美國聯(lián)邦調(diào)查局)標(biāo)準(zhǔn)。
ChienChung (CC) Chang透露,為了研發(fā)超聲波指紋技術(shù),高通與面板和屏幕制造商都達(dá)成了合作。
好文章,需要你的鼓勵
新加坡國立大學(xué)研究團(tuán)隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟大學(xué)團(tuán)隊開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設(shè)備上展現(xiàn)出色泛化能力,為機器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊通過對比實驗發(fā)現(xiàn),經(jīng)過強化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實現(xiàn)大語言模型訓(xùn)練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓(xùn)練效率,已在多個任務(wù)上驗證有效性。
關(guān)注科技創(chuàng)新、技術(shù)投資。
以文會友,左手硬核科技,右手浪漫主義。