CNET科技資訊網(wǎng) 8月15日 北京消息: 昨天,小米科技聯(lián)合創(chuàng)始人黃江吉在微博上宣布小米人臉檢測(cè)算法團(tuán)隊(duì)研發(fā)的新算法在FDDB人臉檢測(cè)準(zhǔn)確率榜上取得排名第一,隨后小米科技董事長(zhǎng)兼CEO雷軍也第一時(shí)間轉(zhuǎn)發(fā)了這條微博,指出FDDB是由馬薩諸塞大學(xué)計(jì)算機(jī)系維護(hù)的全世界最具權(quán)威的人臉檢測(cè)評(píng)測(cè)平臺(tái),并恭喜小米研發(fā)人員取得全球第一成績(jī)。
這項(xiàng)以萬韶華博士為首的小米團(tuán)隊(duì)研發(fā)的新算法基于深度卷積檢測(cè)網(wǎng)絡(luò)(Faster RCNN Bootstrapped by Hard Negative Mining),它的作用簡(jiǎn)單說就是,利用深度卷積檢測(cè)網(wǎng)絡(luò),同時(shí)學(xué)習(xí)人臉和非人臉特征,從而準(zhǔn)確識(shí)別出人臉的位置和大小。下圖是FDDB官網(wǎng)上最新公布的人臉檢測(cè)準(zhǔn)確率召回率曲線圖,橫軸表示誤檢人臉數(shù),縱軸表示檢出率。曲線越陡峭,曲線上的點(diǎn)越接近(0,1),表示檢測(cè)器性能越好。從離散情況來看,小米團(tuán)隊(duì)在人臉識(shí)別檢出率上明顯高于其他研究團(tuán)隊(duì)。
FDDB (Face Detection Data Set and Benchmark),是由馬薩諸塞大學(xué)計(jì)算機(jī)系維護(hù)的一套公開數(shù)據(jù)庫(kù),為來自全世界的研究者提供一個(gè)標(biāo)準(zhǔn)的人臉檢測(cè)評(píng)測(cè)平臺(tái),其中涵蓋在自然環(huán)境下的各種姿態(tài)的人臉。像百度、騰訊、360等國(guó)內(nèi)互聯(lián)網(wǎng)大公司也都建立了人臉檢測(cè)算法團(tuán)隊(duì),積極參與FDDB平臺(tái)的評(píng)測(cè)。小米的研發(fā)團(tuán)隊(duì)能夠在眾多的國(guó)內(nèi)外團(tuán)隊(duì)中脫穎而出,取得全球排行榜第一,標(biāo)志著小米在人臉檢測(cè)評(píng)測(cè)方面取得了突破性的進(jìn)展。
目前小米云相冊(cè)服務(wù)每天存儲(chǔ)量已達(dá)1.2億張,總量超過500億張。未來小米人臉檢測(cè)新算法會(huì)在優(yōu)化及測(cè)試后替代老的算法,會(huì)有助于小米手機(jī)用戶使用相冊(cè)服務(wù)時(shí)檢測(cè)到更多的人臉。
2015年6月5日,MIUI發(fā)布了一個(gè)新功能——面孔相冊(cè)。小米云相冊(cè)利用圖像分析技術(shù),可以自動(dòng)地對(duì)云相冊(cè)照片內(nèi)容按照面孔進(jìn)行分類整理。憑借此項(xiàng)技術(shù)實(shí)現(xiàn),小米成為國(guó)內(nèi)首家在手機(jī)系統(tǒng)層面發(fā)布該功能的手機(jī)廠商,極大地提高了用戶在茫茫手機(jī)相冊(cè)中找人的效率。
小米的早期員工都是來自于谷歌、微軟、金山等國(guó)內(nèi)外優(yōu)秀的高科技公司,這次取得世界領(lǐng)先水平的研究成果,也首次將其從事人臉?biāo)惴ㄑ邪l(fā)的團(tuán)隊(duì)曝光,通過領(lǐng)英網(wǎng)站上可以查詢到這一新算法項(xiàng)目的帶頭人萬韶華博士畢業(yè)于美國(guó)得克薩斯州立大學(xué)奧斯汀分校計(jì)算機(jī)視覺專業(yè),由此可見小米已經(jīng)吸引到不少高水平的計(jì)算機(jī)視覺領(lǐng)域科研人員。
人臉檢測(cè)技術(shù)是很多技術(shù)與應(yīng)用的基礎(chǔ),既需要大量數(shù)據(jù),也需要強(qiáng)大的算法與其匹配。小米本來已經(jīng)在大數(shù)據(jù)+云服務(wù)方面走在各國(guó)產(chǎn)手機(jī)廠商的前面,這次在人臉檢測(cè)算法上達(dá)到世界第一的水平,也預(yù)示著小米在人臉識(shí)別、圖像理解和分類等方面正在逐漸積累自己的科技創(chuàng)新成果,未來有助于形成新的產(chǎn)品競(jìng)爭(zhēng)力。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。