CNET科技資訊網(wǎng) 8月15日 北京消息: 昨天,小米科技聯(lián)合創(chuàng)始人黃江吉在微博上宣布小米人臉檢測算法團(tuán)隊(duì)研發(fā)的新算法在FDDB人臉檢測準(zhǔn)確率榜上取得排名第一,隨后小米科技董事長兼CEO雷軍也第一時(shí)間轉(zhuǎn)發(fā)了這條微博,指出FDDB是由馬薩諸塞大學(xué)計(jì)算機(jī)系維護(hù)的全世界最具權(quán)威的人臉檢測評測平臺,并恭喜小米研發(fā)人員取得全球第一成績。
這項(xiàng)以萬韶華博士為首的小米團(tuán)隊(duì)研發(fā)的新算法基于深度卷積檢測網(wǎng)絡(luò)(Faster RCNN Bootstrapped by Hard Negative Mining),它的作用簡單說就是,利用深度卷積檢測網(wǎng)絡(luò),同時(shí)學(xué)習(xí)人臉和非人臉特征,從而準(zhǔn)確識別出人臉的位置和大小。下圖是FDDB官網(wǎng)上最新公布的人臉檢測準(zhǔn)確率召回率曲線圖,橫軸表示誤檢人臉數(shù),縱軸表示檢出率。曲線越陡峭,曲線上的點(diǎn)越接近(0,1),表示檢測器性能越好。從離散情況來看,小米團(tuán)隊(duì)在人臉識別檢出率上明顯高于其他研究團(tuán)隊(duì)。
FDDB (Face Detection Data Set and Benchmark),是由馬薩諸塞大學(xué)計(jì)算機(jī)系維護(hù)的一套公開數(shù)據(jù)庫,為來自全世界的研究者提供一個標(biāo)準(zhǔn)的人臉檢測評測平臺,其中涵蓋在自然環(huán)境下的各種姿態(tài)的人臉。像百度、騰訊、360等國內(nèi)互聯(lián)網(wǎng)大公司也都建立了人臉檢測算法團(tuán)隊(duì),積極參與FDDB平臺的評測。小米的研發(fā)團(tuán)隊(duì)能夠在眾多的國內(nèi)外團(tuán)隊(duì)中脫穎而出,取得全球排行榜第一,標(biāo)志著小米在人臉檢測評測方面取得了突破性的進(jìn)展。
目前小米云相冊服務(wù)每天存儲量已達(dá)1.2億張,總量超過500億張。未來小米人臉檢測新算法會在優(yōu)化及測試后替代老的算法,會有助于小米手機(jī)用戶使用相冊服務(wù)時(shí)檢測到更多的人臉。
2015年6月5日,MIUI發(fā)布了一個新功能——面孔相冊。小米云相冊利用圖像分析技術(shù),可以自動地對云相冊照片內(nèi)容按照面孔進(jìn)行分類整理。憑借此項(xiàng)技術(shù)實(shí)現(xiàn),小米成為國內(nèi)首家在手機(jī)系統(tǒng)層面發(fā)布該功能的手機(jī)廠商,極大地提高了用戶在茫茫手機(jī)相冊中找人的效率。
小米的早期員工都是來自于谷歌、微軟、金山等國內(nèi)外優(yōu)秀的高科技公司,這次取得世界領(lǐng)先水平的研究成果,也首次將其從事人臉?biāo)惴ㄑ邪l(fā)的團(tuán)隊(duì)曝光,通過領(lǐng)英網(wǎng)站上可以查詢到這一新算法項(xiàng)目的帶頭人萬韶華博士畢業(yè)于美國得克薩斯州立大學(xué)奧斯汀分校計(jì)算機(jī)視覺專業(yè),由此可見小米已經(jīng)吸引到不少高水平的計(jì)算機(jī)視覺領(lǐng)域科研人員。
人臉檢測技術(shù)是很多技術(shù)與應(yīng)用的基礎(chǔ),既需要大量數(shù)據(jù),也需要強(qiáng)大的算法與其匹配。小米本來已經(jīng)在大數(shù)據(jù)+云服務(wù)方面走在各國產(chǎn)手機(jī)廠商的前面,這次在人臉檢測算法上達(dá)到世界第一的水平,也預(yù)示著小米在人臉識別、圖像理解和分類等方面正在逐漸積累自己的科技創(chuàng)新成果,未來有助于形成新的產(chǎn)品競爭力。
好文章,需要你的鼓勵
新加坡國立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個任務(wù)上驗(yàn)證有效性。