av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 微軟字符識別新研究:OCR提升自然場景下文字識別度

微軟字符識別新研究:OCR提升自然場景下文字識別度

2015-04-01 16:49
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2015-04-01 16:49 ? CNET科技資訊網(wǎng)

把手機攝像頭對準(zhǔn)菜單上的法語菜名,屏幕上實時顯示出翻譯好的中文菜名;將全世界圖書館的藏書轉(zhuǎn)化為電子書;街景車游走于大街小巷,拍攝街景的同時也從街景圖像中自動提取文字標(biāo)識,讓地圖信息更豐富更準(zhǔn)確……這些場景的背后有一個共同的關(guān)鍵技術(shù)——OCR (Optical Character Recognition),光學(xué)字符識別。

OCR讓電腦“讀”懂世界

鼠標(biāo)發(fā)明人Douglas Engelbart曾經(jīng)針對人工智能的簡稱AI提出了另一個理念——Augmented Intelligence,即增強智能。在他看來,人已經(jīng)足夠聰明,我們無需再去復(fù)制人類,而是可以從更加實用的角度,將人類的智能進(jìn)一步延伸,讓機器去增強人的智能。

智能眼鏡就是這樣的產(chǎn)品,去超市的時候帶上一副,看到心儀商品上的文字,自動搜索出詳細(xì)信息:生產(chǎn)商情況、在不同電商平臺的價格等等。讓智能眼鏡讀懂文字的正是OCR技術(shù)。OCR本質(zhì)上是利用光學(xué)設(shè)備去捕獲圖像,今天可以是手機、照相機,未來可以是智能眼鏡、可穿戴設(shè)備等,就像人的眼睛一樣,只要有文字,就去認(rèn)出來。

我們也可以設(shè)想一下OCR在未來工作中的應(yīng)用場景:每次工作會議后,無需再把白板上的討論內(nèi)容抄寫下來,然后群發(fā)郵件布置任務(wù),只要將白板用手機等智能設(shè)備拍照留存,系統(tǒng)便能自動識別并分檢出相關(guān)人員的后續(xù)工作,并將待辦事項自動存放到各自的電子日歷中。

事實上,我們已經(jīng)向這個場景邁進(jìn)了一步,微軟前不久推出的Office Lens應(yīng)用,已經(jīng)可以通過視覺計算技術(shù)自動對圖像進(jìn)行清理并把它保存到OneNote,而OneNote中基于云端的OCR技術(shù)將對圖片進(jìn)行文字識別,隨后你就可以擁有一個可編輯、可搜索的數(shù)字文件,為上述未來應(yīng)用場景打下基礎(chǔ)。微軟幾年前推出的手機應(yīng)用Translator,除了支持文本和語音翻譯外,還能用手機拍攝不同語言的菜單或指示牌,翻譯結(jié)果立即浮現(xiàn)于原文之上。Office Lens和Translator這兩款產(chǎn)品中的“中日韓”OCR核心技術(shù)就來自微軟亞洲研究院的語音團(tuán)隊。

微軟OCR兩層優(yōu)化提升自然場景下的文字識別精度

OCR (Optical Character Recognition,光學(xué)字符識別)就是這樣的一項技術(shù),它的本質(zhì)上是利用光學(xué)設(shè)備去捕獲圖像并識別文字,將人眼的能力延伸到機器上。本文將介紹OCR技術(shù)在移動環(huán)境下面臨的新挑戰(zhàn),以及在自然場景圖像下微軟研究院文字識別技術(shù)的進(jìn)展。

OCR的新挑戰(zhàn)

回過頭來看,OCR技術(shù)經(jīng)歷了怎樣的發(fā)展歷程呢?早在20世紀(jì)50年代,IBM就開始利用OCR技術(shù)實現(xiàn)各類文檔的數(shù)字化,早期的OCR設(shè)備龐大而復(fù)雜,只能處理干凈背景下的某種印刷字體。20世紀(jì)80年代,平板掃描儀的誕生讓OCR進(jìn)入商用階段,設(shè)備更為輕便靈巧,可以處理的字體數(shù)量也增多,但對文字的背景要求仍然很高,需要很好的成像質(zhì)量。

平板掃描儀對印刷體文本的識別率在20世紀(jì)90年代就已經(jīng)達(dá)到99%以上,可謂OCR應(yīng)用迎來的第一個高潮。當(dāng)時最著名事件是谷歌數(shù)字圖書館,谷歌還申請了圖書掃描專利,實現(xiàn)了批量化的高速掃描。在此期間,手寫字體的識別也在并行發(fā)展,被廣泛用于郵件分揀、支票分類、手寫表格數(shù)字化等領(lǐng)域。

這樣的成就一度讓大家誤以為OCR技術(shù)已經(jīng)登峰造極,但從21世紀(jì)開始,準(zhǔn)確地說是自從2004年擁有300萬像素攝像頭的智能手機誕生之日起,這一情況發(fā)生了根本改變。越來越多的人隨手拿起手機拍攝所看到的事物和場景,而此類自然場景中的文字識別難度遠(yuǎn)遠(yuǎn)高于平板掃描儀時期,即便是印刷字體,也不能得到很高的識別率,更別說手寫體了。學(xué)術(shù)界因此將自然場景中的文字識別作為全新的課題來對待。

與此同時,云計算、大數(shù)據(jù)以及通訊網(wǎng)絡(luò)的快速發(fā)展,實現(xiàn)了智能手機的24小時在線,前端采用手機攝像頭進(jìn)行文字捕捉,后端可以對其進(jìn)行實時分析和處理,二者的結(jié)合讓OCR的未來應(yīng)用模式充滿想象。因此,對OCR的研究再度成為學(xué)術(shù)界的焦點,無論是前端識別技術(shù)還是后端的關(guān)聯(lián)應(yīng)用領(lǐng)域,都有著無限可能。

自然場景下的文字檢測獲突破性進(jìn)展

自然場景圖像中的文字識別大大難于掃描儀圖像中的文字識別,因為它具有極大的多樣性和明顯的不確定性。如文字中包含多種語言,每種語言含有多種字母,每個字母又可以有不同的大小、字體、顏色、亮度、對比度等;文字通常以文本行的形式存在,但文本行可能有不同的排列和對齊方式,橫向、豎向、彎曲都有可能;因拍攝圖像的隨意性,圖像中的文字區(qū)域還可能會產(chǎn)生變形(透視和仿射變換)、殘缺、模糊斷裂等現(xiàn)象。

微軟字符識別新研究:OCR提升自然場景下文字識別度

自然場景圖片中的文字多樣性示例

與傳統(tǒng) OCR 技術(shù)中的掃描文檔圖像相比,自然場景圖像的背景更為復(fù)雜。如文字可能不是寫在平面上而是在曲面上;文字區(qū)域附近有非常復(fù)雜的紋理和噪聲;圖像中的非文字區(qū)域有著跟文字區(qū)域非常相似的紋理,比如窗戶、樹葉、柵欄、磚墻等。這些復(fù)雜背景會極大增加誤檢率。

由于自然場景下的文字識別難度大,微軟亞洲研究院團(tuán)隊對相關(guān)技術(shù)和算法進(jìn)行了針對性的優(yōu)化和創(chuàng)新,從三個方面對文本檢測技術(shù)進(jìn)行了改進(jìn),并取得突破。通常,OCR識別的步驟可以分為兩步:首先是文本檢測(Text detection),將文字從圖片中提取出來;然后,對文本進(jìn)行識別(Recognition),此次的突破主要是在文本檢測環(huán)節(jié)的兩個子階段。

階段①:采用對比極值區(qū)域CER檢測方法

一個字母或文字通??梢苑譃槿舾蓚€連通區(qū)域,如o就擁有一個連通區(qū)域,i則擁有兩個連通區(qū)域,文本檢測首先要從圖像中切割出可能存在的文字,即候選連通區(qū)域,然后再對其進(jìn)行文字/非文字分類。

在確定候選連通區(qū)域階段,微軟亞洲研究院團(tuán)隊在傳統(tǒng)檢測方法ER(Extremal Region,極值區(qū)域)和MSER(Maximally Stable Extremal Region,最大平穩(wěn)極值區(qū)域)基礎(chǔ)之上采用了對比極值區(qū)域CER(Contrasting Extremal Region),CER是跟周圍的背景有一定對比度的極值區(qū)域,這個對比度至少要強到能夠被人眼感知到,在低對比度的圖像上比MSER效果更好,而且獲得的候選連通區(qū)域數(shù)量遠(yuǎn)小于ER,候選范圍大大縮小,提高了算法的效率。

為了提高所獲得的候選連通區(qū)域的質(zhì)量,微軟亞洲研究院團(tuán)隊決定增加一個算法環(huán)節(jié)去增強CER。尤其在圖像模糊、分辨率低或者噪聲較多時,提取出來的CER有可能會含有冗余像素或者噪聲,這些冗余像素或者噪聲的存在會使得后面的文字/非文字分類問題變得更為復(fù)雜。

采用基于感知的光照不變(Perception-based Illumination Invariant, PII)顏色空間中的顏色信息去增強CER可算是此次算法優(yōu)化的另一個創(chuàng)新之舉,利用顏色信息盡可能濾除CER中的冗余像素或者噪聲,從而得到Color-enhanced CER。該顏色空間具有視覺感知一致性,而且對光照不敏感,更接近人眼對顏色的判斷。

在實際操作中,并不是每個CER都需要通過顏色信息來增強,因為有很多CER本身顏色均勻,沒有噪聲,尤其是在圖片質(zhì)量很高的時候。因此,在對CER進(jìn)行增強操作之前我們會先判斷該CER是否需要增強操作,以減少不必要的計算復(fù)雜度。

對CER的顏色增強效果示例

算法提取出來的候選連通區(qū)域結(jié)果示例

階段②:基于淺層神經(jīng)網(wǎng)絡(luò)的文字/非文字分類算法

當(dāng)獲得了高質(zhì)量的候選連通區(qū)域,就需要對其中的字符進(jìn)行分辨,確定其是否為文字或非文字,微軟亞洲研究院團(tuán)隊提出了一套基于淺層神經(jīng)網(wǎng)絡(luò)的文字/非文字分類算法,比以往的算法更加有效。

該算法根據(jù)文字本身的特性采用分治策略將原始問題空間劃分為5個子空間,每個子空間對應(yīng)一類文字樣本,分別命名為Long類,Thin類,F(xiàn)ill類,Square-large類和 Square-small類(如下圖所示),于是每個候選連通區(qū)域被劃分到這5類中的一種。

文字類問題空間劃分示例

在每個子空間中,微軟亞洲研究院團(tuán)隊利用無歧義學(xué)習(xí)策略訓(xùn)練一個相應(yīng)的淺層神經(jīng)網(wǎng)絡(luò),作為該子空間的文字/非文字分類器,我們可以將該神經(jīng)網(wǎng)絡(luò)看作是一個黑盒子,在經(jīng)過大量學(xué)習(xí)之后,它便能較為準(zhǔn)確的將文字與非文字分類。

每次分類動作包括兩個階段——預(yù)剪枝(Pre-pruning)階段和驗證(Verification)階段。在預(yù)剪枝階段,分類器的任務(wù)是盡可能濾除無歧義的非文字候選連通區(qū)域;在驗證階段,則通過引入更多信息來消除孤立連通區(qū)域的歧義性,從而進(jìn)一步濾除有歧義的非文字候選連通區(qū)域。

改進(jìn)的有效性得到了驗證。2014年8月,在瑞典首都斯德哥爾摩舉辦的國際模式識別大會(ICPR)上,微軟亞洲研究院團(tuán)隊公布的研究成果在自然場景文字檢測的標(biāo)準(zhǔn)數(shù)據(jù)集(ICDAR-2013測試集)上取得了92.1%的檢測精度和92.3%的召回率。此前業(yè)界最好技術(shù)的檢測精度是88.5%,而召回率只有66.5%,多年來這些數(shù)字每年增長只有幾個百分點。

應(yīng)用前景分析

人類需求牽引科技發(fā)展走到今天,智慧的無限延伸決定了世界的無限潛能。10年前的簡單通訊工具手機如今已成為智慧生活的伴侶,曾經(jīng)只被掃描儀應(yīng)用的OCR技術(shù)亦已煥發(fā)新機。隨著OCR研究工作的不斷突破,云計算、大數(shù)據(jù)以及通訊網(wǎng)絡(luò)的快速發(fā)展,以及智能眼鏡、可穿戴設(shè)備等智能設(shè)備的推陳出新,OCR的應(yīng)用也將充滿無限機會、無限可能性。

我們也可以設(shè)想一下OCR在未來工作中的應(yīng)用場景:每次工作會議后,無需再把白板上的討論內(nèi)容抄寫下來,然后群發(fā)郵件布置任務(wù),前端只要將白板用手機等智能設(shè)備拍照留存,后端可以對其進(jìn)行實時分析和處理,系統(tǒng)便能自動識別并分檢出相關(guān)人員的后續(xù)工作,并將待辦事項自動存放到各自的電子日歷中。

事實上,基于微軟亞洲研究院的OCR核心技術(shù),微軟前不久推出的Office Lens應(yīng)用,已經(jīng)可以通過視覺計算技術(shù)自動對圖像進(jìn)行清理并把它保存到OneNote,而OneNote中基于云端的OCR技術(shù)將對圖片進(jìn)行文字識別,隨后用戶就可以擁有一個可編輯、可搜索的數(shù)字文件,這為上述未來應(yīng)用場景打下了基礎(chǔ)。

作者簡介:

霍強博士,微軟亞洲研究院首席研究員

Qiang Huo is a Principal Research Manager of Speech Group in Microsoft Research Asia (MSRA), Beijing, China. Prior to joining MSRA in August 2007, he had been a faculty member at the Department of Computer Science, The University of Hong Kong since 1998. From 1995 to 1997, Dr. Huo worked at Advanced Telecommunications Research Institute (ATR) in Kyoto, Japan. In the past 30 years, he has been doing research and making contributions in the areas of speech recognition, handwriting recognition, OCR, gesture recognition, biometric-based user authentication, hardware design for speech and image processing.

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-