av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 下一代搜索引擎或?qū)⒁蕾嚾斯ぶ悄堋⒈姲统売嬎銠C

下一代搜索引擎或?qū)⒁蕾嚾斯ぶ悄?、眾包和超級計算機

2017-08-14 09:17
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2017-08-14 09:17 ? CNET科技行者

我們所知的WordNet是一個英語詞匯數(shù)據(jù)庫,它將英語單詞以同義詞集合(synset作為一個基本組織單位,集合里提供詞匯的簡短定義和使用示例,人腦如果有一個已知的概念,就可以在同義詞集合中找到一個適合的詞去表達(dá)這個概念。而現(xiàn)在,美國德克薩斯大學(xué)奧斯汀分校(UT Austin)的研究人員開發(fā)了一種將信息從WordNet數(shù)據(jù)庫整合到信息檢索(IRinformation retrieval)系統(tǒng)的方法,便于通用搜索引擎以及醫(yī)學(xué)知識或非英語文本等細(xì)分領(lǐng)域的研發(fā)。

下一代搜索引擎或?qū)⒁蕾嚾斯ぶ悄?、眾包和超級計算機

說明之前,我們先來了解一下WordNet——由普林斯頓大學(xué)(Princeton)的心理學(xué)家、語言學(xué)家和計算機工程師聯(lián)合設(shè)計的一種基于認(rèn)知語言學(xué)的英語詞典【常用的英語詞典分為詞典 (Dictionary) 、分類詞匯匯編 (Thesaurus) 、同義詞和反義詞 (Synonyms and Antonyms) 、慣用法 (Usage)、成語 (Idioms) 、俚語 (Slang) 和詞源 (Etymology) 等等】。

下一代搜索引擎或?qū)⒁蕾嚾斯ぶ悄堋⒈姲统売嬎銠C

為其提供連接)

它是一個覆蓋范圍寬廣的英語詞匯語義網(wǎng)。名詞,動詞,形容詞和副詞各自被組織成一個同義詞的網(wǎng)絡(luò),每個同義詞集合都代表一個基本的語義概念,并且這些集合之間也由各種關(guān)系連接——它不是光把單詞以字母順序排列,而且按照單詞的意義組成一個單詞的網(wǎng)絡(luò)

為什么需要一個WordNet?

  • 計算機提供了一個良好的模式演練場,通過它,人們可以測試各種關(guān)于人類認(rèn)知能力的理論模型。
  • 越來越多的人認(rèn)識到,一個大的詞庫對自然語言理解,人工智能的各方面研究都具有重要的價值。
  • 對大規(guī)模機器可讀詞典的需求同時也帶來許多基礎(chǔ)問題。首先是如何構(gòu)造這樣一個詞庫,是手工編制還是機器自動生成?第二,詞典中應(yīng)包含什么樣的信息?第三,詞典應(yīng)如何設(shè)計,即信息如何組織,以及用戶如何訪問?實際上,這些問題涉及到詞典的編纂方法,詞典的內(nèi)容,詞典的使用方式這一系列非?;A(chǔ)的問題。

WordNet的內(nèi)容是什么?對此公開資料顯示,人們經(jīng)常區(qū)分詞語知識和世界知識,前者體現(xiàn)在詞典中,后者體現(xiàn)在百科全書中,但事實上二者的界限是模糊的。比如hit)某人是一種帶有敵意的行為,這是百科知識;而hitstrike)多多少少同義,并且hit可以帶一個直接賓語論元,這是詞語知識。但hit的直接賓語應(yīng)該是固體(而不是像gas這樣的氣體),這是詞語知識還是百科知識就界限模糊了。不過毫無疑問,要理解語言,這兩部分知識是缺一不可的。WordNet相當(dāng)于一個統(tǒng)籌。

之所以有了WordNet,也就有了更多相關(guān)的應(yīng)用落地,比如搜索引擎。那么,搜索引擎如何生成相關(guān)站點鏈接列表?

這要歸功于信息檢索演變進程中兩股強大力量的發(fā)展:人工智能(尤其是自然語言處理)和眾包。

當(dāng)我們搜索一個信息,得到一系列信息,兩者之間如何對應(yīng)起來?對于我們所輸入的詞匯與大量預(yù)測網(wǎng)頁之間的關(guān)系,計算機算法對此的解釋是,主要基于其系統(tǒng)所接受的數(shù)以億計的文本訓(xùn)練中語言連接的頻率。

但這并不是信息的唯一來源。對于重要話題,專業(yè)的注解者會強化其語義關(guān)系,調(diào)整搜索結(jié)果和生成結(jié)果的算法,而通過網(wǎng)絡(luò)檢索者(也就是我們)的點擊,算法會辨別出哪些鏈接是最佳結(jié)果。

盡管很不可思議,但這個模型帶來的改變世界性的成功,也存在一定缺陷。因為搜索引擎給出的結(jié)果往往不像我們想的那樣智能,它們?nèi)匀蝗狈θ祟愓Z言和邏輯的真正理解。除此之外,它們有時會重復(fù)、加深我們的搜索結(jié)果中出現(xiàn)的偏差,而不是為我們提供新的信息或觀點。

在研究過程中,美國德克薩斯大學(xué)奧斯汀分校信息學(xué)院副教授馬修·里斯(Matthew Lease)提出一個設(shè)想:利用計算機和人類大腦的雙重力量,或許能夠創(chuàng)造更加智能的信息檢索系統(tǒng)方式。

為了將人工智能與注釋者的見解以及特定領(lǐng)域資源的信息編碼整合在一起,里斯教授及其同事們正在開發(fā)一種新的信息檢索方案,它將有利于通用搜索引擎以及醫(yī)學(xué)知識或非英語文本等研發(fā)的細(xì)分領(lǐng)域。

8月初,在加拿大溫哥華舉辦的計算機語言學(xué)協(xié)會年度會議上,里斯、德克薩斯大學(xué)奧斯汀分校和美國東北大學(xué)的幾位合作者通過兩篇論文,描述了他們新穎的信息檢索系統(tǒng)想法。他們的研究借助了德克薩斯高級計算中心的超級計算資源。

在其中一篇論文中,以博士生An Nguyen為首,他們提出了一種方法,即結(jié)合多個注解者輸入的信息,來確定所有給出的文本中最好的注解方案。他們將這種方法用在了兩個問題的研究上:

分析自由文本搜索描述醫(yī)學(xué)研究的文章,來提取每項研究的細(xì)節(jié)(例如,健康狀況、患者統(tǒng)計信息、治療手段和效果),以及通過識別命名實體分析突發(fā)新聞報道來識別事件、人以及所涉及的地方。

里斯同時提出,在自然語言處理中有一個重要挑戰(zhàn),即準(zhǔn)確地在自由文本中查找所包含的重要信息,它將使我們把這些信息提取到數(shù)據(jù)庫,并將其與其他數(shù)據(jù)結(jié)合在一起,以做出更加智能的決策和新發(fā)現(xiàn)。相關(guān)解決方案是,里斯這些研究人員已經(jīng)大規(guī)模地利用眾包來為醫(yī)學(xué)和新聞文章注解,以確保其智能系統(tǒng)將能夠更加精準(zhǔn)地找到每一篇文章中所包含的關(guān)鍵信息。

習(xí)慣上,這些注解歷來都是由相關(guān)領(lǐng)域?qū)<彝瓿傻?。然而,近來,眾包已?jīng)成為一個以較低成本獲取大量帶標(biāo)簽數(shù)據(jù)的廣受歡迎的方法??梢灶A(yù)見的是,這些來自非專業(yè)人士的注解質(zhì)量要比那些領(lǐng)域?qū)<业淖⒔獠?,因此評估大眾注解者的可靠性是很有必要的,而且將這些個人注解整合成一套參考標(biāo)準(zhǔn)一致的標(biāo)簽也很有必要。

里斯的研究團隊還發(fā)現(xiàn),他們的方法可以訓(xùn)練神經(jīng)網(wǎng)絡(luò),這樣它就可以非常準(zhǔn)確地預(yù)測出命名實體,并在未命名文本中提取相關(guān)信息。這個新方法改進了現(xiàn)有的標(biāo)記和訓(xùn)練方法。

該方法還為每一位工作人員的標(biāo)簽質(zhì)量提供了評估,它可以在任務(wù)之間轉(zhuǎn)移,而且對誤差分析和智能路由任務(wù)很有用——可以識別出每個特定文本的最佳注解人選。

下一代搜索引擎或?qū)⒁蕾嚾斯ぶ悄?、眾包和超級計算機

)】

Learning to Effectively Select Topics For Information Retrieval Test Collections

https://arxiv.org/pdf/1701.07810.pdf

利用現(xiàn)有知識創(chuàng)造更好的神經(jīng)系統(tǒng)模型

該團隊的另一篇論文以博士生張燁(Ye Zhang)為首,文章提出,自然語言處理(NLP)的神經(jīng)模型往往會忽視現(xiàn)有資源,例如WordNet詞匯數(shù)據(jù)庫。

他們提出了一種方法,可以通過權(quán)值共享(weight sharing),利用這些現(xiàn)有的語言資源,為了自動文本分類改善自然語言處理模型。例如,該模型學(xué)習(xí)將醫(yī)學(xué)文章進行分類,將描述臨床試驗的研究分類到與臨床醫(yī)學(xué)問題相關(guān)的定義下。

在權(quán)值共享下,相似的詞匯將共享一個權(quán)值的其中一部分,或指定的數(shù)值。權(quán)值共享限制了系統(tǒng)必須學(xué)習(xí)的自由參數(shù)的數(shù)量,從而提高該神經(jīng)模型的效率和精度,并起到一個靈活結(jié)合先驗知識的方式。在這個過程中,他們將人類知識與機器學(xué)習(xí)結(jié)合在了一起。

神經(jīng)網(wǎng)絡(luò)模型的參數(shù)有很多,并且需要大量的數(shù)據(jù)去配合它們。里斯因此有了一個想法,如果能夠以某種方式推出一些與其他先驗詞匯相關(guān)的詞匯,那么就沒必要非要為每個單獨的詞匯設(shè)置一個參數(shù),而可以將多個單詞配合使用一個參數(shù),這樣所需要學(xué)習(xí)模型的數(shù)據(jù)就比較少了。這種方法將在沒有大量數(shù)據(jù)限制的情況下實現(xiàn)深度學(xué)習(xí)成果。

他們將一種形式的權(quán)值共享應(yīng)用在了一段電影評論的情感分析和與貧血癥有關(guān)的生物醫(yī)學(xué)搜索中。在分類任務(wù)上,相比沒有使用權(quán)值共享策略的情形,他們的方法不斷獲得了改進性能。

來自美國東北大學(xué)的合作者拜倫·華萊士(Byron Wallace)也認(rèn)為,這種方式,相當(dāng)于在數(shù)據(jù)驅(qū)動的神經(jīng)網(wǎng)絡(luò)模型中編寫和開發(fā)專業(yè)領(lǐng)域知識提供了一個通用框架。【華萊士曾經(jīng)也是德州大學(xué)奧斯汀分校的教職工,而且也是德克薩斯高級計算中心(TACC)的老用戶?!?/span>

里斯、華萊士和他們的合作者在德克薩斯高級計算中心的Maverick超級計算機上使用GPU(圖形處理單元)對其機器學(xué)習(xí)系統(tǒng)進行分析和培訓(xùn)。

里斯表示:訓(xùn)練神經(jīng)計算模型處理大數(shù)據(jù)需要大量的計算時間。而TACC恰好就成為了一處很棒、很合適的資源,而且這不僅僅緣于其強大的可用存儲,還得益于其大量的節(jié)點和可適用于神經(jīng)模型訓(xùn)練的高效處理速度。

據(jù)里斯說,除了GPUTACC部署了英特爾先進的處理架構(gòu),機器學(xué)習(xí)庫正在迎頭趕上。

盡管許多深度學(xué)習(xí)庫一直在對GPU的處理進行高度優(yōu)化,但從長遠(yuǎn)來看,一旦其他架構(gòu)也進行了優(yōu)化,它們將變得更快。

TACC數(shù)據(jù)密集型計算主管尼爾·加夫尼(Niall Gaffney)表示,在TACC的與Caffe(加州大學(xué)伯克利分校開發(fā)的深度學(xué)習(xí)框架,已被充分應(yīng)用到了英特爾的至強Phi處理器中)進行的前期工作中,他們發(fā)現(xiàn),這些CPU的性能差不多與許多人工智能運行時的CPU性能相當(dāng)。

加夫尼認(rèn)為這相當(dāng)于一個變革,畢竟它將能夠提供更多可以滿足這些研究人員的節(jié)點,同時也允許高性能計算機(HPC)用戶可以在他們的分析階段利用人工智能,而無需移動到一個不同的GPU啟用系統(tǒng)。

通過提高自動信息提取和文本分類的核心自然語言處理技術(shù),建立在這些技術(shù)上的網(wǎng)絡(luò)搜索引擎可以繼續(xù)提高。

里斯已經(jīng)收到來自美國國家科學(xué)基金會(NSF)、美國博物館和圖書館服務(wù)研究院(IMLS)和美國國防高級研究計劃局(DARPA)的資助,來改善跨各種任務(wù)、規(guī)模和設(shè)置的眾包質(zhì)量。盡管商業(yè)網(wǎng)絡(luò)搜索公司投入了大量資源來開發(fā)實用、有效的解決方案,但行業(yè)的需求迫使里斯仍然專注于商業(yè)應(yīng)用問題和短期解決方案。這也是為什么像里斯這樣的研究人員得以展開這些高風(fēng)險、潛在變革性的研究之原因。

Exploiting Domain Knowledge via Grouped Weight Sharing with Application to Text Categorization

鏈接:https://arxiv.org/pdf/1702.02535.pdf

<來源 :phys.org;編譯:科技行者>

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-