自然語言理解(NLP)素有“人工智能皇冠上的明珠”盛譽,這也意味著語言與知識等認知層面的技術突破將進一步促進AI深入發(fā)展。
8月25日,以“掌握知識、理解語言、擁有智能”為主題的百度大腦語言與知識技術峰會舉行,百度CTO王海峰發(fā)表主旨演講,解讀百度語言與知識技術的發(fā)展歷程與最新成果,與產(chǎn)學研各界分享技術及產(chǎn)業(yè)發(fā)展趨勢和展望,百度集團副總裁吳甜和百度技術委員會主席吳華分別發(fā)布百度語言與知識技術系列產(chǎn)品和數(shù)據(jù)集共建計劃,重磅推出5款產(chǎn)品的新發(fā)布,全面加速AI技術大規(guī)模應用。這是一場凝聚了百度在語言與知識領域十年技術積累和產(chǎn)業(yè)實踐的盛會,必將帶來深遠影響。
圖:百度CTO王海峰
十年:開拓者、深耕者、引領者
語言與知識技術是人工智能認知能力的核心。2010年,百度成立自然語言處理部,在前瞻技術與產(chǎn)業(yè)格局上不斷引領、創(chuàng)新,十年間已成為中國NLP發(fā)展的一面旗幟。
峰會上,王海峰回顧,“在百度語言與知識技術的布局和發(fā)展中,我們始終在注意把握兩個趨勢,即技術發(fā)展趨勢和產(chǎn)業(yè)發(fā)展趨勢,并力爭引領趨勢。”
縱覽百度語言與知識技術發(fā)展歷程,從研究方法、研究對象、研究方向、產(chǎn)業(yè)應用等各個層面,布局完整,不斷打磨成熟,始終與應用的發(fā)展趨勢、需求一脈相承,與產(chǎn)業(yè)接軌。
十年來,百度大腦語言與知識技術成果豐碩,獲得包括國家科技進步獎在內(nèi)的20多個獎項,30多項國際競賽冠軍,發(fā)表學術論文超過300篇,申請專利2000多項。技術不斷突破創(chuàng)新的同時,也在產(chǎn)品上創(chuàng)新探索,同時將領先的技術輸出給開發(fā)者與合作伙伴,提升各行業(yè)智能化水平。
全面分享語言與知識技術成果
王海峰全面分享了百度語言與知識技術完整布局和最新成果。
首先,知識圖譜是機器認知世界的重要基礎,百度打造了世界上最大規(guī)模知識圖譜,擁有超過50億實體和5500億事實,并在不斷演進和更新。百度知識圖譜應用于各行各業(yè),每天的調用次數(shù)超過400億次。
其次,在融入知識的基礎上,語言理解能力不斷增強。2019年3月,百度提出知識增強的語義理解框架ERNIE,在深度學習的基礎上融入知識,同時具備持續(xù)學習能力,曾一舉登頂全球權威數(shù)據(jù)集GLUE榜單,首次突破90分大關,刷新榜單歷史?;谥R圖譜和語義表示,突破了閱讀理解、對話理解以及跨模態(tài)深度語義理解等技術。
第三,語言生成是語言與知識技術中的重要組成部分?;陬A訓練技術的成功經(jīng)驗,百度提出基于多流機制的語言生成預訓練技術,兼顧詞、短語等不同粒度的語義信息,顯著提升生成效果。百度也探索了多文檔摘要生成,通過圖結構語義表示引入篇章知識,在單文檔和多文檔摘要生成效果都有提升。
應用系統(tǒng)層面,對話系統(tǒng)和機器翻譯等成績卓著。百度提出了知識圖譜驅動的對話控制技術,以及首個基于隱空間的大規(guī)模開放域對話模型PLATO等,并推出智能對話定制和服務平臺UNIT,幫助開發(fā)者高效構建智能對話系統(tǒng),實現(xiàn)規(guī)?;瘧?。百度翻譯支持200多種語言,每天響應超過千億字符的翻譯請求,支持超過40多萬家第三方應用,技術上,提出了多智能體聯(lián)合學習、基于語義單元的同傳模型、稀缺語種分組混合訓練算法等。
百度大腦語言與知識技術的持續(xù)探索和創(chuàng)新取得了令業(yè)界矚目的成績,同時這些技術以平臺化的方式輸出,賦能千行萬業(yè),持續(xù)提升產(chǎn)業(yè)智能化水平。
重磅推出5款產(chǎn)品的新發(fā)布、2大計劃
王海峰首次發(fā)布了百度大腦語言與知識產(chǎn)品全景圖。百度集團副總裁吳甜接續(xù)發(fā)布語義理解技術與平臺文心、智能文檔分析平臺TextMind和AI同傳會議解決方案3大新產(chǎn)品,同時發(fā)布了6項升級,包括智能創(chuàng)作平臺的3個場景方案、以及智能對話定制與服務平臺UNIT的3項全新升級。
圖:百度集團副總裁吳甜
吳甜表示,“我們一直致力于將語言與知識技術凝聚成一系列技術平臺和產(chǎn)品,在應用中產(chǎn)生大量價值,為廣大開發(fā)者和產(chǎn)業(yè)實踐者提供以語言與知識技術為核心驅動的系列產(chǎn)品。”
百度推出的語義理解技術與平臺文心,基于深度學習平臺飛槳打造,依托領先的語義理解核心技術,集成優(yōu)秀的預訓練模型、全面的NLP算法集、端到端開發(fā)套件和平臺,提供一站式NLP開發(fā)與服務,讓開發(fā)者更簡單、高效地定制企業(yè)級NLP模型。文心經(jīng)過了大量真實應用場景的淬煉,具備優(yōu)秀的工業(yè)級落地實力。
全新發(fā)布的智能文檔分析平臺TextMind,基于OCR、NLP技術,以文檔解析為核心能力,支持文檔對比與文檔審核,具備“多快好省”的核心優(yōu)勢,促進企業(yè)辦公智能升級。
百度大腦智能創(chuàng)作平臺針對媒體應用場景再升級,全新推出智能策劃、智能采編、智能審校三大媒體場景方案,進一步助力媒體人更快、更好地創(chuàng)作,可謂切中媒體人的“痛點”。
智能對話定制與服務平臺UNIT升級3大特性:更智能的任務式對話理解、極致便捷的表格問答和融合通用的新對話引擎。此次UNIT全新升級的三大能力,將進一步降低任務式對話、智能問答的定制成本,并融合通用對話能力,提升交互體驗。
全新發(fā)布的AI同傳會議解決方案,覆蓋會議全場景、全流程,旨在打造用戶隨身的“會議同傳專家”。吳甜現(xiàn)場展示了如何只用一臺電腦和一部手機快速搭建一套同傳服務,只需點點鼠標、打幾個字,就能快速獲得專業(yè)的同傳服務。
數(shù)據(jù)匱乏、算力不足歷來是語言與知識技術研發(fā)中面臨的瓶頸。為突破瓶頸,百度聯(lián)合中國計算機學會、中國中文信息學會發(fā)起中文自然語言處理數(shù)據(jù)共建計劃——千言,解決數(shù)據(jù)稀缺問題。千言一期由來自國內(nèi)11家高校和企業(yè)的數(shù)據(jù)資源研發(fā)者共同建設,已涵蓋開放域對話、閱讀理解等7大任務,20余個中文開源數(shù)據(jù)集。
百度技術委員會主席吳華表示,“未來,我們希望有更多的數(shù)據(jù)集作者能夠參與共建千言,共同推動中文信息處理技術的進步,建設世界范圍的中文信息處理影響力。我們計劃在未來3年,面向20多個任務,收集和建設不少于100個中文自然語言處理數(shù)據(jù)集,覆蓋語言與知識技術全部領域。”
圖:百度技術委員會主席吳華(中)與中國中文信息學會副理事長兼秘書長孫樂(左)、中國計算機學會自然語言處理專委會主任周國棟(右)一起正式啟動千言計劃
吳華還發(fā)布了百度語言與知識技術算力共享計劃,通過百度AI STUDIO平臺提供算力支持,讓廣大開發(fā)者破除算力桎梏,專注于技術創(chuàng)新。
十年征程,百度語言與知識技術發(fā)展歷程中培養(yǎng)、吸引了大量全球頂尖人才。會上,百度推出以王海峰為代表的百度NLP“十年十人”,十年堅守,不忘初心,秉持“技術信仰”,勇攀技術高峰,矢志不渝致力于讓機器更好地理解世界、更好地服務于人。
正如王海峰所言,“我們致力于更好地與學術界、產(chǎn)業(yè)界攜手,推動語言與知識技術發(fā)展,進而推動人工智能技術持續(xù)進步,為產(chǎn)業(yè)智能升級、社會經(jīng)濟高質量發(fā)展貢獻力量。我們對未來充滿信心,堅持研究和發(fā)展讓機器掌握知識、理解語言、擁有智能,繼續(xù)突破和創(chuàng)新,為技術和社會進步做出更大貢獻。”
好文章,需要你的鼓勵
浙江大學團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調整內(nèi)部專家配置。該方法在數(shù)學、編程等任務上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓練提供了新思路。
南洋理工大學與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術,實現(xiàn)AI視頻實時流式生成的重大突破。該技術通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質量視頻,延遲僅0.76秒,質量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學研究團隊發(fā)現(xiàn),通過讓AI模型學習解決幾何問題,能夠顯著提升其空間理解能力。他們構建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學習方法訓練多個AI模型。實驗結果顯示,幾何訓練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎幾何知識對培養(yǎng)AI空間智能的重要價值。