▲ 圖片來源:Getty
數(shù)據(jù)顯示,人工智能(AI)預計將在經濟領域創(chuàng)造數(shù)萬億美元的價值。不過,盡管人工智能技術正在成為我們日常生活的一部分,很多人仍然對它抱有懷疑態(tài)度。他們的顧忌是,很多AI解決方案的運作就像個黑匣子,無法解釋為什么似乎就奇跡般地產生了洞察結果。
而與此同時,眾多行業(yè)現(xiàn)在都認為知識圖譜是一種數(shù)據(jù)管理、元數(shù)據(jù)管理和豐富數(shù)據(jù)的有效方式,并且正在越來越多地應用于數(shù)據(jù)整合技術。此外,知識圖也正在成為AI策略的組成部分,通過所謂的人在回路(HITL,human-in-the-loop)設計原則達到可解釋AI的目的。
>>> 為什么人工智能的運作是個黑盒子?
AI基于諸如深度學習一類的機器學習算法,其強項就是從大數(shù)據(jù)集里自動提取模式和規(guī)則。這樣做非常適合于一些特定的問題,在許多情況下可以幫助完成自動分類任務。至于為什么一些物體被歸到某一類或另一類卻是不可解釋的。因為機器學習不能提取因果關系,機器學習也就不能歸納抽取某些規(guī)則的原因。
機器學習算法是從歷史數(shù)據(jù)中進行學習,但機器學習算法無法從歷史數(shù)據(jù)里得到新的見解。在日益變化的環(huán)境里,這個問題常常會受到質疑,因為深度學習的全部方法都是基于有足夠數(shù)據(jù)的假設。在許多行業(yè)(如金融和醫(yī)療保健)里,有一點越來越重要——要實現(xiàn)的AI系統(tǒng)必須能夠提供可解釋的、透明的決定以及可以快速地與新的條件和監(jiān)管框架接軌(如歐盟關于人工智能倫理的指引:https://www.europarl.europa.eu/RegData/etudes/BRIE/2019/640163/EPRS_BRI\(2019\)640163_EN.pdf)
>>> 我們能構建可以信任的AI應用嗎?
如果沒有可解釋性,就沒有信任可言??山忉屝砸馕吨到y(tǒng)里存在值得信賴的因子,這些因子能夠理解和解釋由AI系統(tǒng)作出的決定。但在目前情況下,除了讓人工智能的決策更透明以外沒有其他選擇。不幸的是,一些最流行的機器學習算法是基于無法解釋的計算規(guī)則,這些計算規(guī)則無外乎 “既成事實”。
要擺脫這種困境,唯一方法就是從根本上再構造有關的基本架構,不僅要用知識圖譜作為計算的前提,還要提供相應的解釋。
>>> 語義AI是什么?
語義AI是符號和統(tǒng)計AI背后的推動力。它結合了機器學習、知識建模、自然語言處理、文本挖掘和互聯(lián)網(wǎng)語義各方面的方法,以及AI策略的優(yōu)勢(主要是語義推理和神經網(wǎng)絡方面的優(yōu)勢)。
需要強調的是語義AI是目前構建基于AI系統(tǒng)主要方法的擴展,不是替代辦法。該方法不僅提供戰(zhàn)略選擇,還會提供一個直接好處:可以更快地從小訓練數(shù)據(jù)進行學習,比如在開發(fā)開發(fā)聊天機器人時克服所謂的冷啟動問題。
>>> 知識科學家是什么樣的科學家?
基于完全不同的方法,語義AI引入了具有互補技能的附加利益相關者。傳統(tǒng)的機器學習主要由數(shù)據(jù)科學家完成,而參與語義AI或可解釋AI的則是知識科學家。二者的區(qū)別是什么?
從本質上看,數(shù)據(jù)科學家絕大多數(shù)的時間都花在收集和處理不受控制的數(shù)據(jù)上,目的是從數(shù)據(jù)里得到有益的信息,工作的重點是利用無關的數(shù)據(jù)構建平鋪數(shù)據(jù)文件,生成的數(shù)據(jù)特征與現(xiàn)實世界的關系并不強。
還有另一種方法,就是通過開發(fā)一些工具,然后由知識科學家用工具直接處理企業(yè)的知識圖并從中提取數(shù)據(jù)的子集,進而迅速轉化為分析結構。分析結果的本身可以被重復使用,并構建成為更豐富的知識圖譜。
相較而言,語義AI方法建立的是一個連續(xù)的循環(huán),由機器學習科學家和知識科學家作為這個循環(huán)上不可或缺的一部分。知識圖在之間充當接口并提供高品質數(shù)據(jù)和歸一化數(shù)據(jù)之間的鏈接。
>>> 新的人工智能方法會得出更好的結果嗎?
知識圖的使用除了可以用于構建值得信賴和被廣泛接受的可解釋AI外,還可以連同富含語義和鏈接的數(shù)據(jù)對機器學習算法進行訓練。
該方法有許多優(yōu)點。比如,可以在少量訓練數(shù)據(jù)的前提下獲取具足夠精度的結果,這在冷啟動階段特別很有用。除此之外,該方法的訓練數(shù)據(jù)集可重用性也更好,這將有助于節(jié)省數(shù)據(jù)準備過程里的成本。與此同時,該方法還可以為現(xiàn)有的訓練數(shù)據(jù)補充背景知識,通過自動推理進而可迅速獲取更豐富的訓練數(shù)據(jù),還可以幫助避免在特定領域中提取從根本上就是錯誤的規(guī)則。
>>> 開發(fā)和關注語義AI
綜上所述,如果讀者是數(shù)據(jù)科學家或數(shù)據(jù)經理,或是如果你管理的人處在這樣的位置,那就務必開始著手語義AI研究和發(fā)展與語義AI工作相關所需的技能。
語義豐富的數(shù)據(jù)是高質量數(shù)據(jù)的基礎,可為特征提取提供更多的機會。而由機器學習算法計算得到預測和分類精度就會更高。此外,語義AI應該建立基礎架構以克服AI系統(tǒng)開發(fā)商和其他利益相關者的信息不對稱性,其中的利益相關者包括消費者和政策制定者等等。從這方面來說,語義AI最終將在技術、倫理和法律三個層面上的工作達到AI治理的目的。
雖然,目前大多數(shù)機器學習算法在數(shù)據(jù)是文本或結構化數(shù)據(jù)時都可以很好的運作。但語義數(shù)據(jù)模型的引入將發(fā)揮更大的作用。
好文章,需要你的鼓勵
浙江大學團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調整內部專家配置。該方法在數(shù)學、編程等任務上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓練提供了新思路。
南洋理工大學與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術,實現(xiàn)AI視頻實時流式生成的重大突破。該技術通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質量視頻,延遲僅0.76秒,質量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內容創(chuàng)作開辟新可能。
華中科技大學研究團隊發(fā)現(xiàn),通過讓AI模型學習解決幾何問題,能夠顯著提升其空間理解能力。他們構建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學習方法訓練多個AI模型。實驗結果顯示,幾何訓練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎幾何知識對培養(yǎng)AI空間智能的重要價值。