時至今日,機(jī)器學(xué)習(xí)與深度學(xué)習(xí)已經(jīng)成為各類日常應(yīng)用程序中的重要組成部分。而正是通過制定正確的策略、將機(jī)器學(xué)習(xí)算法集成到運(yùn)營與流程當(dāng)中,眾多企業(yè)才得以快速實(shí)現(xiàn)蓬勃發(fā)展。與之對應(yīng),任何忽略了人工智能重大進(jìn)步的競爭對手,都將在市場上失去立足之地。
但掌握機(jī)器學(xué)習(xí)知識是個困難的過程。大家需要從扎實(shí)的線性代數(shù)與微積分知識入手,掌握Python等編程語言,同時精通Numpy、Scikit-learn、TensorFlow以及PyTorch等數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)庫。
如果你需要創(chuàng)建具備集成與擴(kuò)展能力的機(jī)器學(xué)習(xí)系統(tǒng),還需要熟悉Amazon AWS、微軟Azure以及Google Cloud等云平臺。
很明顯,不少朋友壓根不打算把自己培養(yǎng)成機(jī)器學(xué)習(xí)工程師。但我們得承認(rèn),這些數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)知識確實(shí)能給業(yè)務(wù)或組織負(fù)責(zé)人帶來不少助益。好消息是,目前已經(jīng)有幾門課程提供關(guān)于機(jī)器學(xué)習(xí)及深度學(xué)習(xí)的宏觀概述,而且不要求各位深入研究數(shù)學(xué)和編碼技能。
但結(jié)合自己的經(jīng)驗,要想真正建立起對數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)的認(rèn)知,必須在算法方面具有一定實(shí)踐經(jīng)驗。在這方面,微軟Excel無疑是一款極具價值、但卻經(jīng)常被忽視的工具。
圖注:Hong Zhou撰寫的《通過Excel學(xué)習(xí)數(shù)據(jù)挖掘:逐步理解機(jī)器學(xué)習(xí)方法》
對大多數(shù)人來說,微軟Excel只是一款電子表格應(yīng)用程序,負(fù)責(zé)以表格形式存儲數(shù)據(jù)并執(zhí)行比較基礎(chǔ)的數(shù)學(xué)運(yùn)算。但實(shí)際上,Excel是一款能夠解決復(fù)雜問題的強(qiáng)大計算工具,其中包含的不少功能甚至允許您直接在工作簿中創(chuàng)建機(jī)器學(xué)習(xí)模型。
雖然我本人多年來一直在使用Excel數(shù)學(xué)工具,但直到接觸到《通過Excel學(xué)習(xí)數(shù)據(jù)挖掘:逐步理解機(jī)器學(xué)習(xí)方法》(Learn Data Mining Through Excel: A Step-by-Step Approach for Understanding Machine Learning Methods )中Hong Zhou提出的學(xué)習(xí)方法,我才意識到Excel在數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)領(lǐng)域的學(xué)習(xí)與應(yīng)用意義。
文中介紹了如何通過Excel一步步掌握機(jī)器學(xué)習(xí)基礎(chǔ)知識,同時也展示了如何使用Excel基礎(chǔ)函數(shù)與高級工具實(shí)現(xiàn)多種算法。
雖然Excel絕對無法取代Python機(jī)器學(xué)習(xí),但它仍是學(xué)習(xí)AI基礎(chǔ)知識并解決各類基本問題、同時又無需編寫代碼的絕佳入門選項。
使用Excel進(jìn)行線性回歸機(jī)器學(xué)習(xí)
線性回歸是一種簡單的機(jī)器學(xué)習(xí)算法,在分析數(shù)據(jù)與預(yù)測結(jié)果方面有著重要用途。具體來講,線性回歸特別適合處理那些整齊排列的表格式數(shù)據(jù)。Excel提供多項功能,可幫助您通過電子表格中的數(shù)據(jù)創(chuàng)建回歸模型。
作為一款直觀工具,數(shù)據(jù)圖表工具能夠提供強(qiáng)大的數(shù)據(jù)可視化功能。例如,你可以通過散點(diǎn)圖在笛卡爾平面上顯示數(shù)據(jù)的值。但除了顯示數(shù)據(jù)分布之外,Excel圖表工具還可以創(chuàng)建機(jī)器學(xué)習(xí)模型,用以預(yù)測數(shù)據(jù)值的變化。這項功能名為趨勢線,可根據(jù)您的數(shù)據(jù)創(chuàng)建回歸模型。你可以在趨勢線選定多種回歸算法,包括線性、多項式、對數(shù)與指數(shù)。你還可以配置圖表以顯示機(jī)器學(xué)習(xí)模型中的參數(shù),借此預(yù)測新的觀察結(jié)果。
當(dāng)然,你還可以將多個趨勢線添加至同一圖表當(dāng)中,借此快速測試并比較不同機(jī)器學(xué)習(xí)模型在同一批數(shù)據(jù)上的性能。
圖注:Excel中的趨勢線功能可根據(jù)數(shù)據(jù)創(chuàng)建回歸模型。
除了體驗圖表工具之外,《通過Excel學(xué)習(xí)數(shù)據(jù)挖掘》還提供其他一些體驗流程,幫助您開發(fā)出更高級的回歸模型。其中涵蓋LINEST與LINREG等公式,可根據(jù)您的訓(xùn)練數(shù)據(jù)為機(jī)器學(xué)習(xí)模型計算出必要參數(shù)。
作者還引領(lǐng)大家逐步使用其他Excel基礎(chǔ)公式(例如SUM與SUMPRODUCT)創(chuàng)建線性回歸模型。整本書都遵循類似的套路:介紹機(jī)器學(xué)習(xí)模型中使用的數(shù)學(xué)公式,了解其背后的基本原理,并通過將值與公式組合在多個單元格及單元格數(shù)組中逐步創(chuàng)建出模型。
這一切距離生產(chǎn)級數(shù)據(jù)科學(xué)工作還很遙遠(yuǎn),但在學(xué)習(xí)機(jī)器學(xué)習(xí)方面卻是效果拔群,足以幫助大家快速掌握各類常用的機(jī)器學(xué)習(xí)算法。
通過Excel掌握其他機(jī)器學(xué)習(xí)算法
除了回歸模型,你還可以在Excel上應(yīng)用其他機(jī)器學(xué)習(xí)算法。《通過Excel學(xué)習(xí)數(shù)據(jù)挖掘》中還提供豐富的監(jiān)督與無監(jiān)督機(jī)器學(xué)習(xí)算法,包括k均值聚類、k最近鄰、樸素貝葉斯分類與決策樹等等。
雖然整個過程可能顯得有點(diǎn)混亂,但只要按章節(jié)進(jìn)行,大家會很快摸索出其中的邏輯。以k均值聚類為例,我們將在這一章中通過多個工作表使用大量Excel公式與函數(shù)(INDEX, IF, AVERAGEIF, ADDRESS等),借此計算聚類中心并對其進(jìn)行優(yōu)化。這并不是最有效的聚類方法,但在通過一個個工作表對聚類進(jìn)行不斷完善的過程中,您將獲得良好的觀察與研究機(jī)會。更重要的是,這種體驗與傳統(tǒng)編程書籍大不相同。一般的編程書籍往往引導(dǎo)讀者直接使用數(shù)據(jù)點(diǎn)與機(jī)器學(xué)習(xí)庫函數(shù),借此直接輸出聚類及其屬性。
圖注:在Excel上進(jìn)行k均值聚類時,可以在連續(xù)的工作表上進(jìn)行聚類細(xì)化。
在決策樹一章中,我們將首先計算熵,再為機(jī)器學(xué)習(xí)模型中的各個分支選擇特征。這個過程非常緩慢而且需要大量人為操作,但卻能給各位帶來有效的機(jī)器學(xué)習(xí)算法理解視角與體驗。
在本書的多數(shù)章節(jié)中,我們都會使用求解器工具嘗試實(shí)現(xiàn)損失函數(shù)最小化。在這里,大家會深刻體會到Excel的局限性——即使是只包含十幾項參數(shù)的簡單模型,也可能令計算機(jī)陷入緩慢的抓取當(dāng)中。而一旦數(shù)據(jù)樣本多達(dá)幾百行,速度更是令人抓狂。但在對機(jī)器學(xué)習(xí)模型參數(shù)進(jìn)行調(diào)優(yōu)的過程中,求解器能夠表現(xiàn)出強(qiáng)大的功能。
圖注:Excel的求解器工具能夠調(diào)優(yōu)模型參數(shù)并實(shí)現(xiàn)損失函數(shù)最小化。
通過Excel進(jìn)行深度學(xué)習(xí)與自然語言處理
《通過Excel學(xué)習(xí)數(shù)據(jù)挖掘》還提到,Excel甚至能夠?qū)崿F(xiàn)某些高級機(jī)器學(xué)習(xí)算法。其中一章專門研究如何精心設(shè)計深度學(xué)習(xí)模型。首先,我們將創(chuàng)建一套包含約10項參數(shù)的單層人工神經(jīng)網(wǎng)絡(luò)。接下來,我們擴(kuò)展其概念,創(chuàng)建出包含隱藏層的深度學(xué)習(xí)模型。雖然整個計算過程緩慢且效率低下,但確實(shí)可以正常起效,通過單元格值、公式以及強(qiáng)大的求解器工具實(shí)現(xiàn)深度學(xué)習(xí)推理。
圖注:使用微軟Excel進(jìn)行深度學(xué)習(xí),可幫助你深入理解深度神經(jīng)網(wǎng)絡(luò)的運(yùn)作方式。
在最后一章中,我們將使用Excel創(chuàng)建一款最基礎(chǔ)的自然語言處理(NLP)應(yīng)用程序,借此建立情感分析機(jī)器學(xué)習(xí)模型。大家需要使用公式創(chuàng)建“詞袋模型”,借此對酒店評論進(jìn)行預(yù)處理與令牌化,而后根據(jù)肯定與否定關(guān)鍵字的密度對內(nèi)容進(jìn)行分類。在此過程中,大家將學(xué)到很多關(guān)于當(dāng)代AI如何處理語言內(nèi)容,以及AI與人類在處理局面及口頭語言方面有何不同的專業(yè)知識。
Excel——強(qiáng)大的機(jī)器學(xué)習(xí)工具
無論你身為企業(yè)中的決策者、來自人力資源部門還是負(fù)責(zé)管理供應(yīng)鏈及制造工廠,要想與數(shù)據(jù)科學(xué)家及AI技術(shù)人員協(xié)同合作,掌握機(jī)器學(xué)習(xí)方面的基礎(chǔ)知識都非常重要。同樣的,如果你身為報道AI動態(tài)的記者,或者身在為企業(yè)內(nèi)機(jī)器學(xué)習(xí)團(tuán)隊發(fā)聲的公關(guān)部門,理解相關(guān)工作原理也是編撰報道文章的重要基礎(chǔ)。在我看來,《通過Excel學(xué)習(xí)數(shù)據(jù)挖掘》是一本易于閱讀且節(jié)奏順暢的好書,足以幫助大家一鼓作氣上完這關(guān)于AI知識的第一課。
除了學(xué)習(xí)基礎(chǔ)知識之外,Excel還可以作為我們機(jī)器學(xué)習(xí)工具集的強(qiáng)大補(bǔ)充。雖然它不適合處理龐大的數(shù)據(jù)集與復(fù)雜的算法,但足以針對小批量數(shù)據(jù)完成可視化及分析。你從Excel快速挖掘中獲得的結(jié)果,將為后續(xù)的探索方向與機(jī)器學(xué)習(xí)算法選擇提供重要洞見,最終引導(dǎo)你走上解決問題的正確道路。
好文章,需要你的鼓勵
浙江大學(xué)團(tuán)隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時,輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個AI模型。實(shí)驗結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。