和數(shù)據(jù)科學。
“自動化對人工智能和機器學習生命周期的影響”這個話題很感興趣,并與Amini博士集中討論了AutoAI的下一代功能。
AutoAI自動執(zhí)行高度復(fù)雜的任務(wù),為數(shù)據(jù)尋找并優(yōu)化最好的機器學習模型、特征和模型超參數(shù)。AutoAI完成了原本需要專業(yè)數(shù)據(jù)科學家團隊和其他專業(yè)資源才能完成的工作,且速度要快得多。
圖:“數(shù)據(jù)科學家想要多自動化?”(圖片來源/IBM)
在模型訓(xùn)練開始之前,必須獲取、評估數(shù)據(jù),并對其進行預(yù)處理,以識別并糾正數(shù)據(jù)質(zhì)量問題。
它需要一個訓(xùn)練有素的資源團隊,他們要了解數(shù)據(jù)科學,還要有了解模型目的和輸出的主題專家。
理和建模階段進行無數(shù)次優(yōu)化調(diào)整。
管道的高度復(fù)雜性使其成為自動化的首要對象。
自動化功能包括數(shù)據(jù)準備、模型開發(fā)、特征工程和超參數(shù)優(yōu)化。
圖片來源/IBM
以下是AutoAI的部分功能列表:
自動分析數(shù)據(jù),并針對預(yù)測建模問題自動生成個性化的模型管道。
、算法和參數(shù)設(shè)置時迭代創(chuàng)建的。
結(jié)果顯示在排行榜上,并根據(jù)問題優(yōu)化目標,對自動生成的模型管道進行排名。
從數(shù)據(jù)準備,到算法選擇,再到模型創(chuàng)建,流程的每個階段都提供可視化。
用戶只需單擊鼠標,即可輕松部署模型,或為任何管道生成Python notebook。
用于持續(xù)模型改進的自動化任務(wù),可以在需要時,將AI模型API集成到應(yīng)用程序中。
只需點擊幾下鼠標,即使是只有基本數(shù)據(jù)科學技能的人,也可以使用自定義數(shù)據(jù)自動選擇、訓(xùn)練并調(diào)優(yōu)高性能機器學習模型。
無需從頭開始編寫管道代碼。
未來的人工智能自動化項目
IBM Research正在開展多個下一代人工智能自動化項目,例如處理新數(shù)據(jù)類型的下一代算法,實現(xiàn)新的自動化質(zhì)量和公平性,并顯著提高規(guī)模和性能。
AutoAI for Decisions和Semantic Data Science。
用于改進決策的AutoAI
數(shù)據(jù)集的時間維度使分析變得困難并且需要更高級的數(shù)據(jù)處理。
為訓(xùn)練準備數(shù)據(jù)集
根據(jù)數(shù)據(jù)類型確定需要哪種模型,例如分類還是回歸
將適當?shù)牟逖a轉(zhuǎn)換器置入管道中以處理丟失的數(shù)據(jù)
通過確定哪些數(shù)據(jù)列能夠最好地支持問題來進行特征選擇
測試各種超參數(shù)調(diào)整選項以獲得最佳結(jié)果
根據(jù)準確性和精確度等因素生成管道并對其排名。
Amini博士解釋說,在許多環(huán)境中,創(chuàng)建時間序列預(yù)測之后,下一步是利用預(yù)測來改進決策。
例如,數(shù)據(jù)科學家可能會建立一個“時間序列預(yù)測模型”預(yù)測產(chǎn)品需求,但是該模型也可以作為庫存補貨決策的輸入,通過減少成本、高昂的大量庫存積壓、或者避免由于庫存告罄造成的銷售損失,實現(xiàn)利潤最大化。
在另一些情況下,我們會用被稱為“決策優(yōu)化”的更系統(tǒng)性方法來構(gòu)建規(guī)范性模型,以補充時間序列預(yù)測模型。
然而,像AutoAI生成預(yù)測模型那樣直接根據(jù)數(shù)據(jù)自動化生成決策優(yōu)化管道的產(chǎn)品,目前還不存在。
多模型管道
這樣的產(chǎn)品同樣需要資源協(xié)作。
深度強化學習自動化
因此,它們需要大量的專業(yè)知識和手動工作對它們進行調(diào)整,以適應(yīng)特定的問題和數(shù)據(jù)集。
它還可以使用高級搜索策略,為模型選擇最佳的超參數(shù)配置。
該系統(tǒng)支持各種類型的強化學習,包括在線和離線學習以及無模型和基于模型的算法。
自動擴展人工智能
強化學習自動化解決了在企業(yè)中擴展人工智能的兩個緊迫問題。
首先,它為順序決策問題提供了自動化,在這類問題中,不確定性可能會削弱啟發(fā)式甚至是不使用歷史數(shù)據(jù)的正規(guī)優(yōu)化模型。
其次,它為具有挑戰(zhàn)性的強化學習模型構(gòu)建領(lǐng)域帶來了一種自動化、系統(tǒng)化的方法。
Semantic Data Science(語義數(shù)據(jù)科學)
自動化方法目前依靠統(tǒng)計技術(shù)來探索特征空間。
例如,如果數(shù)據(jù)是關(guān)于汽車的,則特征空間可能是福特、特斯拉、寶馬。
盡管如此,要知道哪些特征和轉(zhuǎn)換是相關(guān)的,用戶必須具備足夠的技術(shù)技能來破譯和翻譯代碼和文檔。
數(shù)據(jù)科學家的新語義能力
一旦AutoAI檢測到正確的語義概念,程序就會使用這些概念廣泛搜索現(xiàn)有代碼、數(shù)據(jù)和文獻中可能存在的相關(guān)特征和特征工程操作。
AutoAI可以使用這些新的、語義豐富的特征來提高生成模型的準確性,并通過這些生成的特征提供可供人類閱讀的解釋。
但是,想要理解發(fā)現(xiàn)的語義概念,可以使用Semantic Feature Discovery(語義特征發(fā)現(xiàn))可視化資源管理器來探索發(fā)現(xiàn)的關(guān)系。
用戶只需單擊Sources超鏈接,即可直接從可視化資源管理器進入新功能生成的Python代碼或文檔,如下圖所示。
甚至可以在IBM的API Hub上試用其中一些功能。
Amini博士用一句話總結(jié)了IBM對AutoAI投入的大量研究工作,并以此結(jié)束了我們的談話:
”
要點總結(jié)
好文章,需要你的鼓勵
浙江大學團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學、編程等任務(wù)上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓(xùn)練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學研究團隊發(fā)現(xiàn),通過讓AI模型學習解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學習方法訓(xùn)練多個AI模型。實驗結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。
科技行者旗下編譯團隊,聚焦海外新技術(shù)、新觀點、新風向。