ChatGPT為代表的AIGC應(yīng)用,正在以“迅雷不及掩耳”之勢,帶來人工智能的新想象,雖然數(shù)據(jù)庫不處于人工智能的最前沿,但作為人工智能的基礎(chǔ)設(shè)施,都在不由的為這個快速成長的“孩子”做好準(zhǔn)備,呵護AIGC應(yīng)用的大批來襲。
人工智能會因為ChatGPT的火爆而有大量的應(yīng)用涌現(xiàn)出來,數(shù)字化的進程會因此提速,這些應(yīng)用的前提是,要有一個能為人工智能應(yīng)用普及化到來而準(zhǔn)備的數(shù)據(jù)庫。這樣的數(shù)據(jù)庫是否已經(jīng)有了?是否能在AIGC時代,不拖后腿,還能助一臂之力?
坐在記者面前的阿里云數(shù)據(jù)庫產(chǎn)品事業(yè)部負責(zé)人李飛飛,看起來胸有成竹。阿里云瑤池數(shù)據(jù)庫,將云原生數(shù)據(jù)庫PolarDB和云原生數(shù)據(jù)倉庫AnalyticDB打通融合,形成了“云原生一體化”的HTAP解決方案。阿里云還推出了全新多模數(shù)據(jù)庫Lindorm AI 引擎,在數(shù)據(jù)庫內(nèi)集成人工智能能力,對非結(jié)構(gòu)化數(shù)據(jù)進行智能分析和處理,打造AIGC應(yīng)用的數(shù)據(jù)基礎(chǔ)設(shè)施。
圖:阿里云數(shù)據(jù)庫產(chǎn)品事業(yè)部負責(zé)人李飛飛
人工智能來襲?已經(jīng)準(zhǔn)備好
AIGC時代需要能夠支持海量、多模態(tài)數(shù)據(jù)的數(shù)據(jù)庫,因為AIGC一定是需要多模態(tài)的數(shù)據(jù)、不是單一形態(tài)的數(shù)據(jù),所以阿里云Lindorm數(shù)據(jù)庫就非常好地滿足了這個條件。
“這些應(yīng)用的背后,可能會是基于用戶自建的數(shù)據(jù)模型,也可能會是第三方的模型,這種多模態(tài)共存的方式,接下來會成為普遍存在的現(xiàn)象。支撐海量、多模態(tài)數(shù)據(jù)的低成本、高效率的存儲和處理,這是Lindorm這么多年打造的堅實基礎(chǔ)。但光有這個不行,還需要能夠支持豐富、靈活、強大的模型導(dǎo)入和使用。”
如此眾多的模型,對數(shù)據(jù)庫來說,就好比是“人民戰(zhàn)爭的汪洋大海”。
李飛飛指出,阿里云應(yīng)對的辦法是——足夠的開放,用平臺化的方式去賦予數(shù)據(jù)庫更多的能力,去無縫導(dǎo)入第三方的模型。
把用戶導(dǎo)入的模型放在一個機密容器里,保證模型安全。導(dǎo)入模型以后,結(jié)合多模態(tài)數(shù)據(jù),這個想象空間天花板就非常高。有多模態(tài)數(shù)據(jù)高效低成本的存儲,加上第三方靈活開放應(yīng)用的導(dǎo)入,任何事情幾乎都可以干,足以應(yīng)對AIGC的各種創(chuàng)新需求。
當(dāng)然,隨著AIGC的相關(guān)應(yīng)用推進,人工智能逐漸的平民化,數(shù)據(jù)庫在運維管控層面,運維和調(diào)優(yōu)會也變得更加智能化。“過去,MySQL和PostgreSQL都是幾百個參數(shù)起,每個參數(shù)對不同場景的影響都不一樣,依賴有經(jīng)驗的DBA和開發(fā)者,就像老中醫(yī)開藥方一樣,有的藥方靈,有的藥方吃了就沒有用,”李飛飛說,“這些都會隨之變得平民化和智能化,運維、高可用的檢測告警、異常的報警,等等這些都會智能化。其實這件事已經(jīng)發(fā)展幾年了,但是接下來的一到兩年會加速。”
如果人工智能加速變革,那么數(shù)字化必然也會加快腳步。
李飛飛指出,“過去一二十年,是信息時代的數(shù)字化,也就是說,是企業(yè)的信息化辦公實現(xiàn)了數(shù)字化。比如我們實現(xiàn)了無紙化辦公,比如說電話會議等等,這叫信息化的數(shù)字化。”
當(dāng)人工智能到了臨界點,一定會催生兩個趨勢:李飛飛說“一個叫物理世界數(shù)字化,還有一個是生物世界數(shù)字化,不管是在中國、美國還是歐洲,人類對長生不老的追求是生生不息的,所以生物世界數(shù)字化一定會是非常熱的熱點。還有物理世界數(shù)字化,將整個物理世界數(shù)字化。”
我們正在經(jīng)歷、見證著這樣的變革。
數(shù)據(jù)中心的“四化”
數(shù)字化的變革時代,AIGC帶來的智能化浪潮,智能化的趨勢無可厚非,除了智能化,李飛飛提到了數(shù)據(jù)庫發(fā)展到現(xiàn)在的發(fā)展階段,云計算進入深水區(qū),就像我們要進行“四個現(xiàn)代化建設(shè)”一樣,數(shù)據(jù)庫也要實現(xiàn)“四化”,除了要發(fā)展智能化,數(shù)據(jù)庫還要大力發(fā)展云原生化、平臺化、一體化。
站在今天這個節(jié)點,已經(jīng)沒有人再質(zhì)疑數(shù)據(jù)庫向云原生化演進的必要性和現(xiàn)實的緊迫感,已經(jīng)有非常成熟的存儲計算分離技術(shù),存儲池化、計算池化帶來高可用、高可靠彈性,現(xiàn)在進入云原生化。
李飛飛說:“隨著數(shù)據(jù)量爆發(fā)式的增長,數(shù)據(jù)形態(tài)的多元化,以及業(yè)務(wù)的多樣化,數(shù)字化深入帶來業(yè)務(wù)多樣化是必然的,傳統(tǒng)的單一的數(shù)據(jù)庫產(chǎn)品包打天下、解決所有問題的時代已經(jīng)結(jié)束了,一定是用一個平臺化的思維去構(gòu)建可能有多個引擎,基于平臺來提供一個一整套的、一站式的能力和解決方案,這就是數(shù)據(jù)庫的平臺化。”
以后的數(shù)據(jù)庫,不用再去管是集中式數(shù)據(jù)庫、分布式數(shù)據(jù)庫,這個問題應(yīng)該由數(shù)據(jù)庫本身來解決,什么時候用集中式架構(gòu),什么時候用分布式架構(gòu),是有業(yè)務(wù)需要來抉擇的,自動在兩者之間切換,平滑地轉(zhuǎn)化,實現(xiàn)云原生分布式真正的一體化,集中分布一體化。
阿里云瑤池數(shù)據(jù)庫卡位“云原生+一站式”的數(shù)據(jù)管理與服務(wù),正在用這樣的理念,做更符合這個時代的數(shù)據(jù)庫產(chǎn)品。
好文章,需要你的鼓勵
浙江大學(xué)團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實驗顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓(xùn)練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團隊發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學(xué)習(xí)方法訓(xùn)練多個AI模型。實驗結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達到49.6%準(zhǔn)確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。
琢磨技術(shù)發(fā)展史,關(guān)注算力產(chǎn)業(yè),關(guān)注數(shù)字經(jīng)濟。
參與編寫了《開源法則》(人民郵電出版社),《人類計算簡史:從中國算盤到數(shù)字經(jīng)濟》(中共中央黨校出版社)。