2024年對于OceanBase來說是尤為關(guān)鍵的一年。
一方面,這一年,螞蟻集團(tuán)官宣OceanBase正式獨立運(yùn)營;
更重要的是,不少頭部企業(yè)核心業(yè)務(wù)開始正式轉(zhuǎn)向OceanBase分布式數(shù)據(jù)庫,一些企業(yè)甚至明確提出了要“All in OceanBase”。
OceanBase CEO楊冰稱,“分布式數(shù)據(jù)庫如今已經(jīng)開始成為現(xiàn)代數(shù)據(jù)庫的標(biāo)準(zhǔn)架構(gòu),與此同時,一體化數(shù)據(jù)庫也逐漸成熟、走向商用。”
2024年,在這兩大主流趨勢推動下,OceanBase有了更大的作戰(zhàn)空間。
當(dāng)然,他們也有了新的思考和目標(biāo)。
數(shù)據(jù)庫的艱難十年
2014年11月,在AWS re:Invent大會上,亞馬遜官宣發(fā)布了Amazon Aurora,Aurora的發(fā)布,拉開了自研數(shù)據(jù)庫的帷幕。
當(dāng)時中國數(shù)據(jù)庫商用市場仍處于初期階段,雖然Oracle在1989年就已經(jīng)進(jìn)入中國市場,并帶動了鐵路、金融、運(yùn)營商等大型國央企的信息化升級,但由于高昂的售價和運(yùn)維費(fèi)用,每年這些企業(yè)都需要巨額費(fèi)用支出,自研數(shù)據(jù)庫在這時的中國呼之欲出。
2010年,44歲的陽振坤加入阿里,帶隊開啟了阿里的數(shù)據(jù)庫自研之路,更準(zhǔn)確的說法是,陽振坤這一年在阿里內(nèi)部開啟了分布式數(shù)據(jù)庫OceanBase的自研之路。
這一年,關(guān)系型數(shù)據(jù)庫仍是主流,但行業(yè)中已經(jīng)有了NoSQL有可能取代關(guān)系型數(shù)據(jù)庫的熱議,而分布式數(shù)據(jù)庫還只是一個不被看好的小眾路線。
楊冰回憶稱,“十幾年前,由于分布式數(shù)據(jù)庫的技術(shù)還很不成熟,就連如何用中間件做分庫、分表都還是一件很復(fù)雜的事,因而算是一條很小眾的技術(shù)路線。”
不過,這還不是阿里自研數(shù)據(jù)庫之初遇到最大的難題,他們當(dāng)時遇到最大的難題其實是人才短缺。
當(dāng)時雖然一些IT技術(shù)人員已經(jīng)開始使用數(shù)據(jù)庫,但由于這項技術(shù)復(fù)雜度高,在國內(nèi)起步較晚,真要做數(shù)據(jù)庫自研,很難招到優(yōu)秀的數(shù)據(jù)庫人才。
這也是OceanBase后來每年召開開發(fā)者大會,在開發(fā)者社群上不斷投入,甚至直接與高校合作,聯(lián)合高校培養(yǎng)人才的原因之一。
當(dāng)然,這些都是后話,在阿里決定自研數(shù)據(jù)庫時,擺在他們面前的第一個問題是——選擇開源路線,還是純自研路線?
選擇開源路線的話,相當(dāng)于站在了巨人的肩膀上,不用經(jīng)歷從0到1的冷板凳和痛苦閉關(guān),但問題在于,當(dāng)時國內(nèi)企業(yè)在實際應(yīng)用場景中,遇到的很多問題通過開源數(shù)據(jù)庫已經(jīng)無法從根本上得到解決。
例如,隨著企業(yè)對于海量數(shù)據(jù)、高速寫入的需求越來越大,LSM-Tree數(shù)據(jù)結(jié)構(gòu)剛好適合這樣的需求。
然而,在傳統(tǒng)的數(shù)據(jù)庫架構(gòu)中,基于LSM-Tree構(gòu)建索引、進(jìn)行數(shù)據(jù)查詢這樣最基本的需求并不友好。
選擇純自研路線,可以從底層架構(gòu)上打破傳統(tǒng)規(guī)則,可以設(shè)計一個全新的、更適合應(yīng)用需求的架構(gòu),這樣自然也更容易解決數(shù)據(jù)庫行業(yè)當(dāng)時看似沖突的業(yè)務(wù)需求。
但這樣從無到有根技術(shù)的突破,是一個痛苦而又煎熬的過程。
當(dāng)時的OceanBase團(tuán)隊在二者之間,最終還是選擇了純自研這條“不歸路”。
就是這樣一條純自研、當(dāng)時看起來又很小眾的技術(shù)路線,OceanBase堅持了10年。
楊冰說,“目前,OceanBase已經(jīng)做到了100%根自研。”
“從第一行代碼寫起,我們知道每一行代碼是如何實現(xiàn)的,網(wǎng)絡(luò)存儲CPU是如何調(diào)度的,所以我們結(jié)合各個專有云、公有云場景做了大量的技術(shù)嘗試和自研創(chuàng)新。”
2014年,原生分布式數(shù)據(jù)庫OceanBase取代了原本的集中式數(shù)據(jù)庫,支撐起了支付寶核心交易系統(tǒng),并開始承擔(dān)“雙十一”10%的交易流量;
2016年,OceanBase 1.0版本正式發(fā)布,這一年“雙十一”期間支付寶所有支付數(shù)據(jù)鏈和交易數(shù)據(jù)鏈全部運(yùn)行在了OceanBase上,在阿里內(nèi)部率先實現(xiàn)了核心業(yè)務(wù)替代;
2021年,OceanBase發(fā)布HTAP混合引擎,并正式對外開源,客戶數(shù)量超過400家,開始真正成為通用型企業(yè)級分布式數(shù)據(jù)庫。
“All in OceanBase”
當(dāng)楊冰在2024年站到OceanBase數(shù)據(jù)庫城市行|粵港澳的講臺上時,分布式數(shù)據(jù)庫已經(jīng)不再是十年前那個小眾的技術(shù)路線,真正成了數(shù)據(jù)庫領(lǐng)域一條主流技術(shù)路線。
來自IDC的統(tǒng)計數(shù)據(jù)顯示,到2022年,中國分布式事務(wù)數(shù)據(jù)庫在關(guān)系型數(shù)據(jù)庫中的占比已經(jīng)提升到了16.2%。
此外,據(jù)IDC預(yù)測,到2027年,中國分布式事務(wù)數(shù)據(jù)庫總體市場年復(fù)合增長率將達(dá)到28.5%,其中在公有云上增長率將達(dá)到32.8%。
這樣的增長速度,已經(jīng)超過了公有云本身的增速。
而楊冰在和一些機(jī)構(gòu)分析師交流中也獲悉,以現(xiàn)有的增速來看,到2025年,國內(nèi)使用分布式數(shù)據(jù)庫的企業(yè)和場景占比預(yù)計將會突破50%。
今天,用不用分布式數(shù)據(jù)庫已經(jīng)不再是一個問題,作為國內(nèi)最具代表性的分布式數(shù)據(jù)庫,OceanBase如今也已經(jīng)有了超千家客戶,諸如中國移動、交通銀行、理想汽車等一些頭部企業(yè)經(jīng)過測試和準(zhǔn)備,核心業(yè)務(wù)正在轉(zhuǎn)向OceanBase分布式數(shù)據(jù)庫。
交通銀行貸記卡系統(tǒng)的分布式改造,是其向全面分布式轉(zhuǎn)型的關(guān)鍵一步,其中就包括在底層使用OceanBase。
通過使用OceanBase,大大提升交通銀行數(shù)據(jù)處理效率和系統(tǒng)可用性,金融TPS(每秒處理事務(wù)數(shù))提升6倍、跑批效率提升超過7倍。
據(jù)楊冰在大會上公布的數(shù)據(jù)顯示,如今的OceanBase已經(jīng)服務(wù)了中國70%頭部銀行、75%頭部證券、45%頭部基金,以及20%省移動運(yùn)營商和25%省人社部門。
在這個過程中,分布式數(shù)據(jù)庫逐漸成為現(xiàn)代數(shù)據(jù)庫的標(biāo)準(zhǔn)配置,越來越多企業(yè)開始選擇分布式數(shù)據(jù)庫,開始“All in OceanBase”。
“一體化”新趨勢
2023年11月16日,在OceanBase2023年度發(fā)布會上,OceanBase 4.2.1 LTS正式發(fā)布。
OceanBase 4.2.1 LTS獨特之處在于,這是OceanBase首個長期支持的一體化數(shù)據(jù)庫版本。
什么是分布式一體化數(shù)據(jù)庫?
在傳統(tǒng)概念中,與分布式架構(gòu)相對應(yīng)的是集中式架構(gòu),然而,企業(yè)往往是線性發(fā)展路線,在不同階段,對兩類數(shù)據(jù)庫可能存在著不同的需求,這就意味著,對于數(shù)據(jù)庫供應(yīng)商而言,難以從工程和產(chǎn)品設(shè)計上將兩類產(chǎn)品完全切分開來。
“分布式和集中式本身不是對立的,”這是楊冰和OceanBase團(tuán)隊這幾年做數(shù)據(jù)庫產(chǎn)品研發(fā)和工程實踐的切身體會。
這也就有了OceanBase將分布式和單機(jī)數(shù)據(jù)庫融合在一起的設(shè)計思路來源。
vivo是受益于這類數(shù)據(jù)庫產(chǎn)品的企業(yè)之一,vivo體系與流程部IT部DBA組總監(jiān)鄢楠指出,“vivo現(xiàn)在內(nèi)部業(yè)務(wù)系統(tǒng)已經(jīng)從十幾個數(shù)據(jù)庫實例發(fā)展到了數(shù)千個,其中既有使用商業(yè)數(shù)據(jù)庫的業(yè)務(wù)系統(tǒng),也有使用開源數(shù)據(jù)庫的業(yè)務(wù)系統(tǒng),基于降本增效考慮,在2023年開始基于OceanBase自建數(shù)據(jù)庫。”
在這一過程中,vivo使用的正是OceanBase 4.2.1版本,也就是OceanBase的單機(jī)分布式一體化產(chǎn)品。
基于這一版本,在半年時間里,OceanBase已經(jīng)在vivo內(nèi)部15個生產(chǎn)業(yè)務(wù)系統(tǒng)上線應(yīng)用,在vivo原有的MySQL分庫分表架構(gòu)替換為OceanBase后,總資源占用節(jié)省了80%,極大地降低了vivo團(tuán)隊的運(yùn)維成本。
一體化是楊冰篤定的數(shù)據(jù)庫技術(shù)趨勢,也是貫穿OceanBase過往十四年研發(fā)歷路中始終如一的方向。
在過往十四年里,OceanBase團(tuán)隊已經(jīng)基于自家數(shù)據(jù)庫實現(xiàn)了工程一體化、TP/AP一體化、云上云下一體化、單機(jī)分布式一體化,這四個“一體化”打造出的數(shù)據(jù)庫,也是楊冰認(rèn)為接下來新一代數(shù)據(jù)庫該有的樣子。
就在前不久,螞蟻集團(tuán)官宣,旗下螞蟻國際、OceanBase和螞蟻數(shù)科已成立董事會,開始獨立面向市場。
與此同時,OceanBase在3月20日的大會上官宣升級2022年發(fā)布的珊瑚計劃,提高專有云伙伴簽約占比至70%,伙伴獨立交付占比提高到30%。
OceanBase分布式數(shù)據(jù)庫規(guī)?;逃寐涞毓?jié)奏由此也得以再次加快。
作為自2020年開始獨立商業(yè)化的技術(shù)團(tuán)隊,2024年,當(dāng)OceanBase正式獨立運(yùn)營、加快進(jìn)入市場時,一個數(shù)據(jù)庫行業(yè)新周期也悄然拉開帷幕。
好文章,需要你的鼓勵
浙江大學(xué)團(tuán)隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實驗顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機(jī)制和高效訓(xùn)練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個AI模型。實驗結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。
關(guān)注智造、硬件、機(jī)器人。