作者 | 金旺
來源 | 科技行者
IDC預(yù)測數(shù)據(jù)顯示,2024年全球人工智能產(chǎn)業(yè)規(guī)模將達(dá)到6233億美元,同比增幅高達(dá)21.5%。
中國信通院在相關(guān)分析報(bào)告中也指出,人工智能產(chǎn)業(yè)之所以能保持高速增長,除了大模型的涌現(xiàn),另一個(gè)重要原因是生成式AI正在加速產(chǎn)業(yè)化。
要想推動(dòng)以生成式AI為代表的人工智能技術(shù)在產(chǎn)業(yè)中快速落地應(yīng)用,事關(guān)AI計(jì)算、存儲(chǔ)等的基礎(chǔ)設(shè)施技術(shù)升級就成了其中關(guān)鍵。
1月16日,OceanBase公共云產(chǎn)品總監(jiān)陳小偉在OB Cloud見面會(huì)上透露,面向AP實(shí)時(shí)分析場景的首個(gè)LTS(長期支持)版本OceanBase 4.3.5 LTS版本即將上線OB Cloud。
這將成為OceanBase接下來支撐企業(yè)AI應(yīng)用落地的一次重要產(chǎn)品更新。
01 構(gòu)建現(xiàn)代數(shù)據(jù)架構(gòu),OB Cloud迎來AP更新
據(jù)中國信通院在《中國數(shù)字經(jīng)濟(jì)發(fā)展研究報(bào)告(2024年)》中公布數(shù)據(jù)顯示,2023年我國數(shù)字經(jīng)濟(jì)規(guī)模達(dá)53.9萬億元,較上年增長3.7萬億元,占GDP比重達(dá)42.8%。
在數(shù)字經(jīng)濟(jì)規(guī)模持續(xù)增長背后,是數(shù)字化已成大勢所趨,越來越多企業(yè)加入到了數(shù)字化轉(zhuǎn)型浪潮中。
不過,在企業(yè)數(shù)字化轉(zhuǎn)型過程中,尤其是中國數(shù)以千萬計(jì)的中小企業(yè),雖然得益于互聯(lián)網(wǎng)技術(shù)紅利,但也備受這些復(fù)雜技術(shù)維護(hù)和硬件成本投入的困擾。
于是,云服務(wù)就成了一個(gè)不錯(cuò)的選擇。
OceanBase是在2022年推出的云數(shù)據(jù)庫產(chǎn)品OB Cloud,并啟動(dòng)了云數(shù)據(jù)庫戰(zhàn)略。
彼時(shí)的OceanBase更多是為了屏蔽和簡化互聯(lián)網(wǎng)技術(shù)的復(fù)雜度,讓企業(yè)在受益于互聯(lián)網(wǎng)技術(shù)的同時(shí),簡化技術(shù)棧并降低維護(hù)成本。
在經(jīng)過這兩年持續(xù)技術(shù)更新后,OB Cloud在傳統(tǒng)數(shù)據(jù)庫云上遷移、高并發(fā)場景支持、TP&AP融合方面有了很好的表現(xiàn),不僅服務(wù)了理想、上汽大眾、vivo等超700家企業(yè),也成為了OceanBase的第二增長曲線。
例如全球零售巨頭寶潔正是在完成了多種數(shù)據(jù)庫向1個(gè)OceanBase集群遷移后,ELT最高提速了324%,得益于技術(shù)棧整合和存儲(chǔ)壓縮技術(shù),實(shí)現(xiàn)了40%的降本。
作為中國跨境物流領(lǐng)域頭部企業(yè),縱騰物流此前由于原有自建數(shù)據(jù)庫對大規(guī)模數(shù)據(jù)處理和復(fù)雜查詢的支持有限,數(shù)據(jù)準(zhǔn)確性和及時(shí)性不足,嚴(yán)重影響了物流過程的順利運(yùn)行。
在將自建數(shù)據(jù)庫切換到OB Cloud后,縱騰物流數(shù)據(jù)庫整體擁有成本降低了56%,集團(tuán)業(yè)務(wù)系統(tǒng)各項(xiàng)性能也得到了一定的提升。
時(shí)至今日,云數(shù)據(jù)庫已然成為行業(yè)發(fā)展的一個(gè)主流趨勢,據(jù)Flexera發(fā)布的《云狀態(tài)報(bào)告 2023》數(shù)據(jù)顯示,環(huán)境更復(fù)雜、決策較緩慢的大型企業(yè)已有50%的工作負(fù)載和數(shù)據(jù)在公有云上,中小企業(yè)比例更大,有超過三分之二的工作負(fù)載和63%的數(shù)據(jù)位于公有云中。
作為國內(nèi)頭部數(shù)據(jù)庫廠商,OceanBase的OB Cloud客戶數(shù)量在2024年更是實(shí)現(xiàn)了130%的增長。
也就在云服務(wù)成為大勢所趨時(shí),隨著生成式AI成為各類應(yīng)用構(gòu)建的核心功能,在企業(yè)數(shù)字化轉(zhuǎn)型過程中,人工智能技術(shù)開始加速在企業(yè)中得到應(yīng)用。
來自Gartner的預(yù)測數(shù)據(jù)顯示,到2026年,超過80%的企業(yè)將會(huì)使用生成式AI的API或部署生成式AI應(yīng)用程序。
這時(shí),企業(yè)對于數(shù)據(jù)庫的實(shí)時(shí)分析能力提出了更高的需求。
1月16日,OceanBase公共云產(chǎn)品總監(jiān)陳小偉在OB Cloud見面會(huì)上官宣,面向AP實(shí)時(shí)分析場景的首個(gè)LTS版本OceanBase 4.3.5 LTS即將上線OB Cloud。
相較于2024年10月OceanBase年度發(fā)布會(huì)上發(fā)布的4.3.3 GA版本,OceanBase4.3.5 LTS版本在性能、功能、兼容性和易用性上得到了全面的提升。
在功能層面,4.3.5 LTS版本引入了對嵌套物化視圖的支持,并對全文索引和向量索引功能進(jìn)行了完善。
這使得OceanBase數(shù)據(jù)庫在應(yīng)對多模數(shù)據(jù)分析時(shí)更加靈活高效,與此同時(shí),數(shù)據(jù)導(dǎo)入導(dǎo)出的能力也得到了顯著增強(qiáng)。
在向量索引方面,4.3.5 LTS版本在4.3.3版本基礎(chǔ)上增強(qiáng)了向量索引功能,支持的最大向量維度從2000維提升到了4096維,進(jìn)一步擴(kuò)大了OceanBase的適用范圍。
與此同時(shí),4.3.5 LTS版本新增了對cosine距離算法的支持,用戶可以在創(chuàng)建向量索引時(shí)指定此算法,并在查詢時(shí)通過cosine_distance表達(dá)式進(jìn)行過濾條件設(shè)置。
這讓OceanBase得以高效處理基于向量的多模數(shù)據(jù)查詢,為復(fù)雜的AI應(yīng)用場景提供了更強(qiáng)的能力支持。
此外,4.3.5 LTS版本不僅對MySQL和Oracle場景的支持更加全面,還在表級恢復(fù)性能、旁路導(dǎo)入性能、DML性能和DDL性能方面都進(jìn)行了不同程度的優(yōu)化。
值得注意的是,作為首個(gè)面向AP實(shí)時(shí)分析場景的LTS版本,在OceanBase 4.3.5 LTS版本發(fā)布之前,面向AP實(shí)時(shí)分析場景的OceanBase數(shù)據(jù)庫產(chǎn)品已經(jīng)經(jīng)歷了從4.3.1 Beta版本到4.3.3 GA版本多次迭代,有上百家企業(yè)客戶驗(yàn)證了OceanBase的AP能力,在OceanBase 4.3.3 GA版本中運(yùn)行的實(shí)例也已經(jīng)超過100個(gè)。
正因如此,OB Cloud得以在OceanBase 4.3.5 LTS版本中構(gòu)建起面向現(xiàn)代企業(yè)數(shù)字化、智能化轉(zhuǎn)型的數(shù)據(jù)架構(gòu),更好地應(yīng)對實(shí)時(shí)數(shù)據(jù)分析、混合負(fù)載管理、多模數(shù)據(jù)處理等需求。
而這樣的現(xiàn)代數(shù)據(jù)架構(gòu)另一項(xiàng)重要能力,是支持企業(yè)業(yè)務(wù)的跨云部署。
02 跨云雙活,消弭云上屏障
OceanBase首席科學(xué)家陽振坤曾指出,“今天全球有很多云平臺,這些云平臺提供了很好的數(shù)據(jù)庫服務(wù),但是他們都存在一個(gè)局限性,那就是每個(gè)云平臺提供的數(shù)據(jù)庫本質(zhì)上只能在該云平臺上使用。”
無論是基于故障、容災(zāi)方面的考慮,還是基于企業(yè)出海和全球化對于更多云的可選擇性方面的考慮,企業(yè)業(yè)務(wù)往往需要在多個(gè)云上進(jìn)行部署。
然而,即便是同樣基于MySQL的數(shù)據(jù)庫,不同云上的MySQL數(shù)據(jù)庫往往有著諸多不同,因而,企業(yè)業(yè)務(wù)的跨云部署就成了一大難題。
作為云中立的數(shù)據(jù)庫供應(yīng)商,OceanBase早在2022年OB Cloud發(fā)布之初,就開始支持多云部署。
OB Cloud的跨云高可用方案為了解決單元基礎(chǔ)設(shè)施不穩(wěn)定問題,按業(yè)務(wù)需求不同,又分為跨云冷備和跨云熱備兩種模式:
跨云冷備是基于OB Cloud兼容不同云服務(wù)的對象存儲(chǔ)系統(tǒng)的能力,通過數(shù)據(jù)備份+實(shí)時(shí)日志備份,提供快速的集群恢復(fù)服務(wù);
跨云熱備是OB Cloud直接通過OMS(數(shù)據(jù)遷移服務(wù))打通不同云產(chǎn)品,在企業(yè)某項(xiàng)業(yè)務(wù)使用的云服務(wù)出現(xiàn)異常時(shí),直接切換入口至備用云產(chǎn)品。
此外,OB Cloud的云內(nèi)高可用方案,也為企業(yè)業(yè)務(wù)在節(jié)點(diǎn)、機(jī)房、地域多級之間提供了高可用保障:
在節(jié)點(diǎn)級高可用方案中,OB Cloud通過三副本Paxos保證企業(yè)業(yè)務(wù)不在相同機(jī)器,以避免機(jī)器級故障;
在機(jī)房級高可用方案中,OB Cloud是通過單地域三機(jī)房和單地域雙機(jī)房+異地仲裁節(jié)點(diǎn)保證機(jī)房級高可用;
在地域級高可用方案中,OB Cloud則是通過數(shù)據(jù)備份+日志實(shí)時(shí)備份快速做集群恢復(fù),實(shí)現(xiàn)異地冷備。
正是基于這樣的云內(nèi)高可用和跨云高可用方案,OB Cloud如今已經(jīng)在美洲、歐洲、亞洲30多個(gè)地理區(qū)域的100多個(gè)可用區(qū),支持阿里云、亞馬遜云科技、谷歌云、華為云、騰訊云五大主流公有云基礎(chǔ)設(shè)施,提供一致的云數(shù)據(jù)庫服務(wù)。
例如映宇宙(原映客)一直與阿里云、騰訊云、亞馬遜云科技等多個(gè)云廠商有著密切合作,這一方面是因?yàn)橛秤钪娌煌瑯I(yè)務(wù)對云產(chǎn)品的需求不同,另一方面也是因?yàn)槎嘣撇渴鹩兄鼜?qiáng)的靈活性,也有更強(qiáng)的議價(jià)能力。
不過,由于各大云廠商數(shù)據(jù)庫產(chǎn)品之間有著技術(shù)與合規(guī)壁壘的存在,能夠進(jìn)行多云部署,也就成了映宇宙選擇OB Cloud的一個(gè)主要原因。
正是在選用OB Cluod后,映宇宙實(shí)現(xiàn)了多云下的統(tǒng)一技術(shù)棧,簡化了運(yùn)維流程,實(shí)現(xiàn)了超30%的降本。
映宇宙的多云部署更多是基于業(yè)務(wù)發(fā)展需求的考慮,此外,隨著近年來云故障事件頻發(fā),多云部署方案的熱度還在繼續(xù)升溫,越來越多企業(yè)基于對云上安全和容災(zāi)的考慮,開始基于多云方案部署核心業(yè)務(wù)系統(tǒng)。
也是在這時(shí),在OceanBase 4.3.5 LST版本上新的同時(shí),OB Cloud推出了跨云雙活的主備庫新特性,以滿足企業(yè)跨云容災(zāi)的業(yè)務(wù)訴求。
以企業(yè)部署在阿里云上的實(shí)例為例,OB Cloud可以為該實(shí)例在AWS上創(chuàng)建備實(shí)例,以實(shí)現(xiàn)從阿里云到AWS之間的主備容災(zāi)訴求。
在這個(gè)過程中,通過基于日志備份的物理備庫,將日志歸檔寫入到主庫所在同地域的對象存儲(chǔ)中,備庫通過公網(wǎng)來獲取主庫的備份歸檔日志,相較于以往的專線方案,這一方案無需額外打通成本,也無需管理復(fù)雜的VPC網(wǎng)絡(luò)連接,降低了使用成本和技術(shù)架構(gòu)的復(fù)雜性。
與此同時(shí),通過在不同站點(diǎn)保留完整的數(shù)據(jù)副本,OB Cloud跨云雙活架構(gòu)大幅提升了系統(tǒng)的可靠性和抗風(fēng)險(xiǎn)能力,即使某一云產(chǎn)品出現(xiàn)不可用的極端情況,也能快速切換至其他云基礎(chǔ)設(shè)施,確保服務(wù)不中斷。
這讓OceanBase成了國內(nèi)首個(gè)實(shí)現(xiàn)跨云容災(zāi)的云數(shù)據(jù)庫服務(wù)商。
03 人工智能時(shí)代,需要怎樣的數(shù)據(jù)庫?
2012-2023年這11年間,我國數(shù)字經(jīng)濟(jì)規(guī)模由2012年的11.2萬億元增長至2023年的53.9萬億元,數(shù)字經(jīng)濟(jì)規(guī)模擴(kuò)張了3.8倍,數(shù)字經(jīng)濟(jì)占GDP比重高到42.8%。
在潛移默化中,數(shù)字經(jīng)濟(jì)已經(jīng)成為全球經(jīng)濟(jì)增長的重要引擎。
與此同時(shí),在生成式AI新模式的帶動(dòng)下,人工智能技術(shù)正在成為驅(qū)動(dòng)全球經(jīng)濟(jì)發(fā)展的另一個(gè)重要變量。
人工智能技術(shù)的階躍式發(fā)展背后帶來的是數(shù)據(jù)量的暴增,據(jù)中國信通院研究報(bào)告顯示,在2020年6月1750億規(guī)模參數(shù)的GPT-3大模型發(fā)布后,大模型的知識密度在持續(xù)增強(qiáng),平均每8個(gè)月翻一番。
尤其是在多模態(tài)大模型成為行業(yè)發(fā)展的主流趨勢后,非結(jié)構(gòu)化數(shù)據(jù)爆發(fā)式增長,對數(shù)據(jù)庫提出了多模態(tài)需求。
陳小偉指出,人工智能時(shí)代非結(jié)構(gòu)化數(shù)據(jù)的爆發(fā)式增長帶來了三方面挑戰(zhàn):
第一,數(shù)據(jù)體量大,企業(yè)級的非結(jié)構(gòu)化數(shù)據(jù)通常以PB、EB量級存在,存儲(chǔ)和使用這些數(shù)據(jù)需要大量的存儲(chǔ)和計(jì)算資源;
第二,數(shù)據(jù)格式多,包括文本、圖片、音視頻、日志等格式;
第三,數(shù)據(jù)理解困難,由于非結(jié)構(gòu)化數(shù)據(jù)的多樣性和復(fù)雜性,使得快速、準(zhǔn)確地查詢信息變得非常困難。
這時(shí),OceanBase打造的多模一體化技術(shù)架構(gòu)的優(yōu)勢就凸顯了出來。
例如,OceanBase與支付寶“百寶箱”團(tuán)隊(duì)合作,基于LBS搭建了一個(gè)可以實(shí)現(xiàn)周邊服務(wù)問答的智能體。
現(xiàn)在在支付寶的百寶箱中,你只需要對著它說出諸如“請推薦距離3000米內(nèi),評分4.5分以上,人均消費(fèi)200元以內(nèi)的潮汕牛肉火鍋店”,它就可以自動(dòng)將符合條件的火鍋店推送給你。
在這個(gè)過程中,雖然僅僅是一次簡單的問答交互,對于數(shù)據(jù)庫而言,背后卻涉及到了空間搜索和計(jì)算、標(biāo)量過濾、向量檢索在內(nèi)一整套復(fù)雜流程和計(jì)算過程。
如果基于傳統(tǒng)數(shù)據(jù)庫方案,開發(fā)一個(gè)這樣的AI應(yīng)用需要使用多個(gè)數(shù)據(jù)庫產(chǎn)品,由于不同數(shù)據(jù)庫查詢關(guān)注的維度有所不同,往往又需要基于不同數(shù)據(jù)庫召回大量數(shù)據(jù)并在內(nèi)存中對多路召回?cái)?shù)據(jù)進(jìn)行重新排序,這不僅會(huì)消耗大量內(nèi)存和算力,還需要較長的開發(fā)周期。
由于OceanBase多模一體化數(shù)據(jù)庫原生支持各類數(shù)據(jù)類型和索引,這類AI應(yīng)用的數(shù)據(jù)庫架構(gòu)從多庫簡化到了一個(gè)庫,支付寶“百寶箱”團(tuán)隊(duì)僅僅用了一個(gè)星期的時(shí)間就完成了這一應(yīng)用從0到1的開發(fā)。
OceanBase CEO楊冰在2024年OceanBase年度發(fā)布會(huì)上曾指出,“在未來數(shù)智化時(shí)代,數(shù)據(jù)庫技術(shù)由分走向合已經(jīng)是一個(gè)必然趨勢。”
在經(jīng)過這十幾年的技術(shù)研發(fā)、產(chǎn)品迭代,以及2000多家商業(yè)客戶實(shí)際應(yīng)用場景中的打磨,如今的OceanBase已經(jīng)形成了面向數(shù)字化、智能化時(shí)代的數(shù)據(jù)架構(gòu),OB Cloud也完成了向一體化多模分布式數(shù)據(jù)庫、一體化多云、一體化云平臺、一體化數(shù)據(jù)庫生態(tài)的進(jìn)化。
而基于“一體化”數(shù)據(jù)架構(gòu)的OB Cloud,不僅支撐了零售頭部企業(yè)和中國超60%的千億規(guī)模消費(fèi)電子企業(yè)的數(shù)字化轉(zhuǎn)型,在接下來人工智能大潮下,也將成為支撐更多企業(yè)數(shù)智化轉(zhuǎn)型的一體化云數(shù)據(jù)庫。
好文章,需要你的鼓勵(lì)
這項(xiàng)研究提出了"高效探測"方法,解決了掩碼圖像建模AI難以有效評估的問題。通過創(chuàng)新的多查詢交叉注意力機(jī)制,該方法在減少90%參數(shù)的同時(shí)實(shí)現(xiàn)10倍速度提升,在七個(gè)基準(zhǔn)測試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強(qiáng)相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊(duì)承諾開源全部代碼,推動(dòng)技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊(duì)開發(fā)了CLAIMSPECT系統(tǒng),通過層次化分解復(fù)雜爭議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點(diǎn)的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動(dòng)構(gòu)建爭議話題的分析框架,識別不同觀點(diǎn)及其支撐證據(jù),為科學(xué)和政治爭議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國際關(guān)系領(lǐng)域驗(yàn)證有效性。
清華大學(xué)研究團(tuán)隊(duì)首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類一樣理解和表達(dá)情感。該系統(tǒng)通過多層次情感處理架構(gòu),在情感識別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實(shí)現(xiàn)了跨模態(tài)情感融合、動(dòng)態(tài)情感追蹤和個(gè)性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊(duì)通過創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會(huì)復(fù)雜推理。研究發(fā)現(xiàn)AI通過游戲競爭能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項(xiàng)突破性成果為未來AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過模擬人類學(xué)習(xí)過程培養(yǎng)真正智能AI的新路徑。
關(guān)注智造、硬件、機(jī)器人。