作者 | 金旺
來源 | 科技行者
4月27日,OceanBase CEO楊冰發(fā)布全員信,宣布OceanBase將全面進入AI時代,打造“Data×AI”核心能力,建設AI時代的數(shù)據底座。
“Data×AI”由此正式被寫入OceanBase的公司戰(zhàn)略。
這一戰(zhàn)略公布不到一個月,OceanBase第三屆開發(fā)者大會就在廣州召開。
大會上,OceanBase CTO楊傳輝就這一戰(zhàn)略解釋稱,“本質上我們是要做Data,用AI,實現(xiàn)Data與AI的融合。”
關于這一戰(zhàn)略中的另一個關鍵信息——不是數(shù)據庫,而是數(shù)據底座,楊傳輝表示,“希望通過一體化的產品、一體化的引擎,同時處理TP、AP和AI的混合負載。”
也是在這場開發(fā)者大會上,OceanBase不僅發(fā)布了首個面向AI的應用產品——PowerRAG,還再次升級一體化架構,發(fā)布了業(yè)內首款深度集成對象存儲與TP數(shù)據庫的“共享存儲”產品。
作為OceanBase第三次技術架構升級特別打造的產品,共享存儲為數(shù)據庫產業(yè)帶來了怎樣的創(chuàng)新思路?
OceanBase又在打造怎樣的數(shù)據底座?
01 AI應用爆發(fā),亟需存儲技術革新
2025年1月20日,開源大模型DeepSeek R1的面世,讓大模型應用產業(yè)落地開始加速。
OceanBase團隊同樣感受到了DeepSeek對大模型應用產業(yè)落地帶來的加速作用,楊傳輝在接受媒體采訪時透露,“DeepSeek的準確率和成本相較之前的開源大模型有了質的提升,我們由此判斷,未來五年,大模型應用場景會迎來大爆發(fā)。”
以大模型為代表的AI應用爆發(fā),對數(shù)據基礎設施也提出了更高的要求。
首先是數(shù)據量的暴增。
據IDC預測數(shù)據顯示,預計2028年全球新生成數(shù)據量規(guī)模將達到393.8ZB,相較于2018年增長9.8倍,從2024到2028五年間生成的數(shù)據量將至少是過去10年生成的數(shù)據總量的2.2倍。
如此海量的數(shù)據,亟需更低成本的數(shù)據存儲技術。
其次是數(shù)據模態(tài)的多樣化。
2023年9月25日,OpenAI正式官宣,ChatGPT新增語音、圖像對話功能,更具產業(yè)價值的多模態(tài)大模型已經成為人工智能技術競爭焦點。
而隨著大模型從NLP走向多模態(tài),原始訓練數(shù)據集也從純文本變成了文本、圖片、語音、視頻等多種數(shù)據模態(tài)。
數(shù)據模態(tài)的多樣化,要求數(shù)據庫能夠更高效地存儲半結構化、非結構化數(shù)據。
如何高效存儲海量多模態(tài)數(shù)據,就成了在大模型應用場景迎來大爆發(fā)前,面向AI時代的數(shù)據庫廠商必須考慮的問題。
這時,已經被廣泛應用于分析型數(shù)據庫(AP)、企業(yè)存儲備份、歸檔和數(shù)據湖等場景的對象存儲技術成了解決問題的關鍵。
所謂對象存儲,是一種將數(shù)據存儲為“對象”的數(shù)據存儲方法,不僅具有高可靠、低成本、可無限擴展等特性,更重要的是,對象存儲已經成為云上海量數(shù)據存儲的主流方案,諸如圖片、視頻等信息的非結構化、半結構化原始數(shù)據,正是存儲在對象存儲中。
這讓對象存儲成了構建AI時代數(shù)據底座的選擇之一。
然而,卻至今未能在事務型數(shù)據庫(TP)中得到廣泛應用。
據楊傳輝在第三屆OceanBase開發(fā)者大會上介紹,“實際上,業(yè)內已經有很多面向對象存儲的多云原生數(shù)據庫,但這些數(shù)據庫往往因為無法做到低延遲、實時寫入,只能在AP中應用對象存儲;而能夠將對象存儲應用到TP的云原生數(shù)據庫,又往往無法將對象存儲構建在共享存儲之上,性價比無法做到極致。”
是否能夠在TP場景下推出一款基于對象存儲的共享存儲產品,也成了OceanBase在大模型技術風起云涌這兩年一直在思考的一個問題。
02 讓TP場景的共享存儲成為可能
什么是共享存儲?
按節(jié)點之間資源共享模式,數(shù)據庫有Shared Nothing、Shared Storage兩類主流存儲架構。
Shared Nothing是指每個節(jié)點都擁有獨立的計算和存儲資源,彼此獨立運行,沒有共享存儲或計算資源,數(shù)據存儲在不同的節(jié)點上,節(jié)點之間通過網絡進行通信,這種架構通常具有高性能、低延時特性。
Shared Storage,即共享存儲,是指多個計算節(jié)點共享一個存儲集群,每個節(jié)點可以訪問共享存儲上的數(shù)據,這種架構簡化了數(shù)據訪問,節(jié)省了存儲空間并保證了數(shù)據一致性,但性能會存在一定損失。
由于Shared Nothing架構天然具備高性能、低延時,可以做到實時寫入,主流TP數(shù)據庫往往采用的正是這一架構。
OceanBase之所以能解決TP數(shù)據庫無法支持對象存儲的問題,源于其100%根自研的技術掌控力,包括存儲引擎也是由團隊自研的LSM-Tree引擎。
實際上,據楊傳輝透露,“OceanBase早在六七年前就開始研發(fā)對象存儲技術,并在兩三年前開始構思在TP場景下的共享存儲產品。”
OceanBase產品部總經理楊志豐是OceanBase的對象存儲和共享存儲整個研發(fā)過程的親歷者,他告訴我們,在這個過程中,OceanBase在針對共享存儲的訪問通路做了如下幾個方面的優(yōu)化:
首先,由于共享存儲本身性能不高,這對緩存提出了很高的要求,OceanBase為此特別設計了一套由內存緩存、本地持久化緩存和對象存儲三層構成的專為TP場景設計的多級緩存架構。
相較而言,傳統(tǒng)基于Shared Nothing架構的數(shù)據庫,熱點數(shù)據往往主要依賴內存緩存,在共享存儲架構下,OceanBase增加了本地持久化緩存層緩存,優(yōu)化了對象存儲的訪問延遲問題。
無論是緩存對象存儲讀出的數(shù)據、預讀預熱機制,還是緩存數(shù)據在節(jié)點間的數(shù)據同步機制,均確保了 TP、AP、KV多種負載下的性能與容災恢復能力。
其次,OceanBase自研的LSM-Tree引擎具有天然適配“只追加、不修改”的對象存儲特性,基于這一存儲引擎設計的緩存架構很好地避免了因數(shù)據寫入帶來的緩存失效問題,提升了IOPS利用效率。
同樣是基于LSM-Tree引擎,OceanBase團隊在對象存儲天然為大塊順序I/O優(yōu)化、小I/O性能差且超過1萬IOPS容易被限流的前提下,通過聚合小I/O、異步寫入、讀寫路徑優(yōu)化、并發(fā)控制等深度工程手段,極大緩解了TP場景下頻繁事務訪問對底層存儲帶來的壓力。
第三,OceanBase通過獨特的持久化緩存彈性伸縮能力,進一步解決了TP場景下熱點數(shù)據隨業(yè)務波動而動態(tài)變化的問題。
相較于業(yè)界普遍的固定緩存策略,OceanBase的本地緩存空間可隨負載自動擴縮,保障高并發(fā)讀寫的同時,降低資源成本。
共享存儲版本下,OceanBase還同步改造了日志系統(tǒng)。
在傳統(tǒng)share-nothing三副本架構中,日志服務分布在每個副本內部。在新架構下,日志被抽象成一個獨立服務,不僅實現(xiàn)更穩(wěn)定的日志 I/O、日志的跨集群共享,還能進一步降低存儲成果,提高資源利用率。
最后,OceanBase還優(yōu)化了對象存儲的訪問鏈路——從 I/O 調度機制、緩存命中率、預取策略,到跨可用區(qū)的副本同步機制,全面壓低延遲波動,確保TP 業(yè)務毫秒級響應的穩(wěn)定性。
經過這一系列對對象存儲訪問通路的重構,OceanBase最終在5月17日的開發(fā)者大會上正式發(fā)布了共享存儲產品,OB Cloud由此成為了業(yè)界首個在TP場景下支持對象存儲的多云原生數(shù)據庫。
03 OceanBase第三次技術架構升級
成立于2010年的OceanBase團隊,在過去十五年里,OceanBase經歷了兩次重要技術升級:
第一次是2016年OceanBase 1.0版本的發(fā)布,在這一版本中,OceanBase團隊解決了所有節(jié)點可讀可寫的問題;
第二次是2020年OceanBase 4.0版本的發(fā)布,在這一版本中,OceanBase團隊在業(yè)內首次提出了單機分布式一體化架構,在一套系統(tǒng)中實現(xiàn)了分布式的擴展性和單機的功能和性能。
2025年,OceanBase迎來了第三次技術架構升級,楊傳輝稱這次技術架構升級為“多云原生”。
作為業(yè)界首個基于對象存儲面向TP場景的多云原生數(shù)據庫產品,OceanBase此次發(fā)布的共享存儲產品也成了這次技術架構升級關鍵。
在此次開發(fā)者大會上,楊傳輝特別就OceanBase工作負載由AWS的EBS模式遷移到S3對象存儲進行了一次成本核算:
據AWS官網數(shù)據顯示,EBS每GB每月使用成本為0.1美元,S3每GB每月使用成本為0.023美元。
以100TB數(shù)據存儲為例,對于使用3份EBS的Shared Nothing架構而言,數(shù)據存儲成本總計需要3萬美元。
對于使用共享存儲而言,它的成本分成兩部分:
第一部分還是S3,總計需要2300美元;
第二部分是需要把熱點數(shù)據緩存到本地需要的成本,假設3個副本,每個副本緩存1/3,緩存到本地的成本就是1萬美元。
這樣計算下來,使用共享存儲的總成本約為1.2萬美金。
由此可見,對于TP工作負載,假設每個副本緩存1/3的熱點數(shù)據,OceanBase共享存儲產品可以將存儲成本降低一半。
如果是對極致高可用沒有強需求的AP工作負載,實際生產系統(tǒng)往往采用的是單副本模式,采用OceanBase共享存儲產品則可以將存儲成本降低近90%。
然而,極致性價比只是OceanBase此次發(fā)布的共享存儲產品的特性之一,這款產品的另外兩個顯著特性是Serverless和多云原生。
在Serverless方面,OceanBase這款共享存儲產品支持存儲和計算資源獨立彈性伸縮,按量付費,由于支持Serverless式的資源調度,從而實現(xiàn)了存儲不動、計算可彈的能力。
在多云原生方面,OceanBase這款共享存儲產品全面支持Amazon S3、阿里云OSS等主流云服務及兼容S3協(xié)議的對象存儲。
實際上,由于主流云廠商均已兼容S3協(xié)議,這意味著OceanBase共享存儲產品已經能夠支持大多數(shù)主流云服務,這為企業(yè)在多云、混合云環(huán)境下構建統(tǒng)一的數(shù)據基礎設施提供更多可能。
不過,楊傳輝也特別指出,“如果用戶是應用在要求極為苛刻的核心業(yè)務場景,每個查詢都需要再一兩個毫秒內返回,這樣的應用依然可以選擇存算一體的Shared Nothing本地盤模式;如果是更看重平均延時或95%比例的請求延時的業(yè)務場景,則完全可以選擇性價比更高的存算分離的共享存儲方案。”
04 AI需要怎樣的數(shù)據底座?
來自IDC預測數(shù)據顯示,到2028年,整個AI市場規(guī)模相較于2022年預計將會增長400%,生成式AI市場份額預計在整個AI市場占比將達到39.5%。
IDC中國軟件行業(yè)研究經理李凌霄指出,“無論是從市場側反饋來看,還是從IDC內部研究來看,大家對于生成式AI技術發(fā)展的疑慮已經全部打消,對于生成式AI未來發(fā)展都持有著樂觀態(tài)度。”
而生成式AI和大模型的快速發(fā)展,讓數(shù)據庫廠商也迎來了新機遇。
4月27日,OceanBase CEO楊冰發(fā)布全員信,宣布OceanBase將全面進入AI時代,打造“Data×AI”核心能力,建設AI時代的數(shù)據底座。
為什么OceanBase會提出這樣一個“Data×AI”戰(zhàn)略?
楊傳輝告訴我們,“在AI時代,我們需要的是一個一體化的數(shù)據底座,它的底層需要實現(xiàn)單機分布式一體化,也需要實現(xiàn)云上云下一體化,這就是單機分布式一體化架構和多云原生架構。對于用戶而言,他們需要的是一套數(shù)據庫,一套可以統(tǒng)一支持TP、AP和AI工作負載數(shù)據底座。”
與此同時,“Data×AI”一體化數(shù)據底座實際上也是OceanBase一體化數(shù)據庫的延伸,它的核心在于如何做好數(shù)據處理。
為了做好AI時代的數(shù)據處理,OceanBase一直在加強支持混合檢索的向量引擎的研發(fā),并在過去兩年里將共享存儲產品做到了TP生產級水準。
在接受媒體采訪時,楊冰告訴我們,“很少有數(shù)據引擎能把TP架在對象存儲上,我們在把這個難題攻克后,企業(yè)在技術棧層面存儲AI需要的數(shù)據時,就可以在數(shù)據存儲上統(tǒng)一到一套技術架構上。”
OceanBase堅持的上述一體化產品思路,為企業(yè)和開發(fā)者帶來的最直接的好處是,在進行大模型應用開發(fā)時,開發(fā)者就可以通過一條SQL語句處理所有工作負載。
2025年是OceanBase走過的第十五個年頭,站在這一年的OceanBase開發(fā)者大會上展望未來十五年,楊傳輝指出:
“未來十五年一定是一個AI大爆炸的時代,隨著全世界對AI產品的不斷打磨,我們也將成為AI時代的一體化數(shù)據底座。”
好文章,需要你的鼓勵
這項研究提出了"高效探測"方法,解決了掩碼圖像建模AI難以有效評估的問題。通過創(chuàng)新的多查詢交叉注意力機制,該方法在減少90%參數(shù)的同時實現(xiàn)10倍速度提升,在七個基準測試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質量與分類性能的強相關性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應性。團隊承諾開源全部代碼,推動技術普及應用。
伊利諾伊大學研究團隊開發(fā)了CLAIMSPECT系統(tǒng),通過層次化分解復雜爭議、智能檢索相關文獻、多角度收集觀點的方法,將傳統(tǒng)的"真假"判斷轉變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動構建爭議話題的分析框架,識別不同觀點及其支撐證據,為科學和政治爭議提供更全面客觀的分析,已在生物醫(yī)學和國際關系領域驗證有效性。
清華大學研究團隊首次提出情感認知融合網絡(ECFN),讓AI能像人類一樣理解和表達情感。該系統(tǒng)通過多層次情感處理架構,在情感識別準確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實現(xiàn)了跨模態(tài)情感融合、動態(tài)情感追蹤和個性化情感建模,為醫(yī)療、教育、客服等領域帶來革命性應用前景。
哈佛大學研究團隊通過創(chuàng)新的多智能體強化學習方法,讓AI在戰(zhàn)略游戲中學會復雜推理。研究發(fā)現(xiàn)AI通過游戲競爭能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項突破性成果為未來AI在醫(yī)療、教育、城市管理等領域的應用奠定基礎,展現(xiàn)了通過模擬人類學習過程培養(yǎng)真正智能AI的新路徑。
關注智造、硬件、機器人。