作者|周雅
AI狂潮的同時,科技圈迎來了一場“快行動”。隨之而來的,是數(shù)據(jù)的狂潮:模型訓(xùn)練過程中,為了防止很貴的GPU算力中斷,要頻繁寫入巨大的快照;推理應(yīng)用則要求對海量數(shù)據(jù)進行實時且低延遲的讀取。那么,我們該怎么滿足AI時代的存儲需求?
這個問題,慧榮科技企業(yè)級儲存事業(yè)部產(chǎn)品行銷應(yīng)用部資深協(xié)理周宗廉(Tsunglian Chou)在2025全球閃存峰會上,試圖給出一個答案,不過他的答案并非一個具體的性能指標(biāo),也不是一款單一的芯片,而是更深層次的戰(zhàn)略思考。
慧榮科技企業(yè)級儲存事業(yè)部產(chǎn)品行銷應(yīng)用部資深協(xié)理周宗廉(Tsunglian Chou)
重新定義游戲規(guī)則:從“做一盤菜”到“遞上一整套廚房”
“AI是存在很久的技術(shù),而且它一直在演進。”周宗廉的開場白,試圖將大家拉回到一個更長的時間尺度。他提到了1966年MIT推出的第一款聊天機器人“ELIZA” ——一個僅用200行代碼寫成聊天機器人的“老古董”。從ELIZA到今天動輒千億參數(shù)的大模型,背后是算力和存儲空間跨越近60年的天文數(shù)字級增長。
這種增長,在DeepSeek等開源模型將大模型訓(xùn)練成本拉下神壇后,正以前所未有的態(tài)勢向下滲透,從“云端”涌向“邊緣“,Edge AI的應(yīng)用也會大幅普及。智能手機、PC、AI Pin、智能眼鏡……萬物皆可AI的時代,數(shù)據(jù)產(chǎn)生的規(guī)模和速度,正在讓傳統(tǒng)存儲架構(gòu)捉襟見肘。
面對這場數(shù)據(jù)洪水,傳統(tǒng)的芯片廠商模式是,設(shè)計一顆強大的芯片,然后賣給客戶,這似乎已經(jīng)不夠了。因為客戶需要的,早已不是一顆更快的CPU或GPU,而是一套能讓他們快速、穩(wěn)定、低成本地造出好產(chǎn)品的完整解決方案。
慧榮科技給出的答案是 MonTitan™。
“MonTitan™不是一顆芯片,而是一個平臺。”周宗廉在演講和后續(xù)的采訪中,反復(fù)強調(diào)這個概念。MonTitan™ 包含了三樣?xùn)|西:
1、一顆頂尖的SSD主控芯片(例如SM8366)。
2、一套完整的硬件參考設(shè)計(包括原理圖)。
3、一套企業(yè)級的固件,它是SSD效能或者功能的核心。
這套組合拳的威力,需要從兩個視角來理解:慧榮的直接客戶(SSD制造商)和終端客戶(數(shù)據(jù)中心、云服務(wù)商)。
對于直接客戶,MonTitan™ 的價值是“賦能”。周宗廉在采訪中打了一個比方:
“你可以想象,客戶的核心競爭力是‘做出一盤好吃的菜’。而我們,就是把整個廚房,從灶臺、鍋具到水電煤都幫你設(shè)計好、鋪設(shè)好。你只需要專注于你的‘廚藝’,而不用去研究這臺洗碗機內(nèi)部的管線是怎么走的。我們把‘洗碗’這個動作,封裝成一個簡單的按鈕,你按一下就行了。”
這種“封裝”的背后,是MonTitan™ 極具彈性的架構(gòu)。慧榮的工程師們將硬件設(shè)計成一個個獨立的、強大的“引擎”,這些引擎彼此隔離,完全由固件來調(diào)度和指揮。“就像廚房里,洗碗的、烘干的、切菜的,各司其職,互不干擾,但總指揮(固件)可以靈活地編排流程。”周宗廉解釋道。
這樣做最大的好處是什么?客戶過去積累的知識產(chǎn)權(quán)(IP)和固件代碼,可以非常平滑地移植到MonTitan™ 平臺上,而不需要推倒重來。這極大地縮短了產(chǎn)品的上市時間,并降低了研發(fā)成本。在一個“天下武功,唯快不破”的市場里,這幾乎是決定生死的優(yōu)勢。
而對于云服務(wù)商這樣的終端客戶,他們感受到的則是實在的性能和體驗飛躍。以MonTitan™ 平臺下的首款旗艦產(chǎn)品SM8366為例,這顆基于12nm制程的PCIe Gen5主控,可以實現(xiàn)超過14GB/s的順序讀取速度和3.5M IOPS的隨機讀取性能。
慧榮科技SM8366
“我們設(shè)計之初的目標(biāo)就很明確,”周宗廉說,“PCIe Gen5就像一個巨大的水管,我們必須保證芯片內(nèi)部的每一個環(huán)節(jié),都能處理這么大的水量,從前端進來的水流,在后端要被完全‘榨干’,不能有任何瓶頸。”
這種極致性能,意味著數(shù)據(jù)中心可以更快地完成大模型訓(xùn)練或圖像化神經(jīng)網(wǎng)絡(luò)的構(gòu)建。但比性能更重要的,是慧榮對真實應(yīng)用場景的深刻洞察。
深入無人區(qū):用PerformaShape™ 馴服云端的“吵鬧鄰居”
企業(yè)級SSD最常遇到的工作環(huán)境是什么?是多租戶(Multi-tenancy)。
想象一個云端數(shù)據(jù)中心,成百上千個不同的用戶(租戶)在同時訪問同一塊SSD。如果沒有有效的管理,就很容易出現(xiàn)“吵鬧鄰居”問題:某一個用戶突然發(fā)起大量的讀寫請求,占滿了所有資源,導(dǎo)致其他用戶的請求延遲飆升,服務(wù)品質(zhì)(QoS)急劇下降。
這對于按服務(wù)等級付費的云業(yè)務(wù)來說,是不可接受的。
傳統(tǒng)的解決方案,往往依靠軟件在主機端進行調(diào)度,但這種方式精度差、延遲高。而慧榮的獨門秘技PerformaShape™,則是在主控芯片內(nèi)部,用硬件引擎來解決這個問題。
“PerformaShape™ 可以用硬件引擎設(shè)定每一個用戶的效能。”周宗廉解釋道,“限制效能、定義效能就意味著限制電源、定義電源,這意味著你可以控制每個通道的功耗,所有用戶的延遲都變得可被管理、可被預(yù)測。當(dāng)用戶效能都被我們掌握,就相當(dāng)于服務(wù)品質(zhì)被我們牢牢掌握。”
在慧榮展示的對比測試中,未使用PerformaShape™ 時,多用戶并發(fā)寫入的IO波動劇烈,像一張狂亂的心電圖;而啟用后,曲線瞬間變得平滑如水,一致性高達95%以上。
這種技術(shù)的價值,在RocksDB這樣的真實應(yīng)用中被展現(xiàn)得淋漓盡致。
RocksDB是Facebook(現(xiàn)Meta)基于LevelDB開發(fā)的開源鍵值數(shù)據(jù)庫,被廣泛應(yīng)用于各種需要高速讀寫的場景。它的核心機制,是將數(shù)據(jù)分層存儲在SSD中,高層級(L0)的文件小、訪問頻繁、對延遲要求極高;低層級的文件大、訪問頻率低、延遲較高。
“我們發(fā)現(xiàn),PerformaShape™ 可以完美地釋放RocksDB的潛力。”周宗廉說。利用PerformaShape™,開發(fā)者可以為RocksDB中不同層級的數(shù)據(jù)流分配不同的性能通道——為要求最苛刻的L0層分配最高優(yōu)先級的性能和最低的延遲,而為其他層級分配普通通道。
“市面上有些廠商也針對RocksDB做了FDP(Flexible Data Placement,一種讓主機能指導(dǎo)SSD數(shù)據(jù)存放位置的技術(shù)),我們覺得這是很好的做法。但FDP只解決了‘放哪里’的問題,沒有解決‘怎么服務(wù)’的問題。”周宗廉補充道,“FDP加上PerformaShape™,才是完美的組合。”
這種對應(yīng)用層需求的深刻理解和技術(shù)實現(xiàn),構(gòu)成了慧榮在激烈競爭中最堅固的護城河。它不再是簡單地堆砌性能參數(shù),而是真正深入到客戶的業(yè)務(wù)邏輯中,解決他們最棘手的痛點。
戰(zhàn)略家的耐心:“好飯不怕晚”
在瞬息萬變的半導(dǎo)體行業(yè),有一種普遍的焦慮,叫做“首發(fā)焦慮”。第一個發(fā)布支持最新技術(shù)標(biāo)準(zhǔn)的產(chǎn)品,似乎就能搶占先機、贏得市場。
但慧榮科技,似乎想要穩(wěn)步前進。
當(dāng)PCIe Gen5標(biāo)準(zhǔn)已經(jīng)問世一段時間,市面上甚至出現(xiàn)了一些發(fā)熱量驚人、穩(wěn)定性堪憂的“早產(chǎn)兒”時,慧榮卻并不急于沖刺。
“我們公司有個特征,可能不是第一個跑步的人,但我們出來的東西,一定是大家都可以用的。”周宗廉在采訪中坦言,“中國臺灣話里有句話叫‘好酒沉甕底’(好酒都在壇子底),我們更信奉‘好飯不怕晚’。”
這種看似“慢”的節(jié)奏,背后是一種極其清醒的商業(yè)判斷和戰(zhàn)略耐心。
“我們?yōu)槭裁纯梢赃@么早知道市場節(jié)奏?因為我們一直跟最前端的用戶廠商、NAND原廠保持著非常緊密的溝通,我們幾乎是共同在開發(fā)東西。”周宗廉透露,“所以我們很早就看到,PCIe Gen5的市場(指服務(wù)器端)根本還沒有真正起來。我們那個時候不急著把產(chǎn)品推向市場,反而利用這段時間,將制程從最初規(guī)劃的16nm優(yōu)化到了12nm,解決了潛在的過熱問題。”
等到服務(wù)器市場真正準(zhǔn)備好迎接PCIe Gen5時,慧榮端出的SM8366,是一款成熟、穩(wěn)定、高性能且功耗控制優(yōu)秀的產(chǎn)品,市場接受度因此非常高。“你為了搶第一名,拿出一個不能用的東西,是沒有意義的。”
這種“慢思考”,貫穿于慧榮的產(chǎn)品規(guī)劃和研發(fā)投入中。在設(shè)計一顆芯片動輒耗資數(shù)千萬甚至上億美元的今天,尤其是在采用臺積電這樣的先進且昂貴的制程時,每一次流片失敗的代價都是巨大的。
慧榮的應(yīng)對之道,是近乎苛刻的事前驗證。
“我們選擇先進制程,就必須想盡一切辦法減少改版的次數(shù)。”周宗廉坦言,“這意味著在芯片設(shè)計出來、投入生產(chǎn)之前,就要做好萬全的系統(tǒng)級驗證,用各種方法把可能的問題都暴露出來、解決掉。這沒有捷徑,只能靠小心、再小心。”
這種對成本的敬畏、對市場的尊重、對產(chǎn)品質(zhì)量的堅守,共同構(gòu)成了慧榮的慢思考:在喧囂的浪潮中保持定力,在正確的時間點,拿出正確的產(chǎn)品。
看向未來,我們有一條清晰路徑
有了堅實的平臺和清晰的思考,慧榮對未來的布局顯得從容而篤定。
首先,擁抱QLC NAND。
隨著AI模型和數(shù)據(jù)集的爆炸式增長,對存儲容量的需求已經(jīng)進入TB甚至PB時代。在成本的約束下,使用每個單元能存儲4比特數(shù)據(jù)的QLC NAND,成為打造超大容量SSD的必然選擇。
但QLC的“體質(zhì)”相對脆弱,壽命和性能都不及TLC。這就需要主控芯片具備更強大的糾錯、磨損均衡和數(shù)據(jù)管理能力。“FDP這樣的技術(shù),就是保護QLC這種‘嬌貴’NAND顆粒的絕佳手段。”周宗廉指出。在今年的CFMS(2025中國閃存市場峰會)上,慧榮就展示了基于SM8366和QLC NAND的128TB SSD,這是其技術(shù)實力的最佳證明。
其次,分層布局、精準(zhǔn)卡位。
除了旗艦級的SM8366,MonTitan™ 平臺還衍生出了更專注細(xì)分市場的產(chǎn)品:
· SM8388:一顆針對近線存儲的主控。這類存儲對延遲要求不像在線業(yè)務(wù)那么高,但對容量、成本和功耗極其敏感。SM8388正是為此而生,它以更低的功耗和成本,支持高達128TB的容量,被慧榮視為取代部分傳統(tǒng)HDD(機械硬盤)市場的利器。
· SM8466:一顆瞄準(zhǔn)未來的PCIe Gen6主控。它將采用臺積電4nm制程,支持高達512TB的容量,順序讀寫性能目標(biāo)直指28GB/s,隨機性能則高達7M IOPS。這顆芯片承載了慧榮對下一個五年、甚至十年存儲需求的預(yù)判。
“我們在規(guī)劃產(chǎn)品時,一直都是往前看很遠,要確保我們做出來的東西,可以符合未來5-10年的需要。”周宗廉說。
最后,對CXL等新技術(shù)保持敏銳和務(wù)實。
對于CXL(Compute Express Link)這種能夠?qū)崿F(xiàn)內(nèi)存池化的熱門技術(shù),慧榮的態(tài)度是“認(rèn)真研究,持續(xù)觀察”。“我們看到CXL目前仍然是內(nèi)存廠商的舞臺,在存儲領(lǐng)域的應(yīng)用還沒有看到特別的突破。我們會保持關(guān)注,但不會盲目跟進。”
慧榮科技這種整體“平臺化”的戰(zhàn)略思維,是建立在次世代趨勢之上的,周宗廉認(rèn)為次世代的存儲趨勢有四大創(chuàng)新:
1、極致容量(High Capacity):AI時代,容量是王道?;蹣s早已深入研發(fā)駕馭QLC NAND所需的核心算法,為迎接超大容量時代鋪平道路。
2、數(shù)據(jù)效率(Data Efficiency):通過合理、有效地放置數(shù)據(jù),最大限度減少無謂的數(shù)據(jù)搬移,從而保護NAND閃存的壽命和性能,這在QLC時代尤為關(guān)鍵。
3、安全堡壘(Data Security):在企業(yè)級應(yīng)用中,安全是必需品?;蹣s的理念是,構(gòu)建端到端的安全體系,覆蓋數(shù)據(jù)本身(通過高性能加解密引擎)、數(shù)據(jù)完整性(端到端保護)以及平臺自身的安全(如密鑰管理)。
4、綠色能效(Power Efficiency):隨著數(shù)據(jù)中心規(guī)模的膨脹,功耗與散熱已成為核心成本?;蹣s通過優(yōu)化芯片設(shè)計和選用更先進的制程,從源頭上控制“電老虎”的胃口。
這四大創(chuàng)新支柱,最終轉(zhuǎn)化為MonTitan™平臺最鮮明的產(chǎn)品特點:由眾多自研高速IP與智能固件共同驅(qū)動的極致性能(Performance);以128TB QLC SSD為代表的超大容量(High Capacity);以及貫穿始終的低功耗(Low Power)與數(shù)據(jù)完整性(Data Integrity)。以上這套組合拳,構(gòu)成了慧榮應(yīng)對次世代存儲挑戰(zhàn)的完整答案。
好文章,需要你的鼓勵
浙江大學(xué)團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實驗顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓(xùn)練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團隊發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學(xué)習(xí)方法訓(xùn)練多個AI模型。實驗結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達到49.6%準(zhǔn)確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。
關(guān)注科技創(chuàng)新、技術(shù)投資。
以文會友,左手硬核科技,右手浪漫主義。