作者 | 周雅
“為什么AI這么火?”
是德科技大中華區(qū)高速數(shù)字市場(chǎng)部經(jīng)理李堅(jiān),最近在是德科技(Keysight Technologies)年度技術(shù)會(huì)議 Keysight World Tech Day 2025上,拋出這個(gè)問題的同時(shí),答案也呼之欲出:就像是90年代的移動(dòng)通信、2001年前后的互聯(lián)網(wǎng),以及隨后的移動(dòng)互聯(lián)網(wǎng)浪潮,而AI是未來10年內(nèi)最大的風(fēng)口。
Bloomberg數(shù)據(jù)顯示,全球AI市場(chǎng)規(guī)模預(yù)計(jì)將從2022年的869億美元增長(zhǎng)至2030年的1.3萬億美元。Markets and Markets數(shù)據(jù)進(jìn)一步指出,該市場(chǎng)在2024至2030年的年復(fù)合增長(zhǎng)率預(yù)計(jì)高達(dá)35.7%,這一增長(zhǎng),預(yù)期是驅(qū)動(dòng)全球企業(yè)大規(guī)模投入AI基礎(chǔ)設(shè)施建設(shè)的核心動(dòng)力。
但是,在AI高速發(fā)展的背后,數(shù)據(jù)中心的實(shí)際運(yùn)營(yíng)也出現(xiàn)了瓶頸。
數(shù)據(jù)中心的瓶頸
我們知道,數(shù)據(jù)中心的復(fù)雜性超乎想象,它由大量的服務(wù)器、GPU、CPU、網(wǎng)絡(luò)交換機(jī)等組件構(gòu)成,這些設(shè)備通過機(jī)架連接,機(jī)架之間再通過復(fù)雜的網(wǎng)絡(luò)架構(gòu)連接成集群,最終由數(shù)百個(gè)集群組成一個(gè)完整的數(shù)據(jù)中心。
數(shù)據(jù)中心的復(fù)雜,要求在多個(gè)技術(shù)層面取得突破:首先是高速的網(wǎng)絡(luò)技術(shù);其次是計(jì)算架構(gòu),包括GPU性能的持續(xù)提升;最后,也是至關(guān)重要的一點(diǎn)——功耗。
圖源:是德科技
正如是德科技高級(jí)副總裁兼通信解決方案事業(yè)部總裁Kailash Narayanan現(xiàn)場(chǎng)指出,算力固然重要,但如果能耗過高,技術(shù)的實(shí)用性將大打折扣,因此,所有的高速、高性能計(jì)算,都必須在極低的功耗下實(shí)現(xiàn),這是AI等技術(shù)能否大規(guī)模落地的核心前提。
是德科技高級(jí)副總裁兼通信解決方案事業(yè)部總裁Kailash Narayanan
在深入分析AI數(shù)據(jù)中心建設(shè)過程時(shí),李堅(jiān)進(jìn)一步揭示了兩個(gè)普遍的痛點(diǎn):
第一,GPU利用率普遍偏低。
GPU作為AI數(shù)據(jù)中心最核心且最貴的算力資產(chǎn),其工作效率直接決定了數(shù)據(jù)中心的整體效能。然而,是德科技的調(diào)研數(shù)據(jù)顯示,在典型的模型訓(xùn)練過程中,GPU的實(shí)際計(jì)算時(shí)間僅占約20%,另有16%為計(jì)算與數(shù)據(jù)傳輸?shù)闹丿B時(shí)間,Memory的時(shí)間占2%,而高達(dá)62%的時(shí)間都處于等待狀態(tài)。這意味著,一個(gè)GPU的真正有效工作時(shí)間僅為38%左右。
李堅(jiān)進(jìn)一步指出,造成GPU利用率低的主要原因是“數(shù)據(jù)傳輸瓶頸”——GPU沒有及時(shí)收到數(shù)據(jù),自然就無法進(jìn)行計(jì)算,導(dǎo)致算力資源的大量浪費(fèi)。
第二,可靠性差。
大語言模型的訓(xùn)練周期通常長(zhǎng)達(dá)數(shù)周甚至數(shù)月。李堅(jiān)指出,有數(shù)據(jù)顯示,一次訓(xùn)練任務(wù)能夠不受干擾、順利完成的概率僅為57%,因?yàn)橹型究赡艹霈F(xiàn)各種軟硬件故障,而硬件故障是導(dǎo)致訓(xùn)練中斷的主要原因。
問題的根源在于,為滿足AI算力需求,數(shù)據(jù)中心內(nèi)部的元器件在高溫、高速、7x24小時(shí)不間斷運(yùn)行,很多器件已經(jīng)逼近物理極限。“目前很多算力中心的高速器件的可靠性,遠(yuǎn)未達(dá)到傳統(tǒng)數(shù)據(jù)中心的水平。例如,一個(gè)NVIDIA NV72機(jī)柜內(nèi)包含超過五千根線纜和上百個(gè)光模塊,任何一個(gè)組件的失效都可能導(dǎo)致整個(gè)系統(tǒng)停機(jī),如果缺少有效的斷點(diǎn)保護(hù)與恢復(fù)機(jī)制,之前的訓(xùn)練成果可能全部作廢。”李堅(jiān)進(jìn)一步強(qiáng)調(diào)。
是德科技大中華區(qū)高速數(shù)字市場(chǎng)部經(jīng)理李堅(jiān)
這兩個(gè)瓶頸的產(chǎn)生,與AI的快速演進(jìn)密切相關(guān)。
李堅(jiān)解釋,大模型需要大算力、大數(shù)據(jù)、大帶寬的支持,這就推動(dòng)了數(shù)據(jù)中心內(nèi)部互連技術(shù)標(biāo)準(zhǔn)的快速迭代,但現(xiàn)有標(biāo)準(zhǔn)無法滿足頭部算力芯片的帶寬需求。所以,未來幾年里,存儲(chǔ)技術(shù)將快速發(fā)展,從DDR5向DDR6/7、HBM3/4演進(jìn),接口技術(shù)從PCIe 5向PCIe 6/7發(fā)展。
此外,速率的提升也帶來物理挑戰(zhàn)。高速信號(hào)在傳統(tǒng)PCB板上傳輸損耗和串?dāng)_嚴(yán)重,迫使新型算力機(jī)柜大量使用電纜和光纜。但隨著速率從800G向1.6T、3.2T提升,電纜的有效傳輸距離被急劇壓縮,而有源光電模塊雖能增強(qiáng)傳輸,卻帶來了明顯的功耗和散熱問題,進(jìn)一步威脅到系統(tǒng)穩(wěn)定性。
總之,如何解決這些底層物理問題,是提升AI產(chǎn)業(yè)整體投資回報(bào)率的關(guān)鍵。
是德科技的“KAI矩陣”
面對(duì)AI基礎(chǔ)設(shè)施的效率和可靠性挑戰(zhàn),是德科技正式推出一個(gè)全新的產(chǎn)品矩陣“Keysight AI”(簡(jiǎn)稱“KAI”),為AI基礎(chǔ)設(shè)施提供全棧、全生命周期的支持。
KAI被劃分為四大板塊,針對(duì)數(shù)據(jù)中心從計(jì)算到網(wǎng)絡(luò)傳輸?shù)娜窂剑?/p>
1. KAI Compute(KAI高速計(jì)算):聚焦于數(shù)據(jù)中心的最底層——算力板卡。它提供針對(duì)GPU、CPU、高速內(nèi)存(HBM)及其互連接口的測(cè)試驗(yàn)證方案,旨在確保最基礎(chǔ)的計(jì)算單元穩(wěn)定可靠。
2. KAI Interconnect(KAI互連):聚焦于板卡之間的連接。當(dāng)一塊塊算力板卡被造出來后,需要通過高速的電纜、光模塊、光連接器等組件連接起來,形成計(jì)算節(jié)點(diǎn)乃至超級(jí)節(jié)點(diǎn)。所以是德科技將旗下的網(wǎng)絡(luò)分析儀、高速誤碼儀、采樣示波器等一系列用于驗(yàn)證光電互連性能的解決方案,統(tǒng)一歸入KAI Interconnect矩陣,保障數(shù)據(jù)傳輸物理通道的質(zhì)量。
3. KAI Network(KAI網(wǎng)絡(luò)):計(jì)算節(jié)點(diǎn)和超級(jí)節(jié)點(diǎn),還需要通過網(wǎng)卡、交換機(jī)、路由器等網(wǎng)絡(luò)設(shè)備,組成一個(gè)規(guī)模更宏大、結(jié)構(gòu)更復(fù)雜的算力網(wǎng)絡(luò)。在這一層面,測(cè)試的需求從物理層延伸到了網(wǎng)絡(luò)層乃至應(yīng)用層。是德科技在多年前耗資16億美元收購(gòu)的行業(yè)翹楚Ixia,其深厚的技術(shù)積累構(gòu)成了KAI Network板塊的核心。這些解決方案能夠?qū)W(wǎng)絡(luò)設(shè)備的性能、協(xié)議一致性、安全性等進(jìn)行全面的測(cè)試與驗(yàn)證。
4. KAI Power(KAI能效):聚焦于數(shù)據(jù)中心的能源效率。“數(shù)據(jù)中心的盡頭是電站”,這句行業(yè)內(nèi)的調(diào)侃精準(zhǔn)地道出了功耗問題的嚴(yán)峻性。一個(gè)十萬卡集群的耗電量,甚至超過一座百萬人口的城市。而KAI Power解決方案,專注于測(cè)試和驗(yàn)證電源模塊、功率器件的性能,幫助客戶提升能源轉(zhuǎn)換效率,降低整體擁有成本(TCO)。
是德科技的目標(biāo)是,通過這套覆蓋全棧、全生命周期(從研發(fā)、生產(chǎn)到安裝維護(hù))的解決方案,幫助客戶構(gòu)建更高效、更可靠的AI基礎(chǔ)設(shè)施。
為將KAI的戰(zhàn)略構(gòu)想落地,是德科技發(fā)布了三款針對(duì)性的新產(chǎn)品,分別切入物理層、網(wǎng)絡(luò)層和應(yīng)用層的驗(yàn)證需求。
第一款產(chǎn)品:224G單通道和雙通道采樣示波器。
該產(chǎn)品旨在滿足下一代光電互連技術(shù)的測(cè)試需求。隨著行業(yè)向單通道224Gb/s的速率演進(jìn)(這是實(shí)現(xiàn)1.6T及以上帶寬的基礎(chǔ)),測(cè)試儀器的精度至關(guān)重要。是德科技推出的這款224G采樣示波器,其核心器件是德科技久負(fù)盛名的自研技術(shù)——磷化銦(InP)技術(shù),在示波器的噪聲和抖動(dòng)等關(guān)鍵指標(biāo)上表現(xiàn)出色,為光芯片、光模塊等組件廠商提供了精準(zhǔn)的物理層驗(yàn)證工具。
第二款產(chǎn)品:INPT-1600GE網(wǎng)絡(luò)互連與性能測(cè)試設(shè)備。
當(dāng)光模塊等組件被集成到網(wǎng)卡、交換機(jī)等設(shè)備后,驗(yàn)證工作便從物理層上升到了傳輸層和網(wǎng)絡(luò)層。李堅(jiān)介紹,這款產(chǎn)品速率達(dá)到1.6T,其創(chuàng)新之處在于融入了更多針對(duì)Layer 2 FEC(前向糾錯(cuò)編碼)的分析功能。更重要的是,它具備進(jìn)行“極限性能測(cè)試”的獨(dú)特能力。傳統(tǒng)的測(cè)試大多是在靜態(tài)、理想的條件下進(jìn)行。但真實(shí)工作環(huán)境中,模塊的性能會(huì)受到溫度、鏈路質(zhì)量等多種動(dòng)態(tài)因素的影響。這款產(chǎn)品能夠模擬這些極限工況,對(duì)模塊進(jìn)行動(dòng)態(tài)壓力測(cè)試,評(píng)估其性能邊界,而不僅僅是做一個(gè)簡(jiǎn)單的“通過/不通過”判斷。這一功能已申請(qǐng)專利,體現(xiàn)了是德科技對(duì)真實(shí)應(yīng)用場(chǎng)景的深刻理解。
第三款產(chǎn)品:工作負(fù)載仿真器。
這是三款新品中最具創(chuàng)新性、也最貼近AI應(yīng)用實(shí)際的一款。李堅(jiān)指出,當(dāng)下的AI算力網(wǎng)絡(luò),其流量模型與傳統(tǒng)數(shù)據(jù)中心有著天壤之別。傳統(tǒng)數(shù)據(jù)中心多為“南北向流量”(客戶端到服務(wù)器),而AI數(shù)據(jù)中心則充斥著大量GPU之間、節(jié)點(diǎn)之間的“東西向流量”,且這些流量往往是脈沖式的、非均衡的。如果交換機(jī)、網(wǎng)卡中的流量管控和調(diào)度算法(好比道路上的紅綠燈系統(tǒng))設(shè)計(jì)不合理,就會(huì)導(dǎo)致網(wǎng)絡(luò)擁堵,造成GPU大量等待。
這款工作負(fù)載仿真器,可用于評(píng)估網(wǎng)絡(luò)是否高效。它是一款主要運(yùn)行在是德科技AresONE硬件平臺(tái)上的軟件,通過在網(wǎng)絡(luò)部署前進(jìn)行仿真測(cè)試,可以提前發(fā)現(xiàn)并優(yōu)化交換機(jī)、網(wǎng)卡中的調(diào)度算法,從而有效避免上線后出現(xiàn)性能瓶頸,降低運(yùn)維成本。李堅(jiān)透露,是德科技是行業(yè)內(nèi)率先提供此類仿真能力的公司,并已在北美與一些超大規(guī)模云服務(wù)商完成了相關(guān)驗(yàn)證。
深耕中國(guó)40年:與本土創(chuàng)新同頻共振
回顧是德科技的發(fā)展史,可追溯到1939年的惠普公司。作為惠普最初的測(cè)試和測(cè)量業(yè)務(wù)部門,他們開啟了為客戶提供設(shè)計(jì)與仿真解決方案的旅程。歷經(jīng)85年后,這支隊(duì)伍先是成為安捷倫科技的一部分,并最終在十年前獨(dú)立出來,成為今天的“是德科技”。所以,盡管公司本身看似年輕,但它的技術(shù)傳承已跨越近一個(gè)世紀(jì)。
Kailash強(qiáng)調(diào),是德科技的使命是“加速創(chuàng)新,創(chuàng)造一個(gè)安全互聯(lián)的世界”。為此,公司戰(zhàn)略有三個(gè)核心支柱。
首先,在客戶產(chǎn)品的極早期階段,便與之深度合作,確保全生命周期的陪伴。其次,大力搞研發(fā),不斷提高自身的技術(shù)能力。最后,通過廣泛合作,包括積極參與全球標(biāo)準(zhǔn)化組織,推動(dòng)技術(shù)標(biāo)準(zhǔn)的制定與落地,從而賦能整個(gè)生態(tài)。
Kailash總結(jié)說,無論是產(chǎn)業(yè)鏈上游的半導(dǎo)體公司,中游的模塊與組件制造商,還是下游集成這些組件構(gòu)建路由器、交換機(jī)等大型子系統(tǒng)的設(shè)備商,或是超大規(guī)模云服務(wù)提供商(Hyperscaler),是德科技為產(chǎn)業(yè)鏈的每一個(gè)環(huán)節(jié)提供各類解決方案。無論是AI還是6G,是德科技與客戶攜手,共同推動(dòng)這些顛覆性技術(shù)在中國(guó)乃至全球的商業(yè)化進(jìn)程。
談及中國(guó)市場(chǎng),是德科技高級(jí)副總裁兼首席營(yíng)銷官M(fèi)arie Hattar,介紹了是德科技與中國(guó)市場(chǎng)長(zhǎng)達(dá)40余年的淵源。
是德科技高級(jí)副總裁兼首席營(yíng)銷官M(fèi)arie Hattar
從當(dāng)年作為惠普的團(tuán)隊(duì)開始,是德科技就開始服務(wù)中國(guó)客戶,盡管中間經(jīng)歷了安捷倫等公司的分拆,但是德科技與中國(guó)客戶的合作就一直沒有斷過。Marie自豪地表示,如今的是德科技,是一家專注于設(shè)計(jì)、仿真和測(cè)試的創(chuàng)新型公司,與中國(guó)客戶共同成長(zhǎng),將業(yè)務(wù)版圖擴(kuò)展到了通信、半導(dǎo)體、汽車、航空航天等多個(gè)關(guān)鍵領(lǐng)域。
為了支撐中國(guó)市場(chǎng)發(fā)展,是德科技深耕本地化布局。目前,公司在大中華區(qū)擁有超過1000名員工,分布在10多個(gè)城市,且在中國(guó)多個(gè)城市設(shè)立開放式實(shí)驗(yàn)室(Open Lab)。Marie特別指出了在北京的研發(fā)中心,該中心專注于軟件開發(fā),確保更貼近市場(chǎng)需求,以“中國(guó)速度”推動(dòng)創(chuàng)新。
以汽車領(lǐng)域?yàn)槔?。Marie認(rèn)為,中國(guó)正迅速成為全球汽車行業(yè)的領(lǐng)導(dǎo)者,是德科技在全球設(shè)立的四座汽車客戶中心里,其中一座就落戶上海。這不僅是因?yàn)橹袊?guó)家用車市場(chǎng)的蓬勃,更是因?yàn)樽詣?dòng)駕駛出租車、自動(dòng)駕駛送貨車等新興業(yè)態(tài),在中國(guó)快速涌現(xiàn)。
在市場(chǎng)觸達(dá)方面,是德科技同樣遵循本地化發(fā)展??紤]到中國(guó)客戶的溝通習(xí)慣向社交平臺(tái)遷移,他們不再只依賴官網(wǎng),而是將微信和公眾號(hào)作為與客戶互動(dòng)的主陣地。同時(shí)考慮到視頻受眾,是德科技還入駐了B站,展示各種產(chǎn)品評(píng)測(cè)教程。
不難看出,在這個(gè)步履不停的AI賽場(chǎng),是德科技作為“基礎(chǔ)設(shè)施賦能者”的一員,顯然已經(jīng)找到了自己的獨(dú)特價(jià)值。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。
關(guān)注科技創(chuàng)新、技術(shù)投資。
以文會(huì)友,左手硬核科技,右手浪漫主義。