快接頭,龐大的數(shù)據(jù)中心中一個極容易被忽視的小組件。
卻也是數(shù)據(jù)中心產(chǎn)業(yè)鏈中出貨量巨大,又關(guān)乎數(shù)據(jù)中心液冷服務(wù)器安全穩(wěn)定的組件。
尤其是在液冷技術(shù)在國內(nèi)火爆后,英特爾技術(shù)專家在一年前的一次深入考察液冷生態(tài)系統(tǒng)時,從ODM、OEM等伙伴處發(fā)現(xiàn)了一個普遍存在的問題:
由于數(shù)據(jù)中心經(jīng)常涉及到設(shè)備迭代,當(dāng)運維人員在進行機房運維工作時,經(jīng)常會遇到不同廠商的快接頭無法互插。
是否可以在不同快接頭之間形成一個互插互換的測試標(biāo)準(zhǔn),就成了擺在英特爾數(shù)據(jù)中心與人工智能事業(yè)部面前的一個問題。
于是,英特爾在一年前啟動了這一項目,據(jù)英特爾數(shù)據(jù)中心與人工智能事業(yè)部中國區(qū)生態(tài)拓展總監(jiān)徐冉后來回憶稱,“當(dāng)時我們預(yù)計兩個季度就能完成這項工作,但后來發(fā)現(xiàn),互插測試遠(yuǎn)比我們想象的要更復(fù)雜。”
在隨后這一年里,英特爾聯(lián)合英維克、丹佛斯、立敏達科技、藍科電氣、正北連接五家UQD快接頭廠商,對250組樣品、32種測試項目,進行了上千次測試。
8月19日,這一測試項目最終完成,英特爾通用快接頭互插互換聯(lián)盟也正式成立,這也為液冷技術(shù)方案在國內(nèi)數(shù)據(jù)中心進一步推廣應(yīng)用掃除了又一魔障。
數(shù)據(jù)中心的“接頭難題”
在數(shù)據(jù)中心液冷系統(tǒng)中,往往有大量的快接頭存在,這些快接頭的作用是快速連接、斷開液體冷卻管路,從而方便維護和更換組件,并最大程度地減少液體泄漏。
因而,快接頭在一定程度上決定了數(shù)據(jù)中心液冷系統(tǒng)維護的難以程度,也關(guān)乎著數(shù)據(jù)中心的安全穩(wěn)定運行。
作為OCP UQD項目發(fā)起者,英特爾早在2019年就提出了通用快接頭標(biāo)準(zhǔn),不過,英特爾數(shù)據(jù)中心和人工智能事業(yè)部中國區(qū)平臺技術(shù)研發(fā)部總監(jiān)杜黎光指出,“英特爾最早只是聯(lián)合業(yè)界在這項標(biāo)準(zhǔn)中基于OCP統(tǒng)一了快接頭的關(guān)鍵尺寸,確保不同廠家的快接頭在機械尺寸上能夠匹配、插緊。”
但這項標(biāo)準(zhǔn)只保證了最基本的對接問題,至于采用不同快接頭插緊后,是否能達到原廠的效果、是否足夠好用,原有標(biāo)準(zhǔn)中并沒有進行詳細(xì)規(guī)定。
更何況,在2019年,液冷技術(shù)方案在國內(nèi)數(shù)據(jù)中心中還并非主流技術(shù),大多數(shù)廠商依然秉持著觀望態(tài)度,這也讓整個行業(yè)對OCP UQD標(biāo)準(zhǔn)沒有給予足夠重視。
藍科電氣總經(jīng)理陳杰指出,“直到2022年底ChatGPT的發(fā)布,我們開始邁入到AI時代,液冷技術(shù)在國內(nèi)開始火爆起來。”
正是在液冷技術(shù)不斷升溫,成為更多數(shù)據(jù)中心的選擇時,之前只是規(guī)定了快接頭尺寸標(biāo)準(zhǔn)的OCP UQD也就需要再往前走一步,真正解決快接頭互插互換過程中安全穩(wěn)定問題。
對此,杜黎光給出的一個更為直觀的例子:
數(shù)據(jù)中心機架上如果裝了某一廠商的服務(wù)器,在與機架上快接頭進行插合時,如果選用的是同一家廠商的快接頭,無論是在吻合程度、可靠性,還是防泄露能力,都會有很好的表現(xiàn)。
但如果選用的不是同一家廠商的快接頭,是否會有一樣的效果,這還從未有人進行過驗證。
由于數(shù)據(jù)中心的機架壽命在10年以上,服務(wù)器迭代周期往往只有2年左右,出現(xiàn)液冷服務(wù)器的快接頭與機架上的不一致也就成了常見的事。
正因如此,2024年,推動不同廠商之間的快接頭互插互換接近、乃至達到原廠水平,就成了英特爾中國數(shù)據(jù)中心液冷創(chuàng)新加速計劃中的一項重要工作。
這一年,英特爾先是經(jīng)過綜合考慮遴選出了五家本地UQD快接頭廠商,后又基于英特爾產(chǎn)品品控要求和可能失效模式分析,制定了全面的互換測試標(biāo)準(zhǔn)和流程。
在這個過程中,首先是各家參與測試的廠商進行自插自配測試,以此確保自身的兼容性,在此基礎(chǔ)上再進行兩兩組合的互插互配測試。
據(jù)杜黎光透露,各廠商產(chǎn)品往往自插自配時表現(xiàn)良好,但在互插互配時就會出現(xiàn)各種問題。
例如,彈簧是快接頭的關(guān)鍵部件,而彈簧的軟硬程度、壓縮間距的標(biāo)準(zhǔn)往往是一個范圍,各家廠商在快接頭設(shè)計過程中,由于軟硬程度和壓縮間距選擇的標(biāo)準(zhǔn)值不同,就會導(dǎo)致互插互換時密封不嚴(yán),乃至無法匹配的情況。
這時,聯(lián)盟的作用就是協(xié)調(diào)各方,針對參數(shù)差異進行溝通,共同商定優(yōu)化方案。
在過去這一年里,英維克、丹佛斯、立敏達科技、藍科電氣、正北連接五家UQD快接頭廠商的250種樣品,共進行了32次測試項目,上千次測試。
與此同時,英特爾測試團隊打通了冷板、冷卻液等上下游產(chǎn)業(yè)鏈進行聯(lián)合測試,期間發(fā)現(xiàn)了多種失效模式并制定了相應(yīng)的改進方案。
這才有了英特爾通用快接頭互插互換聯(lián)盟的正式成立。
即將進入的液冷時代
據(jù)IDC統(tǒng)計數(shù)據(jù)顯示,2024年中國液冷服務(wù)器市場規(guī)模達到23.7億美元,同比增長67%,預(yù)計2029年將會進一步達到162億美元。
液冷技術(shù),正在成為數(shù)據(jù)中心應(yīng)對算力持續(xù)增長、功率不斷提升、散熱需求越來越高的一項關(guān)鍵技術(shù)。
不過,徐冉也特別指出,目前液冷行業(yè)仍處于起步階段。
為此,英特爾早在2024年就推出了英特爾中國數(shù)據(jù)中心液冷創(chuàng)新加速計劃,據(jù)杜黎光透露,目前這項計劃已經(jīng)開展了以下幾個重要項目:
第一,冷板整體方案測試認(rèn)證,英特爾審議了英維克作為英特爾BHS-AP平臺冷板方案整體供應(yīng)商,整體方案包括冷板、管道、快接頭和CDU,每個部件英特爾都定義了認(rèn)證測試的方法。
第二,浸沒式液冷項目,英特爾聯(lián)合綠色云圖、新華三、埃克森美孚共同推出了基于合成油的G-Flow液冷解決方案,該方案成功克服了合成油散熱能力的局限,能夠?qū)⑸峁β蚀蠓嵘?,實現(xiàn)了環(huán)保與高效散熱的兼顧。
第三,冷板液冷液體測試項目,冷板相當(dāng)于人的循環(huán)系統(tǒng),泵出的液體通過管道流出去,這當(dāng)中的液體非常重要,英特爾此前驗證了一些液體供應(yīng)商,現(xiàn)在推薦的液體含有冷凍液和抗腐蝕、抗菌合成配方的PG25。
第四,OCP UQD快接頭互插互換項目,英特爾聯(lián)合英維克、丹佛斯、立敏達科技、藍科電氣、正北連接五家廠商完成了OCP UQD快接頭互插互換,并成立了英特爾通用快接頭互插互換聯(lián)盟。
值得注意的是,此次進行互插互換測試的快接頭,是市場上更為主流的04型號的快接頭,徐冉指出,“未來如果我們的OEM、ODM或CSP客戶有更多需求,并提出測試其他產(chǎn)品或引入新供應(yīng)商的建議,我們一定會認(rèn)真考慮并付諸實施。”
至于英特爾此次成立的這一聯(lián)盟接下來在技術(shù)層面的工作重點,杜黎光指出,“首先會做好后續(xù)服務(wù)與問題追蹤,持續(xù)關(guān)注客戶應(yīng)用過程中可能會出現(xiàn)的互插互換問題并及時解決,其次也會根據(jù)技術(shù)發(fā)展方向與業(yè)界合作,根據(jù)實際需要對UQD標(biāo)準(zhǔn)進行迭代升級。”
好文章,需要你的鼓勵
浙江大學(xué)團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實驗顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓(xùn)練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團隊發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學(xué)習(xí)方法訓(xùn)練多個AI模型。實驗結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達到49.6%準(zhǔn)確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。
關(guān)注智造、硬件、機器人。