
作者|周雅
在當(dāng)下的AI競爭格局下,沒什么能比一場AI濃度爆表的大會,更能快速彰顯自身實(shí)力了,AMD的這場「Advancing AI大會」,就是印證。
這一天是美西時間10月10日,位于舊金山的Moscone Center從清晨起就人頭涌動,大家都在坐等這場發(fā)布。
隨后,AMD 董事會主席及首席執(zhí)行官 Lisa Su博士登臺,她的開場開門見山:
· “高性能計(jì)算是現(xiàn)代世界的基本組成部分,AMD在推進(jìn)AI的過程中,也推動了對更多計(jì)算的需求。AMD真正致力于推動高性能計(jì)算和AI基礎(chǔ)設(shè)施的開放式創(chuàng)新。”
· 以及Lisa Su博士接下來一句打趣的話:“我們今天會聊很多AI的內(nèi)容,如果大家沒意見的話。”
話音落下,既為今天的這場活動,也為今年的她掌舵AMD第十周年,定下一個主基調(diào)。
在持續(xù)兩小時密集的發(fā)布里,Lisa Su博士一一亮出核心產(chǎn)品升級,重點(diǎn)包括四款新品:第五代EPYC服務(wù)器“Turin”、AI加速器“Instinct MI325X” 、面向AI PC的處理器“Ryzen AI 300 PRO”、以及第三代DPU Pensando系列,用一張完整的CPU、GPU、DPU版圖,強(qiáng)化從數(shù)據(jù)中心、到PC市場、到邊緣計(jì)算的疆土,形成了某種意義上的“狼群效應(yīng)”。
要知道,今天當(dāng)我們熱議AI,不再只是在談技術(shù),可能是在談關(guān)于“如何加速擁抱AI”,關(guān)于“如何最大化釋放AI價值”,以及關(guān)于“如何為正確的應(yīng)用選擇正確的計(jì)算”,這些話題,或許沒有放之四海皆準(zhǔn)的答案,而AMD對此分享了核心策略。
Lisa Su博士直言,對于AMD來說,AI平臺有四個關(guān)鍵:1、一個用于訓(xùn)練和推理的最強(qiáng)計(jì)算引擎;2、一個開放的、經(jīng)過驗(yàn)證的、對開發(fā)者友好的軟件平臺;3、一個共同創(chuàng)新的AI合作伙伴系統(tǒng);4、在集群水平上的系統(tǒng)設(shè)計(jì)。
與這一雄心相匹配的,就是接下來出場的王牌產(chǎn)品了。
第一張王牌:EPYC升級,CPU也可以是AI的好搭子
CPU,是AMD多年來持續(xù)攻城略地的領(lǐng)域。
回顧過去的7年,自2017年重回?cái)?shù)據(jù)中心市場后,AMD一路打開局面:隨著第一代Naples EPYC 7001系列、第二代Rome EPYC 7002系列、第三代Milan EPYC 7003系列、第四代Genoa EPYC的到來,AMD在數(shù)據(jù)中心的CPU市場份額從2018年還只有2%、2020年達(dá)到8%、2022年達(dá)到27%,到今年上半年已攀升至34%。強(qiáng)勢程度可見一斑。
所以當(dāng)“34%”這個數(shù)字出現(xiàn)時,現(xiàn)場響起了一陣掌聲,EPYC被Lisa Su博士稱為是“現(xiàn)代數(shù)據(jù)中心的首選CPU”,目前已在全球覆蓋超過350個OEM平臺和超過950個云實(shí)例。
緊接著,AMD正式官宣第五代EPYC新品:EPYC 9005系列,代號“Turin”!
第五代EPYC提供兩種不同的核心配置:一個是基于Zen 5架構(gòu),擁有128核、256線程,采用4nm;另一個是基于Zen 5c架構(gòu),擁有192核、384線程,采用3nm。
性能方面,該處理器在計(jì)算、內(nèi)存、IO平臺連接、安全四個層面做了全面升級。
具體而言,“Zen 5”為EPYC 9005系列帶來了在云、企業(yè)工作負(fù)載中的IPC提升17%,以及在AI、HPC應(yīng)用中的IPC提升37%。
市場經(jīng)常拿AMD EPYC與英特爾至強(qiáng)芯片做對比,而AMD則直接在現(xiàn)場用一系列參數(shù)對其“貼臉開大”。比如,在行業(yè)標(biāo)準(zhǔn)的SPEC CPU 2017基準(zhǔn)測試中,192核EPYC 9965對比英特爾64核至強(qiáng)8592+提升2.7倍,其他對比參數(shù)如下圖。
沒有對比就沒有傷害,由于性能上更強(qiáng)勁,也帶來了應(yīng)用上的更佳表現(xiàn)。比如在視頻轉(zhuǎn)碼、圖像渲染、商業(yè)App、數(shù)據(jù)庫等如下圖中的8個用例,EPYC 9965都扛的住對比。
甚至,Lisa Su博士在這里給CIO等技術(shù)負(fù)責(zé)人算了筆賬:那些4年未更新的數(shù)據(jù)中心,如果從二代至強(qiáng)鉑金8280升級到EPYC 9665,只需131臺服務(wù)器就能達(dá)到原來1000臺的性能水平,從而節(jié)省87%的占地空間、降低最多68%功耗、三年TCO成本節(jié)省最多67%,再加上企業(yè)軟件許可成本,這意味著企業(yè)可在6-12個月內(nèi)實(shí)現(xiàn)投資收支平衡。
此外,AMD還提供了一套完整的軟件生態(tài)系統(tǒng),實(shí)屬面面俱到了。
而針對客戶現(xiàn)在流行用“CPU+GPU組成超高性能的AI計(jì)算系統(tǒng)”的這種混搭做法,EPYC也是最佳搭檔。因?yàn)椴还苣阌玫氖茿MD的Instinct MI300X系列,還是友商的H100系列,EPYC都可以放大GPU的能力。
比如搭配MI300X GPU,相比至強(qiáng)8592+,EPYC 9575F可將GPU系統(tǒng)的推理性能、訓(xùn)練性能分別提升8%、20%;同樣是搭配英偉達(dá)H100,EPYC 9575F可將GPU系統(tǒng)的推理性能、訓(xùn)練性能相比至強(qiáng)8592+分別提升20%、15%。
并且AMD連量身定制的混搭方案也奉上了,以下兩張圖分別是:適配Instinct系列GPU的EPYC AI主機(jī)CPU型號,以及適配英偉達(dá)GPU的EPYC AI主機(jī)CPU型號。
價格方面,EPYC 9005全系列一共多達(dá)27款,包括22款Zen 5、5款Zen 5c,其中的“頂配”EPYC 9965,采用192核、384線程、384MB三級緩存,主頻2.25-3.7GHz,熱設(shè)計(jì)功耗500W,價格為14813美元(約合10萬元人民幣)。
第二張王牌:GPU界的誠意之作,Instinct MI325X不懼比較
要說英偉達(dá)在AI芯片領(lǐng)域占據(jù)強(qiáng)勢地位,那么放眼望去,AMD或許是為數(shù)不多能在模型訓(xùn)練,推理等場景提供全鏈條對標(biāo)技術(shù)的公司之一。
目前分析師的共識是,AMD預(yù)計(jì)將在未來幾年奪食AI加速器市場約5%至7%的份額,而美國銀行證券分析師Vivek Arya直指,如果到2026年底,AMD的份額能達(dá)到 10%,那么該公司的銷售額將增加約50億美元。
而作為AMD的AI加速器扛把子Instinct,此前也公布了直至2026年的最新路線圖,卷出了“年更”節(jié)奏:2024年Q4將帶來Instinct MI325X;2025年,采用CDNA 4架構(gòu)的Instinct MI350系列將會問世,搭載3nm工藝;2026年,CDNA“Next”架構(gòu)將登場,用于Instinct MI400系列。
照此節(jié)奏,AMD這次就正式推出新一代AI加速器“選手”——Instinct MI325X。
Instinct MI325X采用CDNA 3 GPU架構(gòu),由于配備了速度更快、密度更高的HBM3E內(nèi)存,比上一代產(chǎn)品實(shí)現(xiàn)了內(nèi)存帶寬提升到6TB/s、容量提升到256GB。另外,它在FP8和FP16精度下分別達(dá)到2.6 PF和1.3 PF的峰值理論性能。
由8張MI325X集成的GPU平臺有2TB HBM3E內(nèi)存,F(xiàn)P8精度下的理論峰值性能達(dá)到20.8 PF,F(xiàn)P16精度下達(dá)到10.4 PF。系統(tǒng)配備 AMD Infinity Fabric 互連技術(shù),帶寬高達(dá)896 GB/s,總內(nèi)存帶寬達(dá)到了 48 TB/s。
從推理性能來看,相比英偉達(dá)H200 HGX,無論單卡還是8卡平臺,MI325X服務(wù)器平臺在跑不同的大模型時,推理性能領(lǐng)先20%-40%。
從訓(xùn)練性能來看,單張MI325X訓(xùn)練Llama 2 7B的速度超過單張H200。而8張MI325X訓(xùn)練Llama 2 70B的性能,基本與H200 HGX持平。
MI325X將于2024年第四季度開始投產(chǎn),而合作伙伴的整機(jī)系統(tǒng)、基礎(chǔ)架構(gòu)解決方案,將從2025年第一季度起陸續(xù)推出。
不過到那時,隔壁友商將大規(guī)模量產(chǎn)某芯片,所以不知是否嗅到危機(jī),這次除了MI325X之外,AMD還預(yù)告了它的繼任者M(jìn)I350系列。
MI350系列采用CDNA 4 架構(gòu),3nm工藝,配備高達(dá)288GB的HBM3E高帶寬內(nèi)存,它的一個重要更新是新增對FP4/FP6數(shù)據(jù)類型的支持,推理性能相比基于CDNA 3的加速器有高達(dá)35倍的提升,有望在2025年下半年上市。
相比MI325X,MI355X的FP8和FP16性能提升了80%,F(xiàn)P16峰值性能達(dá)到2.3PFLOPS,F(xiàn)P8峰值性能達(dá)到4.6PFLOPS,F(xiàn)P6和FP4峰值性能達(dá)到9.2PFLOPS。
而相比8卡MI300X,8卡MI355X的AI峰值算力提升多達(dá)7.4倍、HBM內(nèi)存提高1.5倍、支持的模型參數(shù)量提升了6倍。
當(dāng)然我們都知道,要打造一款成功的AI加速器,一定少不了的關(guān)鍵三要素是:硬件、軟件、生態(tài)系統(tǒng)。
軟件方面,AMD ROCm開發(fā)平臺是一套完整的AI軟件棧,從底層的“硬件”,到中間的“開發(fā)工具”,再到上層的“AI模型與算法”,豐富程度堪稱百寶箱。
關(guān)鍵的是,ROCm還在持續(xù)進(jìn)化。不但支持幾乎所有的AI框架與模型,還在不斷優(yōu)化對GenAI的支持,惠及開發(fā)者。
生態(tài)方面,AMD的策略分兩步走,一方面對外在不斷壯大Instinct的“朋友圈”,比如微軟、OpenAI、Meta都在越來越多的選擇Instinct;再比如,AMD加強(qiáng)了與Hugging Face和Meta的合作,對于超過100萬種主流模型都能做到開箱即用。
在現(xiàn)場播放的視頻片段中,AMD 董事會主席及首席執(zhí)行官 Lisa Su博士對話微軟CEO薩提亞·納德拉,薩提亞分享說道:為企業(yè)帶來成本效益,是目前AI開發(fā)最重要的指標(biāo)。他同時提到:
“過去四年來,微軟一直在利用AMD的AI創(chuàng)新來支持自己的云創(chuàng)新,這對兩家公司來說都是一個非常有益的反饋循環(huán),并且會帶來回報(bào)。”
另一方面,除了對外培養(yǎng)生態(tài)伙伴,AMD對內(nèi)也在通過一系列并購,擴(kuò)大自身的AI商業(yè)版圖。其中僅過去幾個月就完成了兩筆收購:
7月份,AMD以6.65億美元的價格,完成了對歐洲最大的私人AI實(shí)驗(yàn)室Silo AI的收購,獲得了端到端AI解決方案、約300名AI專家,勢必會增強(qiáng)在歐洲的AI業(yè)務(wù)實(shí)力;8月份,AMD又以49億美元并購AI系統(tǒng)企業(yè)ZT Systems,ZT Systems專門設(shè)計(jì)、集成、制造、部署AI系統(tǒng),也是Open AI的系統(tǒng)供應(yīng)商,這項(xiàng)并購案有望強(qiáng)化AMD在數(shù)據(jù)中心的AI基礎(chǔ)架構(gòu),如系統(tǒng)設(shè)計(jì)、集成能力。
第三張王牌:無網(wǎng)絡(luò)不計(jì)算的DPU
可以肯定地說,在實(shí)現(xiàn)AI最佳性能的過程中,網(wǎng)絡(luò)是根基。
“糟糕的網(wǎng)絡(luò)可能會給AI集群造成重大瓶頸。”AMD高級副總裁、數(shù)據(jù)中心嵌入式解決方案事業(yè)部總經(jīng)理Forrest Norrod指出,AI模型平均有30%的訓(xùn)練周期時間都花在網(wǎng)絡(luò)等待上。在訓(xùn)練和分布式推理模型中,通信占了40%-75%的時間。
AI網(wǎng)絡(luò)可以分為「前端」和「后端」:「前端」向AI集群提供數(shù)據(jù)和信息,可編程DPU從而不斷發(fā)展;「后端」管理加速器與集群間的數(shù)據(jù)傳輸,可獲得最大利用率。
為了有效管理這兩個網(wǎng)絡(luò),并推動整個系統(tǒng)的性能、可擴(kuò)展性和效率提升,AMD這次發(fā)布了兩款新品:用于前端網(wǎng)絡(luò)的Pensando Salina 400 DPU、用于后端網(wǎng)絡(luò)的Pensando Pollara 400網(wǎng)卡。
其中,Salina 400是AMD第三代可編程DPU,支持400G吞吐量,可實(shí)現(xiàn)快速數(shù)據(jù)傳輸速率,可為數(shù)據(jù)驅(qū)動的AI應(yīng)用優(yōu)化性能、效率、安全性和可擴(kuò)展性。
而Pollara 400則采用AMD P4可編程引擎,支持下一代RDMA軟件,并以開放的網(wǎng)絡(luò)生態(tài)系統(tǒng)為后盾,對于在后端網(wǎng)絡(luò)中提供加速器到加速器通信的領(lǐng)先性能、可擴(kuò)展性和效率至關(guān)重要。
第四張王牌:AI PC時刻的殺手锏,專攻企業(yè)級需求
AI讓PC市場煥發(fā)新生的故事,不只發(fā)生在消費(fèi)級市場,同時也在企業(yè)級市場上演,或是提質(zhì)提效,或是激發(fā)創(chuàng)造。
而在最早一批帶動AI PC活力的先鋒隊(duì)伍里,AMD是其中不容小覷的一員,畢竟這家巨頭有著“全球首家在x86處理器中集成NPU AI獨(dú)立引擎”的風(fēng)光偉績。
繼今年6月份推出第三代AI PC處理器銳龍AI 300系列處理器(代號Strix Point)之后,AMD這次又正式官宣新成員——銳龍AI PRO 300系列,這已經(jīng)是AMD面向商用AI PC的第三代產(chǎn)品。
梳理歷代產(chǎn)品,2023年6月,AMD通過銳龍PRO 7040系列首次叩開商用AI PC的大門,NPU算力達(dá)到10 TOPS;2024年4月,銳龍PRO 8040系列亮相,NPU算力提高到16 TOPS。
如今,銳龍AI PRO 300系列的算力最高可達(dá)到55TOPS,完全滿足Copilot+PC的條件,支持包括電話會議實(shí)時字幕、語言翻譯、AI圖像生成等功能。所以AMD稱,該系列處理器是首款專為企業(yè)Copilot+PC而設(shè)計(jì)的芯片。
此次銳龍AI PRO 300的首發(fā)陣容有三個型號,分別是:銳龍AI 9 HX PRO 375、銳龍AI 9 HX PRO 370、銳龍AI 7 PRO 360。
性能方面概括而言,銳龍AI PRO 300系列基于4nm,主要有四項(xiàng)更新:CPU部分采用Zen 5架構(gòu)(最多12核、24個線程),NPU采用了XDNA 2架構(gòu),GPU采用了RDNA 3.5架構(gòu)(最多16個計(jì)算單元),以及針對企業(yè)加入了AMD PRO安全技術(shù)。
其中關(guān)于安全的AMD PRO技術(shù),通過多層軟件和硬件級防護(hù)避免商用客戶受到威脅;而AMD AI PRO技術(shù)則通過AI來加強(qiáng)安全,反釣魚主動防御先進(jìn)威脅;另外AI增強(qiáng)的威脅檢測系統(tǒng),也能提升網(wǎng)絡(luò)安全性,在像醫(yī)療和金融等領(lǐng)域按照相應(yīng)標(biāo)準(zhǔn)實(shí)現(xiàn)更好的防控。AMD預(yù)計(jì)到明年,將會有超過100款商用AI PC平臺采用銳龍AI PRO技術(shù)。
續(xù)航方面,由于4nm制程工藝,搭載該處理器的AI PC續(xù)航可達(dá)23小時;連續(xù)使用Microsoft Team,續(xù)航超過9小時。
不難看出,AMD對于這顆芯是寄予了厚望,正如Lisa Su博士所說:“銳龍AI PRO 300是為了提供最佳性能、長續(xù)航、安全性、可靠性、以及企業(yè)所需的一切而構(gòu)建的。”
以上不難看出,這一次,AMD是做足了準(zhǔn)備而來。
印象中現(xiàn)場還有這樣一幕,在大會接近尾聲,Lisa Su博士登臺致謝,其中提到了所有到場為AMD站臺的合作伙伴,Google、甲骨文、微軟、Meta、Dell、HPE、Databricks等等,給這場有些“火藥味”的發(fā)布畫上了一個還算融洽的句號。
如同開篇所提,今年是Lisa Su博士掌舵AMD的十周年,在這一過程中,Lisa Su博士帶領(lǐng)AMD公司從一個充滿挑戰(zhàn)的位置,逐漸突出重圍成為AI賽場的一匹黑馬。
某種意義上,這或許就像她在個人社交平臺上所寫的一樣:
“盡管過去十年令人驚嘆,但最好的還在后頭。”
好文章,需要你的鼓勵
浙江大學(xué)團(tuán)隊(duì)提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時,輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。
關(guān)注科技創(chuàng)新、技術(shù)投資。
以文會友,左手硬核科技,右手浪漫主義。