作者|周雅
在當(dāng)下的AI競(jìng)爭(zhēng)格局下,沒(méi)什么能比一場(chǎng)AI濃度爆表的大會(huì),更能快速彰顯自身實(shí)力了,AMD的這場(chǎng)「Advancing AI大會(huì)」,就是印證。
這一天是美西時(shí)間10月10日,位于舊金山的Moscone Center從清晨起就人頭涌動(dòng),大家都在坐等這場(chǎng)發(fā)布。
隨后,AMD 董事會(huì)主席及首席執(zhí)行官 Lisa Su博士登臺(tái),她的開(kāi)場(chǎng)開(kāi)門見(jiàn)山:
· “高性能計(jì)算是現(xiàn)代世界的基本組成部分,AMD在推進(jìn)AI的過(guò)程中,也推動(dòng)了對(duì)更多計(jì)算的需求。AMD真正致力于推動(dòng)高性能計(jì)算和AI基礎(chǔ)設(shè)施的開(kāi)放式創(chuàng)新。”
· 以及Lisa Su博士接下來(lái)一句打趣的話:“我們今天會(huì)聊很多AI的內(nèi)容,如果大家沒(méi)意見(jiàn)的話。”
話音落下,既為今天的這場(chǎng)活動(dòng),也為今年的她掌舵AMD第十周年,定下一個(gè)主基調(diào)。
在持續(xù)兩小時(shí)密集的發(fā)布里,Lisa Su博士一一亮出核心產(chǎn)品升級(jí),重點(diǎn)包括四款新品:第五代EPYC服務(wù)器“Turin”、AI加速器“Instinct MI325X” 、面向AI PC的處理器“Ryzen AI 300 PRO”、以及第三代DPU Pensando系列,用一張完整的CPU、GPU、DPU版圖,強(qiáng)化從數(shù)據(jù)中心、到PC市場(chǎng)、到邊緣計(jì)算的疆土,形成了某種意義上的“狼群效應(yīng)”。
要知道,今天當(dāng)我們熱議AI,不再只是在談技術(shù),可能是在談關(guān)于“如何加速擁抱AI”,關(guān)于“如何最大化釋放AI價(jià)值”,以及關(guān)于“如何為正確的應(yīng)用選擇正確的計(jì)算”,這些話題,或許沒(méi)有放之四海皆準(zhǔn)的答案,而AMD對(duì)此分享了核心策略。
Lisa Su博士直言,對(duì)于AMD來(lái)說(shuō),AI平臺(tái)有四個(gè)關(guān)鍵:1、一個(gè)用于訓(xùn)練和推理的最強(qiáng)計(jì)算引擎;2、一個(gè)開(kāi)放的、經(jīng)過(guò)驗(yàn)證的、對(duì)開(kāi)發(fā)者友好的軟件平臺(tái);3、一個(gè)共同創(chuàng)新的AI合作伙伴系統(tǒng);4、在集群水平上的系統(tǒng)設(shè)計(jì)。
與這一雄心相匹配的,就是接下來(lái)出場(chǎng)的王牌產(chǎn)品了。
第一張王牌:EPYC升級(jí),CPU也可以是AI的好搭子
CPU,是AMD多年來(lái)持續(xù)攻城略地的領(lǐng)域。
回顧過(guò)去的7年,自2017年重回?cái)?shù)據(jù)中心市場(chǎng)后,AMD一路打開(kāi)局面:隨著第一代Naples EPYC 7001系列、第二代Rome EPYC 7002系列、第三代Milan EPYC 7003系列、第四代Genoa EPYC的到來(lái),AMD在數(shù)據(jù)中心的CPU市場(chǎng)份額從2018年還只有2%、2020年達(dá)到8%、2022年達(dá)到27%,到今年上半年已攀升至34%。強(qiáng)勢(shì)程度可見(jiàn)一斑。
所以當(dāng)“34%”這個(gè)數(shù)字出現(xiàn)時(shí),現(xiàn)場(chǎng)響起了一陣掌聲,EPYC被Lisa Su博士稱為是“現(xiàn)代數(shù)據(jù)中心的首選CPU”,目前已在全球覆蓋超過(guò)350個(gè)OEM平臺(tái)和超過(guò)950個(gè)云實(shí)例。
緊接著,AMD正式官宣第五代EPYC新品:EPYC 9005系列,代號(hào)“Turin”!
第五代EPYC提供兩種不同的核心配置:一個(gè)是基于Zen 5架構(gòu),擁有128核、256線程,采用4nm;另一個(gè)是基于Zen 5c架構(gòu),擁有192核、384線程,采用3nm。
性能方面,該處理器在計(jì)算、內(nèi)存、IO平臺(tái)連接、安全四個(gè)層面做了全面升級(jí)。
具體而言,“Zen 5”為EPYC 9005系列帶來(lái)了在云、企業(yè)工作負(fù)載中的IPC提升17%,以及在AI、HPC應(yīng)用中的IPC提升37%。
市場(chǎng)經(jīng)常拿AMD EPYC與英特爾至強(qiáng)芯片做對(duì)比,而AMD則直接在現(xiàn)場(chǎng)用一系列參數(shù)對(duì)其“貼臉開(kāi)大”。比如,在行業(yè)標(biāo)準(zhǔn)的SPEC CPU 2017基準(zhǔn)測(cè)試中,192核EPYC 9965對(duì)比英特爾64核至強(qiáng)8592+提升2.7倍,其他對(duì)比參數(shù)如下圖。
沒(méi)有對(duì)比就沒(méi)有傷害,由于性能上更強(qiáng)勁,也帶來(lái)了應(yīng)用上的更佳表現(xiàn)。比如在視頻轉(zhuǎn)碼、圖像渲染、商業(yè)App、數(shù)據(jù)庫(kù)等如下圖中的8個(gè)用例,EPYC 9965都扛的住對(duì)比。
甚至,Lisa Su博士在這里給CIO等技術(shù)負(fù)責(zé)人算了筆賬:那些4年未更新的數(shù)據(jù)中心,如果從二代至強(qiáng)鉑金8280升級(jí)到EPYC 9665,只需131臺(tái)服務(wù)器就能達(dá)到原來(lái)1000臺(tái)的性能水平,從而節(jié)省87%的占地空間、降低最多68%功耗、三年TCO成本節(jié)省最多67%,再加上企業(yè)軟件許可成本,這意味著企業(yè)可在6-12個(gè)月內(nèi)實(shí)現(xiàn)投資收支平衡。
此外,AMD還提供了一套完整的軟件生態(tài)系統(tǒng),實(shí)屬面面俱到了。
而針對(duì)客戶現(xiàn)在流行用“CPU+GPU組成超高性能的AI計(jì)算系統(tǒng)”的這種混搭做法,EPYC也是最佳搭檔。因?yàn)椴还苣阌玫氖茿MD的Instinct MI300X系列,還是友商的H100系列,EPYC都可以放大GPU的能力。
比如搭配MI300X GPU,相比至強(qiáng)8592+,EPYC 9575F可將GPU系統(tǒng)的推理性能、訓(xùn)練性能分別提升8%、20%;同樣是搭配英偉達(dá)H100,EPYC 9575F可將GPU系統(tǒng)的推理性能、訓(xùn)練性能相比至強(qiáng)8592+分別提升20%、15%。
并且AMD連量身定制的混搭方案也奉上了,以下兩張圖分別是:適配Instinct系列GPU的EPYC AI主機(jī)CPU型號(hào),以及適配英偉達(dá)GPU的EPYC AI主機(jī)CPU型號(hào)。
價(jià)格方面,EPYC 9005全系列一共多達(dá)27款,包括22款Zen 5、5款Zen 5c,其中的“頂配”EPYC 9965,采用192核、384線程、384MB三級(jí)緩存,主頻2.25-3.7GHz,熱設(shè)計(jì)功耗500W,價(jià)格為14813美元(約合10萬(wàn)元人民幣)。
第二張王牌:GPU界的誠(chéng)意之作,Instinct MI325X不懼比較
要說(shuō)英偉達(dá)在AI芯片領(lǐng)域占據(jù)強(qiáng)勢(shì)地位,那么放眼望去,AMD或許是為數(shù)不多能在模型訓(xùn)練,推理等場(chǎng)景提供全鏈條對(duì)標(biāo)技術(shù)的公司之一。
目前分析師的共識(shí)是,AMD預(yù)計(jì)將在未來(lái)幾年奪食AI加速器市場(chǎng)約5%至7%的份額,而美國(guó)銀行證券分析師Vivek Arya直指,如果到2026年底,AMD的份額能達(dá)到 10%,那么該公司的銷售額將增加約50億美元。
而作為AMD的AI加速器扛把子Instinct,此前也公布了直至2026年的最新路線圖,卷出了“年更”節(jié)奏:2024年Q4將帶來(lái)Instinct MI325X;2025年,采用CDNA 4架構(gòu)的Instinct MI350系列將會(huì)問(wèn)世,搭載3nm工藝;2026年,CDNA“Next”架構(gòu)將登場(chǎng),用于Instinct MI400系列。
照此節(jié)奏,AMD這次就正式推出新一代AI加速器“選手”——Instinct MI325X。
Instinct MI325X采用CDNA 3 GPU架構(gòu),由于配備了速度更快、密度更高的HBM3E內(nèi)存,比上一代產(chǎn)品實(shí)現(xiàn)了內(nèi)存帶寬提升到6TB/s、容量提升到256GB。另外,它在FP8和FP16精度下分別達(dá)到2.6 PF和1.3 PF的峰值理論性能。
由8張MI325X集成的GPU平臺(tái)有2TB HBM3E內(nèi)存,F(xiàn)P8精度下的理論峰值性能達(dá)到20.8 PF,F(xiàn)P16精度下達(dá)到10.4 PF。系統(tǒng)配備 AMD Infinity Fabric 互連技術(shù),帶寬高達(dá)896 GB/s,總內(nèi)存帶寬達(dá)到了 48 TB/s。
從推理性能來(lái)看,相比英偉達(dá)H200 HGX,無(wú)論單卡還是8卡平臺(tái),MI325X服務(wù)器平臺(tái)在跑不同的大模型時(shí),推理性能領(lǐng)先20%-40%。
從訓(xùn)練性能來(lái)看,單張MI325X訓(xùn)練Llama 2 7B的速度超過(guò)單張H200。而8張MI325X訓(xùn)練Llama 2 70B的性能,基本與H200 HGX持平。
MI325X將于2024年第四季度開(kāi)始投產(chǎn),而合作伙伴的整機(jī)系統(tǒng)、基礎(chǔ)架構(gòu)解決方案,將從2025年第一季度起陸續(xù)推出。
不過(guò)到那時(shí),隔壁友商將大規(guī)模量產(chǎn)某芯片,所以不知是否嗅到危機(jī),這次除了MI325X之外,AMD還預(yù)告了它的繼任者M(jìn)I350系列。
MI350系列采用CDNA 4 架構(gòu),3nm工藝,配備高達(dá)288GB的HBM3E高帶寬內(nèi)存,它的一個(gè)重要更新是新增對(duì)FP4/FP6數(shù)據(jù)類型的支持,推理性能相比基于CDNA 3的加速器有高達(dá)35倍的提升,有望在2025年下半年上市。
相比MI325X,MI355X的FP8和FP16性能提升了80%,F(xiàn)P16峰值性能達(dá)到2.3PFLOPS,F(xiàn)P8峰值性能達(dá)到4.6PFLOPS,F(xiàn)P6和FP4峰值性能達(dá)到9.2PFLOPS。
而相比8卡MI300X,8卡MI355X的AI峰值算力提升多達(dá)7.4倍、HBM內(nèi)存提高1.5倍、支持的模型參數(shù)量提升了6倍。
當(dāng)然我們都知道,要打造一款成功的AI加速器,一定少不了的關(guān)鍵三要素是:硬件、軟件、生態(tài)系統(tǒng)。
軟件方面,AMD ROCm開(kāi)發(fā)平臺(tái)是一套完整的AI軟件棧,從底層的“硬件”,到中間的“開(kāi)發(fā)工具”,再到上層的“AI模型與算法”,豐富程度堪稱百寶箱。
關(guān)鍵的是,ROCm還在持續(xù)進(jìn)化。不但支持幾乎所有的AI框架與模型,還在不斷優(yōu)化對(duì)GenAI的支持,惠及開(kāi)發(fā)者。
生態(tài)方面,AMD的策略分兩步走,一方面對(duì)外在不斷壯大Instinct的“朋友圈”,比如微軟、OpenAI、Meta都在越來(lái)越多的選擇Instinct;再比如,AMD加強(qiáng)了與Hugging Face和Meta的合作,對(duì)于超過(guò)100萬(wàn)種主流模型都能做到開(kāi)箱即用。
在現(xiàn)場(chǎng)播放的視頻片段中,AMD 董事會(huì)主席及首席執(zhí)行官 Lisa Su博士對(duì)話微軟CEO薩提亞·納德拉,薩提亞分享說(shuō)道:為企業(yè)帶來(lái)成本效益,是目前AI開(kāi)發(fā)最重要的指標(biāo)。他同時(shí)提到:
“過(guò)去四年來(lái),微軟一直在利用AMD的AI創(chuàng)新來(lái)支持自己的云創(chuàng)新,這對(duì)兩家公司來(lái)說(shuō)都是一個(gè)非常有益的反饋循環(huán),并且會(huì)帶來(lái)回報(bào)。”
另一方面,除了對(duì)外培養(yǎng)生態(tài)伙伴,AMD對(duì)內(nèi)也在通過(guò)一系列并購(gòu),擴(kuò)大自身的AI商業(yè)版圖。其中僅過(guò)去幾個(gè)月就完成了兩筆收購(gòu):
7月份,AMD以6.65億美元的價(jià)格,完成了對(duì)歐洲最大的私人AI實(shí)驗(yàn)室Silo AI的收購(gòu),獲得了端到端AI解決方案、約300名AI專家,勢(shì)必會(huì)增強(qiáng)在歐洲的AI業(yè)務(wù)實(shí)力;8月份,AMD又以49億美元并購(gòu)AI系統(tǒng)企業(yè)ZT Systems,ZT Systems專門設(shè)計(jì)、集成、制造、部署AI系統(tǒng),也是Open AI的系統(tǒng)供應(yīng)商,這項(xiàng)并購(gòu)案有望強(qiáng)化AMD在數(shù)據(jù)中心的AI基礎(chǔ)架構(gòu),如系統(tǒng)設(shè)計(jì)、集成能力。
第三張王牌:無(wú)網(wǎng)絡(luò)不計(jì)算的DPU
可以肯定地說(shuō),在實(shí)現(xiàn)AI最佳性能的過(guò)程中,網(wǎng)絡(luò)是根基。
“糟糕的網(wǎng)絡(luò)可能會(huì)給AI集群造成重大瓶頸。”AMD高級(jí)副總裁、數(shù)據(jù)中心嵌入式解決方案事業(yè)部總經(jīng)理Forrest Norrod指出,AI模型平均有30%的訓(xùn)練周期時(shí)間都花在網(wǎng)絡(luò)等待上。在訓(xùn)練和分布式推理模型中,通信占了40%-75%的時(shí)間。
AI網(wǎng)絡(luò)可以分為「前端」和「后端」:「前端」向AI集群提供數(shù)據(jù)和信息,可編程DPU從而不斷發(fā)展;「后端」管理加速器與集群間的數(shù)據(jù)傳輸,可獲得最大利用率。
為了有效管理這兩個(gè)網(wǎng)絡(luò),并推動(dòng)整個(gè)系統(tǒng)的性能、可擴(kuò)展性和效率提升,AMD這次發(fā)布了兩款新品:用于前端網(wǎng)絡(luò)的Pensando Salina 400 DPU、用于后端網(wǎng)絡(luò)的Pensando Pollara 400網(wǎng)卡。
其中,Salina 400是AMD第三代可編程DPU,支持400G吞吐量,可實(shí)現(xiàn)快速數(shù)據(jù)傳輸速率,可為數(shù)據(jù)驅(qū)動(dòng)的AI應(yīng)用優(yōu)化性能、效率、安全性和可擴(kuò)展性。
而Pollara 400則采用AMD P4可編程引擎,支持下一代RDMA軟件,并以開(kāi)放的網(wǎng)絡(luò)生態(tài)系統(tǒng)為后盾,對(duì)于在后端網(wǎng)絡(luò)中提供加速器到加速器通信的領(lǐng)先性能、可擴(kuò)展性和效率至關(guān)重要。
第四張王牌:AI PC時(shí)刻的殺手锏,專攻企業(yè)級(jí)需求
AI讓PC市場(chǎng)煥發(fā)新生的故事,不只發(fā)生在消費(fèi)級(jí)市場(chǎng),同時(shí)也在企業(yè)級(jí)市場(chǎng)上演,或是提質(zhì)提效,或是激發(fā)創(chuàng)造。
而在最早一批帶動(dòng)AI PC活力的先鋒隊(duì)伍里,AMD是其中不容小覷的一員,畢竟這家巨頭有著“全球首家在x86處理器中集成NPU AI獨(dú)立引擎”的風(fēng)光偉績(jī)。
繼今年6月份推出第三代AI PC處理器銳龍AI 300系列處理器(代號(hào)Strix Point)之后,AMD這次又正式官宣新成員——銳龍AI PRO 300系列,這已經(jīng)是AMD面向商用AI PC的第三代產(chǎn)品。
梳理歷代產(chǎn)品,2023年6月,AMD通過(guò)銳龍PRO 7040系列首次叩開(kāi)商用AI PC的大門,NPU算力達(dá)到10 TOPS;2024年4月,銳龍PRO 8040系列亮相,NPU算力提高到16 TOPS。
如今,銳龍AI PRO 300系列的算力最高可達(dá)到55TOPS,完全滿足Copilot+PC的條件,支持包括電話會(huì)議實(shí)時(shí)字幕、語(yǔ)言翻譯、AI圖像生成等功能。所以AMD稱,該系列處理器是首款專為企業(yè)Copilot+PC而設(shè)計(jì)的芯片。
此次銳龍AI PRO 300的首發(fā)陣容有三個(gè)型號(hào),分別是:銳龍AI 9 HX PRO 375、銳龍AI 9 HX PRO 370、銳龍AI 7 PRO 360。
性能方面概括而言,銳龍AI PRO 300系列基于4nm,主要有四項(xiàng)更新:CPU部分采用Zen 5架構(gòu)(最多12核、24個(gè)線程),NPU采用了XDNA 2架構(gòu),GPU采用了RDNA 3.5架構(gòu)(最多16個(gè)計(jì)算單元),以及針對(duì)企業(yè)加入了AMD PRO安全技術(shù)。
其中關(guān)于安全的AMD PRO技術(shù),通過(guò)多層軟件和硬件級(jí)防護(hù)避免商用客戶受到威脅;而AMD AI PRO技術(shù)則通過(guò)AI來(lái)加強(qiáng)安全,反釣魚(yú)主動(dòng)防御先進(jìn)威脅;另外AI增強(qiáng)的威脅檢測(cè)系統(tǒng),也能提升網(wǎng)絡(luò)安全性,在像醫(yī)療和金融等領(lǐng)域按照相應(yīng)標(biāo)準(zhǔn)實(shí)現(xiàn)更好的防控。AMD預(yù)計(jì)到明年,將會(huì)有超過(guò)100款商用AI PC平臺(tái)采用銳龍AI PRO技術(shù)。
續(xù)航方面,由于4nm制程工藝,搭載該處理器的AI PC續(xù)航可達(dá)23小時(shí);連續(xù)使用Microsoft Team,續(xù)航超過(guò)9小時(shí)。
不難看出,AMD對(duì)于這顆芯是寄予了厚望,正如Lisa Su博士所說(shuō):“銳龍AI PRO 300是為了提供最佳性能、長(zhǎng)續(xù)航、安全性、可靠性、以及企業(yè)所需的一切而構(gòu)建的。”
以上不難看出,這一次,AMD是做足了準(zhǔn)備而來(lái)。
印象中現(xiàn)場(chǎng)還有這樣一幕,在大會(huì)接近尾聲,Lisa Su博士登臺(tái)致謝,其中提到了所有到場(chǎng)為AMD站臺(tái)的合作伙伴,Google、甲骨文、微軟、Meta、Dell、HPE、Databricks等等,給這場(chǎng)有些“火藥味”的發(fā)布畫(huà)上了一個(gè)還算融洽的句號(hào)。
如同開(kāi)篇所提,今年是Lisa Su博士掌舵AMD的十周年,在這一過(guò)程中,Lisa Su博士帶領(lǐng)AMD公司從一個(gè)充滿挑戰(zhàn)的位置,逐漸突出重圍成為AI賽場(chǎng)的一匹黑馬。
某種意義上,這或許就像她在個(gè)人社交平臺(tái)上所寫(xiě)的一樣:
“盡管過(guò)去十年令人驚嘆,但最好的還在后頭。”
好文章,需要你的鼓勵(lì)
這項(xiàng)研究提出了"高效探測(cè)"方法,解決了掩碼圖像建模AI難以有效評(píng)估的問(wèn)題。通過(guò)創(chuàng)新的多查詢交叉注意力機(jī)制,該方法在減少90%參數(shù)的同時(shí)實(shí)現(xiàn)10倍速度提升,在七個(gè)基準(zhǔn)測(cè)試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強(qiáng)相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊(duì)承諾開(kāi)源全部代碼,推動(dòng)技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了CLAIMSPECT系統(tǒng),通過(guò)層次化分解復(fù)雜爭(zhēng)議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點(diǎn)的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動(dòng)構(gòu)建爭(zhēng)議話題的分析框架,識(shí)別不同觀點(diǎn)及其支撐證據(jù),為科學(xué)和政治爭(zhēng)議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國(guó)際關(guān)系領(lǐng)域驗(yàn)證有效性。
清華大學(xué)研究團(tuán)隊(duì)首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類一樣理解和表達(dá)情感。該系統(tǒng)通過(guò)多層次情感處理架構(gòu),在情感識(shí)別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實(shí)現(xiàn)了跨模態(tài)情感融合、動(dòng)態(tài)情感追蹤和個(gè)性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來(lái)革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊(duì)通過(guò)創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會(huì)復(fù)雜推理。研究發(fā)現(xiàn)AI通過(guò)游戲競(jìng)爭(zhēng)能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問(wèn)題等方面表現(xiàn)顯著提升。這項(xiàng)突破性成果為未來(lái)AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過(guò)模擬人類學(xué)習(xí)過(guò)程培養(yǎng)真正智能AI的新路徑。
關(guān)注科技創(chuàng)新、技術(shù)投資。
以文會(huì)友,左手硬核科技,右手浪漫主義。