近期,AMD在紐約舉辦的分析師大會(Financial Analyst Day)上展示了很多新產(chǎn)品與新技術(shù),其中,HBM晶片堆棧式高帶寬內(nèi)存吸引了很多人的目光,AMD總裁兼首席執(zhí)行官蘇姿豐博士表示,HBM是真正能夠以更高的帶寬、更低的功耗來提供很好的效能。
HBM有何優(yōu)勢?它會何時(shí)推出呢?帶著這些問題,我們采訪了AMD事業(yè)群首席技術(shù)官(Business Unit CTO) Joe Macri,他表示,HBM在整個(gè)功耗降低方面做的非常好,它把所有節(jié)省的功耗用于補(bǔ)償GPU核心的功耗;另外,數(shù)據(jù)傳輸?shù)膸挻蠹s是每秒100GB。
圖為AMD事業(yè)群首席技術(shù)官(Business Unit CTO) Joe Macri
AMD開發(fā)HBM已經(jīng)有7年的歷史了,是什么原因使得AMD對HBM產(chǎn)生了這么大的興趣?Joe Macri表示,如今很多系統(tǒng)的問題是功耗較大,很多高端顯卡的功耗在250w-300w之間。有時(shí)會碰到一種極限,當(dāng)GPU性能已經(jīng)很高時(shí),功耗也非常高,內(nèi)存的功耗也變得非常高,那是一個(gè)非??膳碌氖虑?,會造成整個(gè)系統(tǒng)熱量非常大,功耗很高,但是性能提升卻有限。很多時(shí)候?yàn)榱吮3窒到y(tǒng)功耗的平衡,內(nèi)存功耗很高的話,GPU的功耗就不可以很高,這樣會直接影響到GPU的性能。而AMD就想要生產(chǎn)出高帶寬、低功耗的內(nèi)存,這樣就可以平衡整個(gè)系統(tǒng)的性能和功耗。
如上圖所示,垂直的“四條線”是比較有功能性的DRAM的堆棧,這也是HBM整個(gè)內(nèi)存的晶片構(gòu)造,出自SK Hynix。左邊藍(lán)色的是整套SK Hynix內(nèi)存的HBM晶片,右邊是AMD GPU的晶片。Joe Macri表示,通過1024位連線進(jìn)行聯(lián)系,有非常高速的硅晶片的銅聯(lián)線來進(jìn)行數(shù)據(jù)交互,數(shù)據(jù)非常大且速度非???,這是不能通過主板來解決的,必須通過這種聯(lián)線來做到,另外,HBM能夠與CPU/GPU封裝在一起。
HBM真正實(shí)現(xiàn)了低功耗和高帶寬,它的外形很小,并且可以把更多的功耗轉(zhuǎn)移到GPU,而且很多用途可以并到HBM,除了獨(dú)立顯卡和游戲以外,像HPC超級計(jì)算機(jī)、高性能計(jì)算、電信、服務(wù)器、還有所有類型的PC都會從中受益。
我們所熟悉的DDR5與HBM相比有很大的區(qū)別,就是帶寬上很不一樣,DDR5是32位,HBM則是1024位。Joe Macri解釋道,最重要的是它的時(shí)鐘頻率,DDR5是1750兆赫茲,每秒7GB的數(shù)據(jù)傳輸量;HBM的整個(gè)速度降低得非???,最高才到500兆赫茲,1GB數(shù)據(jù)傳輸量,速率的降低大量地節(jié)省了功耗,這是最重要的一點(diǎn)。而整個(gè)數(shù)據(jù)傳輸?shù)膸?,DDR5是28GB每秒每個(gè)芯片,HBM大約是每秒100GB,它的功耗也大大降低了,但是由于整個(gè)位寬比較高,所以整個(gè)數(shù)據(jù)傳輸?shù)膸捠欠浅8叩?,大概是過去的5倍。
Joe Macri表示,AMD在建立一個(gè)HBM的完整的生態(tài)系統(tǒng),主要包括DRAM、組裝和封裝、芯片測試。AMD是第一家開始做HBM的公司,不過隨后一定也會有其他公司陸續(xù)加入。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價(jià)值。