NVIDIA(英偉達(dá))從8月到9月的新聞一個(gè)接一個(gè)的重磅:市值超過了Intel+AMD之和,到今天已經(jīng)超過3400億美元,另一個(gè)就是9月1日發(fā)布了基于NVIDIA Ampere架構(gòu)GPU的GeForce RTX 30系列顯卡——代表的有RTX 3080和RTX 3070以及怪獸級的RTX 3090。
發(fā)布會上黃教主就坦言這一代RTX 30系列顯卡得益于NVIDIA Ampere架構(gòu),性能相比上一代RTX 20系列顯卡有了巨大的飛躍。其中RTX 3080作為新一代旗艦顯卡,性能可以達(dá)到RTX 2080的兩倍,就連面向主流市場的RTX 3070也超過了之前售價(jià)過萬的RTX 2080Ti旗艦顯卡。至于RTX 3090,其定位已經(jīng)是之前的TITAN RTX系列,性能是后者的1.5倍。
▲ 圖:好東西看起來就是高端(貴)
那么新一代旗艦顯卡RTX 3080的實(shí)際性能究竟是不是這么神呢?還記得之前的RTX 20系列開啟了光線追蹤和DLSS之后,幀率暴跌的情形么?我們將會在9月17日揭秘實(shí)測性能和數(shù)據(jù),敬請期待。
那么本篇文章,我們主要來看看是什么樣的魔法,讓NVIDIA Ampere架構(gòu)給GPU帶來了如此魔力呢?換言之,NVIDIA Ampere架構(gòu)相比上代Turing架構(gòu)究竟有哪些不同?
先來看看數(shù)據(jù)——
如上表,得益于和三星合作的8N工藝(我們猜測不是單純的8nm工藝,有特殊之處),RTX 3080的GPU擁有280億個(gè)晶體管,比上一代RTX 2080Ti多了近10億個(gè)——而體積卻從754平方毫米減小到了628平方毫米。
因此,RTX 3080雖然同樣擁有著68個(gè)SM模組,但是CUDA Core增加到了8704個(gè),是RTX Super的2.8倍,也幾乎比RTX 2080Ti翻了一番。用作神經(jīng)網(wǎng)絡(luò)計(jì)算的Tensor Core和負(fù)責(zé)光線追蹤的RT Core雖然看著數(shù)量上和RTX 2080Ti差不多,甚至還有縮減,但是其效率今非昔比——后面我們會單獨(dú)提到重新設(shè)計(jì)的RT Core和Tensor Core有多驚人。
GPU主頻和Boost頻率也得益于新制造工藝,基礎(chǔ)頻率達(dá)到了1440MHz,Boost可以到1710MHz——相信一些非公版會大大提升這一極限。顯存、帶寬和功耗有著不同程度的變化。
重新設(shè)計(jì)的著色器、Tensor Core和RT Core
NVIDIA Ampere架構(gòu)相比于之前Turing的最大變化,就是其每一個(gè)SM(流式多處理器)的分區(qū)在每個(gè)時(shí)鐘周期能夠執(zhí)行32次FP32(32位浮點(diǎn)運(yùn)算)操作,這就使得SM中的全部4個(gè)分區(qū)加在一起每個(gè)時(shí)鐘周期可以進(jìn)行128次FP32操作——吞吐量翻倍。對于圖形渲染,著色器的工作和計(jì)算都是直接受益于FP32運(yùn)算速度,而光線追蹤等最新的技術(shù)也會被FP32進(jìn)一步加持。
作為顯卡GPU的基礎(chǔ),Shader著色器是從GPU誕生之初就作為渲染圖形的一種專用可編程器件——早期的著色器還會分為頂點(diǎn)著色器和像素著色器,前者負(fù)責(zé)畫三角形(3D模型可以根據(jù)建模復(fù)雜度拆分成無數(shù)三角形),后者則負(fù)責(zé)做2D圖形的像素渲染。
從CUDA誕生以來,NVIDIA的GPU就開始走上了一條從專門為圖形渲染的可編程著色器,逐漸向通用計(jì)算發(fā)展。到如今基于NVIDIA Ampere架構(gòu)的RTX 30系列顯卡所擁有的可編程著色器,其處理能力由11 Shader-TFLOP/s LOPS提升到為30 Shader-TFLOP/s, FP32浮點(diǎn)吞吐量是上一代Turing架構(gòu)的2.7倍。
▲ 圖:新的著色器性能提升2.7倍,RT Core和Tensor Core性能也分別提升了1.7倍和2.7倍
早在Turing架構(gòu)中引入Tensor Core(張量計(jì)算核心)和RT Core(光線追蹤核心)時(shí),我們就評論過,這兩種核心必將成為未來顯卡的基石——如果將GPU自身的CUDA Core看做是通用處理器,那么對于通用計(jì)算來說,繁重的光線追蹤操作(RTX-OPS)和用于深度學(xué)習(xí)推演的張量計(jì)算(Tensor Flops)當(dāng)然需要卸載(Offload),來提升效率。
NVIDIA的雄心和魄力在整個(gè)游戲業(yè)界還只有寥寥數(shù)款游戲時(shí),就推出了超越時(shí)代的這兩種核心,一時(shí)間讓分析師和媒體不置可否的對其“信心不足”——直到越來越多的游戲開始支持光線追蹤, 而Tensor Core所支持的DLSS基于深度學(xué)習(xí)技術(shù)的超采樣,也終于能在更多實(shí)際游戲中發(fā)揮作用。但是還是有很多玩家詬病,真想要全開DLSS,必須上旗艦的RTX 2080Ti。
如今呢?新一代RTX 3080的根基,是NVIDIA Ampere架構(gòu)——這是在今年GTC美國發(fā)布的最重要的GPU核心架構(gòu),其中最重要的就是第三代Tensor Core(張量計(jì)算核心),如下表所示:
NVIDIA A100 Tensor Core GPU性能數(shù)據(jù)
▲ 圖:數(shù)據(jù)來自A100白皮書
這是NVIDIA用在數(shù)據(jù)中心深度學(xué)習(xí)的A100 GPU的數(shù)據(jù),但是其第三代Tensor Core的威力幾乎是原來V100的兩倍——同樣是NVIDIA Ampere架構(gòu)的RTX 3080里,僅僅272個(gè)Tensor Core就可以帶來238 Tensor-TFLOPS的計(jì)算力,而原來在RTX 2080Ti里,這個(gè)計(jì)算力僅為89 Tensor-TFLOPS——性能提升了近3倍。
▲ 圖:新一代DLSS 2.0是在超級計(jì)算機(jī)加持下用4K圖像做深度學(xué)習(xí)訓(xùn)練產(chǎn)生的模型(按訓(xùn)練的順序陸續(xù)支持各個(gè)游戲)
我們可以期待,在最新DLSS 2.0的加持下,即使同樣是4K分辨率,Tensor Core的強(qiáng)大推演能力,也可以讓畫面達(dá)到前所未有的銳度,消除鋸齒——形象的說就是超級計(jì)算機(jī)幫你腦補(bǔ)了細(xì)節(jié)。
另一邊,第二代RT Core與之前相比也有了近2倍的性能提升,并且支持并發(fā)式的光線追蹤處理和著色。從數(shù)據(jù)上來說,RTX 2080Ti的光線追蹤性能是34 RT-TFLOPS,而到了RTX 3080中,雖然RT Core的數(shù)量和之前一樣,但是性能提升到了58 RT-FLOPS,這就使得同一時(shí)間內(nèi)可以計(jì)算更多的光線和路徑。
▲ 圖:第二代RT Core擁有1.5倍以上的性能提升
光線追蹤的最終目的,就是讓計(jì)算機(jī)影像盡可能的接近真實(shí)的物理效果——在傳統(tǒng)的光影環(huán)境中,GPU用光柵去處理光影關(guān)系,也就是將3D的圖形映射投影到一個(gè)2D的平面上,然后去處理每一個(gè)點(diǎn)應(yīng)該什么亮度,什么顏色等等。這樣在最后合成起來,就得到了一個(gè)3D的圖像——這非常類似MRI(核磁共振)的切片式成像原理。但是問題也很大——因?yàn)橛?jì)算力的限制,也因?yàn)榫幊痰膹?fù)雜度,程序員只能簡化光影邏輯,使得物體往往只有一兩個(gè)光源——越多的光源對于場景的設(shè)計(jì)和計(jì)算復(fù)雜度要求越高。
而光線追蹤則是我們平時(shí)在現(xiàn)實(shí)生活中看到東西的樣子——光線從光源發(fā)出,可能是燈,可能是太陽,射到物體上再反射到我們的眼睛里,于是我們看到了亮部,暗部,顏色等。光線追蹤就是要模擬這樣的過程,只去定義光源和材質(zhì)的物理性質(zhì)(反光程度、漫反射程度等)。這樣做的好處是簡化了程序設(shè)計(jì)的難度,最大限度的還原真實(shí)——如果能無限跟蹤所有光線,就可以還原整個(gè)世界的光影——這是理想中的設(shè)計(jì)。不可能實(shí)現(xiàn)的原因就是會帶來海量的計(jì)算——近乎無窮無盡。
RT Core的出現(xiàn),就是在GPU里分出一部分專門為這種最終而生的核心,來盡可能大的提升性能,并且在處理光影時(shí),能夠“專項(xiàng)治理”。
▲ 圖:如果不告訴你這是光線追蹤的虛擬世界,你會信以為真么
從2018年末微軟正式在自己的DirectX里添加Raytracing(DXR)光線追蹤技術(shù)以來,越來越多的游戲開始使用這項(xiàng)技術(shù)來讓自己的世界構(gòu)建的足夠真實(shí)——而NVIDIA也實(shí)實(shí)在在的推動了時(shí)代的進(jìn)步,并且又一次通過RTX 3080將光線追蹤的水平提升到了新的高度。
三個(gè)容易被忽略的技術(shù)亮點(diǎn)
如果說RTX 3080性能的大幅度攀升得益于制程工藝帶來的28億晶體管和全新NVIDIA Ampere架構(gòu)帶來的提升,那么有三個(gè)細(xì)節(jié)是顯卡與計(jì)算GPU最不同的地方——
1. GDDR6X顯存的強(qiáng)大
NVIDIA為這一代RTX 3080旗艦顯卡裝備了世界上最快的顯存——GDDR6X顯存,相比RTX 2080Ti使用的GDDR6顯存,顯存位寬從352-bit變成了320-bit,看起來降低了?其實(shí)是因?yàn)轱@存的消息傳輸率從14Gbps提升到了19Gbps,因此帶寬從GDDR6的616GB/秒,提升到了GDDR6X的760GB/秒。
▲ 圖:發(fā)布會上的“眼圖”——學(xué)過通信的朋友看著會很親切
“眼圖”可以清晰的看出來GDDR6X在同一時(shí)間周期內(nèi)(380皮秒,1皮秒等于一萬億分之一(即10的負(fù)12次方)秒)以250mv步長發(fā)送4個(gè)不同的電平(形成了3行4個(gè)大眼睛)——發(fā)出的信號是4*4=16個(gè)。而上圖左邊是上一代GDDR6在500皮秒時(shí)間內(nèi)發(fā)射2個(gè)電平——發(fā)出的信號是2*8=16個(gè)。
不難看出,左右兩側(cè)發(fā)射同樣數(shù)量消息的情況下,右側(cè)耗時(shí)是左側(cè)的70%樣子。換句話說,就是GDDR6X比GDDR6快了30%樣子。這也與鎂光官網(wǎng)所宣傳的系統(tǒng)帶寬提升一致。
NVIDIA表示這得益于和鎂光合作設(shè)計(jì)的GDDR6X顯存所采用的PAM4多級信令技術(shù)——其實(shí)這個(gè)牽扯到了通信里面非常時(shí)髦的脈沖振幅調(diào)制,尤其是在光通信領(lǐng)域——200G/s以上的光通信普遍采用QSFP64模塊,而內(nèi)部的信號調(diào)制就是PAM4為主。聰明的小伙伴開始聯(lián)想GPU在NVIDIA游戲云(GeForce Now)里是如何通過Mellanox的高速網(wǎng)絡(luò)直接用著一模一樣的調(diào)制信號,繞過CPU實(shí)現(xiàn)GPUDirect(請自行發(fā)掘這個(gè)秘籍)的。
2. RTX I/O技術(shù)
NVIDIA RTX I/O技術(shù)是什么?簡而言之就是GPU可以繞過CPU而直接訪問高速存儲。
在HDD時(shí)代,打開游戲的過程就是從硬盤里通過南橋的控制芯片加載數(shù)據(jù)到內(nèi)存里,這一切都是通過CPU控制的,然后GPU再通過CPU去內(nèi)存里讀取數(shù)據(jù)放到自己的顯存里做計(jì)算。效率雖然低下,但是瓶頸主要是HDD機(jī)械硬盤的延遲和速度。
但是到了如今,PCI-E 已經(jīng)從3.0發(fā)展到了4.0時(shí)代,NVMe SSD的速度也極大的提升。那么之前這一數(shù)據(jù)存取過程就顯得非常的拖沓——為什么不直接把數(shù)據(jù)從SSD里讀取到顯存里呢?
從上圖可以看出,從PCI-E Gen4 NVMe的SSD里讀取的數(shù)據(jù),通過磁盤控制器直接通過PCI-E總線放到顯卡的西安村里,這就是NVIDIA的RTX I/O技術(shù),它可以讓這一存取數(shù)據(jù)的操作繞過CPU和本地內(nèi)存,完成數(shù)據(jù)鏈路從存儲到顯存的直接調(diào)度。
這一應(yīng)用場景除了可以充分利用PCI-E 4.0的高速帶寬來釋放NVMe SSD的速度外,還能夠極大的降低系統(tǒng)時(shí)延,玩家打開游戲不用再等那么久,幾乎感受不到游戲的加載用時(shí)。
3. REFLEX低延遲技術(shù)
黃教主在開頭就提及了NVIDIA REFLEX低延遲技術(shù),這實(shí)際上可以理解為GeForce RTX顯卡和G-Sync新技術(shù)通過優(yōu)化來降低系統(tǒng)和游戲中的延遲——而最高360Hz刷新率的支持,也讓競技類游戲的對抗度提升了一大截。
吃雞游戲剛火起來的時(shí)候,很多玩家深有體會的就是60Hz刷新率下玩游戲是一個(gè)體驗(yàn),而歡樂144Hz支持G-Sync的顯示器,加上一塊好顯卡,那么吃雞游戲就變成了另一種體驗(yàn),仿佛自己技術(shù)提升了一大截——實(shí)際上是你的眼睛看到的內(nèi)容比別人多,比別人早了幾毫秒,就這幾毫秒就是瞄準(zhǔn)的關(guān)鍵時(shí)間點(diǎn)。
關(guān)于RTX 30系列顯卡其實(shí)還有不少新設(shè)計(jì),例如雙軸流散熱設(shè)計(jì),比上一代散熱器的效率提升了2倍,而8K HDR的視頻錄制和編輯,AV1的解碼加速都能在不同層面提升玩家的體驗(yàn)。各位敬請期待我們明天發(fā)布的具體評測——
RTX 3080顯卡的標(biāo)準(zhǔn)跑分:
3DMark Fire Strike ——詮釋DirectX 11對照上代卡的提升
3DMark Time Spy ——DirectX 12 基準(zhǔn)測試
3DMark Port Royal —— 顯卡的光線追蹤基準(zhǔn)測試
3DMark DLSS ——深度學(xué)習(xí)超采樣測試
游戲測試:
奇點(diǎn)灰燼:擴(kuò)展版(Ashes of the Singularity: Escalation)——沒有人真正玩過這個(gè)游戲,都是用它來做DX12跑分Benchmark
刺客信條:奧德賽(Assassin's Creed Odyssey)——眾生平等的基準(zhǔn)測試
堡壘之夜(Fronite)——支持光線追蹤的網(wǎng)游
控制(Control)——支持DLSS 2.0的游戲
德軍總部:新血脈(Wolfenstein: Youngblood)——光線追蹤和DLSS測試
邊境(跑分測試)(Boundary Benchmark)——國產(chǎn)游戲大作,支持光線追蹤
光明記憶:無限(Bright Memory: Infinity)——國內(nèi)知名大作,虛幻4.9引擎打造,光線追蹤+DLSS測試
地鐵:離去(Metro Exodus)——早期支持光線追蹤和DLSS的游戲,標(biāo)桿
我的世界(光追版)(MineCraft(RT))——不用多說了吧
古墓麗影:暗影(Shadow of the Tomb Raider)——光線追蹤和DLSS測試
古墓麗影:崛起(Rise of the Tomb Raider)——DirectX 12早期標(biāo)桿,游戲也支持DirectX 11
其他測試:有小驚喜測試送給專業(yè)玩家,敬請期待。
好文章,需要你的鼓勵
浙江大學(xué)團(tuán)隊(duì)提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價(jià)值。