微信掃一掃，關(guān)注公眾號

科技行者
算力行者

見證連接與計(jì)算的「力量」

首頁

安培的力量——深入解析NVIDIA GeForce RTX3000系列顯卡

英偉達(dá)顯卡軟件

安培的力量——深入解析NVIDIA GeForce RTX3000系列顯卡

作者：風(fēng)望月

2020-09-16 17:48

分享至：

NVIDIA Ampere架構(gòu)給GPU帶來了什么魔力？

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2020-09-16 17:48 ? 風(fēng)望月

NVIDIA（英偉達(dá)）從8月到9月的新聞一個(gè)接一個(gè)的重磅：市值超過了Intel+AMD之和，到今天已經(jīng)超過3400億美元，另一個(gè)就是9月1日發(fā)布了基于NVIDIA Ampere架構(gòu)GPU的GeForce RTX 30系列顯卡——代表的有RTX 3080和RTX 3070以及怪獸級的RTX 3090。

發(fā)布會上黃教主就坦言這一代RTX 30系列顯卡得益于NVIDIA Ampere架構(gòu)，性能相比上一代RTX 20系列顯卡有了巨大的飛躍。其中RTX 3080作為新一代旗艦顯卡，性能可以達(dá)到RTX 2080的兩倍，就連面向主流市場的RTX 3070也超過了之前售價(jià)過萬的RTX 2080Ti旗艦顯卡。至于RTX 3090，其定位已經(jīng)是之前的TITAN RTX系列，性能是后者的1.5倍。

▲ 圖：好東西看起來就是高端（貴）

那么新一代旗艦顯卡RTX 3080的實(shí)際性能究竟是不是這么神呢？還記得之前的RTX 20系列開啟了光線追蹤和DLSS之后，幀率暴跌的情形么？我們將會在9月17日揭秘實(shí)測性能和數(shù)據(jù)，敬請期待。

那么本篇文章，我們主要來看看是什么樣的魔法，讓NVIDIA Ampere架構(gòu)給GPU帶來了如此魔力呢？換言之，NVIDIA Ampere架構(gòu)相比上代Turing架構(gòu)究竟有哪些不同？

先來看看數(shù)據(jù)——

如上表，得益于和三星合作的8N工藝（我們猜測不是單純的8nm工藝，有特殊之處），RTX 3080的GPU擁有280億個(gè)晶體管，比上一代RTX 2080Ti多了近10億個(gè)——而體積卻從754平方毫米減小到了628平方毫米。

因此，RTX 3080雖然同樣擁有著68個(gè)SM模組，但是CUDA Core增加到了8704個(gè)，是RTX Super的2.8倍，也幾乎比RTX 2080Ti翻了一番。用作神經(jīng)網(wǎng)絡(luò)計(jì)算的Tensor Core和負(fù)責(zé)光線追蹤的RT Core雖然看著數(shù)量上和RTX 2080Ti差不多，甚至還有縮減，但是其效率今非昔比——后面我們會單獨(dú)提到重新設(shè)計(jì)的RT Core和Tensor Core有多驚人。

GPU主頻和Boost頻率也得益于新制造工藝，基礎(chǔ)頻率達(dá)到了1440MHz，Boost可以到1710MHz——相信一些非公版會大大提升這一極限。顯存、帶寬和功耗有著不同程度的變化。

重新設(shè)計(jì)的著色器、Tensor Core和RT Core

NVIDIA Ampere架構(gòu)相比于之前Turing的最大變化，就是其每一個(gè)SM（流式多處理器）的分區(qū)在每個(gè)時(shí)鐘周期能夠執(zhí)行32次FP32（32位浮點(diǎn)運(yùn)算）操作，這就使得SM中的全部4個(gè)分區(qū)加在一起每個(gè)時(shí)鐘周期可以進(jìn)行128次FP32操作——吞吐量翻倍。對于圖形渲染，著色器的工作和計(jì)算都是直接受益于FP32運(yùn)算速度，而光線追蹤等最新的技術(shù)也會被FP32進(jìn)一步加持。

作為顯卡GPU的基礎(chǔ)，Shader著色器是從GPU誕生之初就作為渲染圖形的一種專用可編程器件——早期的著色器還會分為頂點(diǎn)著色器和像素著色器，前者負(fù)責(zé)畫三角形（3D模型可以根據(jù)建模復(fù)雜度拆分成無數(shù)三角形），后者則負(fù)責(zé)做2D圖形的像素渲染。

從CUDA誕生以來，NVIDIA的GPU就開始走上了一條從專門為圖形渲染的可編程著色器，逐漸向通用計(jì)算發(fā)展。到如今基于NVIDIA Ampere架構(gòu)的RTX 30系列顯卡所擁有的可編程著色器，其處理能力由11 Shader-TFLOP/s LOPS提升到為30 Shader-TFLOP/s, FP32浮點(diǎn)吞吐量是上一代Turing架構(gòu)的2.7倍。

▲ 圖：新的著色器性能提升2.7倍，RT Core和Tensor Core性能也分別提升了1.7倍和2.7倍

早在Turing架構(gòu)中引入Tensor Core（張量計(jì)算核心）和RT Core（光線追蹤核心）時(shí)，我們就評論過，這兩種核心必將成為未來顯卡的基石——如果將GPU自身的CUDA Core看做是通用處理器，那么對于通用計(jì)算來說，繁重的光線追蹤操作（RTX-OPS）和用于深度學(xué)習(xí)推演的張量計(jì)算（Tensor Flops）當(dāng)然需要卸載（Offload），來提升效率。

NVIDIA的雄心和魄力在整個(gè)游戲業(yè)界還只有寥寥數(shù)款游戲時(shí)，就推出了超越時(shí)代的這兩種核心，一時(shí)間讓分析師和媒體不置可否的對其“信心不足”——直到越來越多的游戲開始支持光線追蹤，而Tensor Core所支持的DLSS基于深度學(xué)習(xí)技術(shù)的超采樣，也終于能在更多實(shí)際游戲中發(fā)揮作用。但是還是有很多玩家詬病，真想要全開DLSS，必須上旗艦的RTX 2080Ti。

如今呢？新一代RTX 3080的根基，是NVIDIA Ampere架構(gòu)——這是在今年GTC美國發(fā)布的最重要的GPU核心架構(gòu)，其中最重要的就是第三代Tensor Core（張量計(jì)算核心），如下表所示：

NVIDIA A100 Tensor Core GPU性能數(shù)據(jù)

▲ 圖：數(shù)據(jù)來自A100白皮書

這是NVIDIA用在數(shù)據(jù)中心深度學(xué)習(xí)的A100 GPU的數(shù)據(jù)，但是其第三代Tensor Core的威力幾乎是原來V100的兩倍——同樣是NVIDIA Ampere架構(gòu)的RTX 3080里，僅僅272個(gè)Tensor Core就可以帶來238 Tensor-TFLOPS的計(jì)算力，而原來在RTX 2080Ti里，這個(gè)計(jì)算力僅為89 Tensor-TFLOPS——性能提升了近3倍。

▲ 圖：新一代DLSS 2.0是在超級計(jì)算機(jī)加持下用4K圖像做深度學(xué)習(xí)訓(xùn)練產(chǎn)生的模型（按訓(xùn)練的順序陸續(xù)支持各個(gè)游戲）

我們可以期待，在最新DLSS 2.0的加持下，即使同樣是4K分辨率，Tensor Core的強(qiáng)大推演能力，也可以讓畫面達(dá)到前所未有的銳度，消除鋸齒——形象的說就是超級計(jì)算機(jī)幫你腦補(bǔ)了細(xì)節(jié)。

另一邊，第二代RT Core與之前相比也有了近2倍的性能提升，并且支持并發(fā)式的光線追蹤處理和著色。從數(shù)據(jù)上來說，RTX 2080Ti的光線追蹤性能是34 RT-TFLOPS，而到了RTX 3080中，雖然RT Core的數(shù)量和之前一樣，但是性能提升到了58 RT-FLOPS，這就使得同一時(shí)間內(nèi)可以計(jì)算更多的光線和路徑。

▲ 圖：第二代RT Core擁有1.5倍以上的性能提升

光線追蹤的最終目的，就是讓計(jì)算機(jī)影像盡可能的接近真實(shí)的物理效果——在傳統(tǒng)的光影環(huán)境中，GPU用光柵去處理光影關(guān)系，也就是將3D的圖形映射投影到一個(gè)2D的平面上，然后去處理每一個(gè)點(diǎn)應(yīng)該什么亮度，什么顏色等等。這樣在最后合成起來，就得到了一個(gè)3D的圖像——這非常類似MRI（核磁共振）的切片式成像原理。但是問題也很大——因?yàn)橛?jì)算力的限制，也因?yàn)榫幊痰膹?fù)雜度，程序員只能簡化光影邏輯，使得物體往往只有一兩個(gè)光源——越多的光源對于場景的設(shè)計(jì)和計(jì)算復(fù)雜度要求越高。

而光線追蹤則是我們平時(shí)在現(xiàn)實(shí)生活中看到東西的樣子——光線從光源發(fā)出，可能是燈，可能是太陽，射到物體上再反射到我們的眼睛里，于是我們看到了亮部，暗部，顏色等。光線追蹤就是要模擬這樣的過程，只去定義光源和材質(zhì)的物理性質(zhì)（反光程度、漫反射程度等）。這樣做的好處是簡化了程序設(shè)計(jì)的難度，最大限度的還原真實(shí)——如果能無限跟蹤所有光線，就可以還原整個(gè)世界的光影——這是理想中的設(shè)計(jì)。不可能實(shí)現(xiàn)的原因就是會帶來海量的計(jì)算——近乎無窮無盡。

RT Core的出現(xiàn)，就是在GPU里分出一部分專門為這種最終而生的核心，來盡可能大的提升性能，并且在處理光影時(shí)，能夠“專項(xiàng)治理”。

▲ 圖：如果不告訴你這是光線追蹤的虛擬世界，你會信以為真么

從2018年末微軟正式在自己的DirectX里添加Raytracing（DXR）光線追蹤技術(shù)以來，越來越多的游戲開始使用這項(xiàng)技術(shù)來讓自己的世界構(gòu)建的足夠真實(shí)——而NVIDIA也實(shí)實(shí)在在的推動了時(shí)代的進(jìn)步，并且又一次通過RTX 3080將光線追蹤的水平提升到了新的高度。

三個(gè)容易被忽略的技術(shù)亮點(diǎn)

如果說RTX 3080性能的大幅度攀升得益于制程工藝帶來的28億晶體管和全新NVIDIA Ampere架構(gòu)帶來的提升，那么有三個(gè)細(xì)節(jié)是顯卡與計(jì)算GPU最不同的地方——

1. GDDR6X顯存的強(qiáng)大

NVIDIA為這一代RTX 3080旗艦顯卡裝備了世界上最快的顯存——GDDR6X顯存，相比RTX 2080Ti使用的GDDR6顯存，顯存位寬從352-bit變成了320-bit，看起來降低了？其實(shí)是因?yàn)轱@存的消息傳輸率從14Gbps提升到了19Gbps，因此帶寬從GDDR6的616GB/秒，提升到了GDDR6X的760GB/秒。

▲ 圖：發(fā)布會上的“眼圖”——學(xué)過通信的朋友看著會很親切

“眼圖”可以清晰的看出來GDDR6X在同一時(shí)間周期內(nèi)（380皮秒，1皮秒等于一萬億分之一（即10的負(fù)12次方）秒）以250mv步長發(fā)送4個(gè)不同的電平（形成了3行4個(gè)大眼睛）——發(fā)出的信號是4*4=16個(gè)。而上圖左邊是上一代GDDR6在500皮秒時(shí)間內(nèi)發(fā)射2個(gè)電平——發(fā)出的信號是2*8=16個(gè)。

不難看出，左右兩側(cè)發(fā)射同樣數(shù)量消息的情況下，右側(cè)耗時(shí)是左側(cè)的70%樣子。換句話說，就是GDDR6X比GDDR6快了30%樣子。這也與鎂光官網(wǎng)所宣傳的系統(tǒng)帶寬提升一致。

NVIDIA表示這得益于和鎂光合作設(shè)計(jì)的GDDR6X顯存所采用的PAM4多級信令技術(shù)——其實(shí)這個(gè)牽扯到了通信里面非常時(shí)髦的脈沖振幅調(diào)制，尤其是在光通信領(lǐng)域——200G/s以上的光通信普遍采用QSFP64模塊，而內(nèi)部的信號調(diào)制就是PAM4為主。聰明的小伙伴開始聯(lián)想GPU在NVIDIA游戲云（GeForce Now）里是如何通過Mellanox的高速網(wǎng)絡(luò)直接用著一模一樣的調(diào)制信號，繞過CPU實(shí)現(xiàn)GPUDirect（請自行發(fā)掘這個(gè)秘籍）的。

2. RTX I/O技術(shù)

NVIDIA RTX I/O技術(shù)是什么？簡而言之就是GPU可以繞過CPU而直接訪問高速存儲。

在HDD時(shí)代，打開游戲的過程就是從硬盤里通過南橋的控制芯片加載數(shù)據(jù)到內(nèi)存里，這一切都是通過CPU控制的，然后GPU再通過CPU去內(nèi)存里讀取數(shù)據(jù)放到自己的顯存里做計(jì)算。效率雖然低下，但是瓶頸主要是HDD機(jī)械硬盤的延遲和速度。

但是到了如今，PCI-E 已經(jīng)從3.0發(fā)展到了4.0時(shí)代，NVMe SSD的速度也極大的提升。那么之前這一數(shù)據(jù)存取過程就顯得非常的拖沓——為什么不直接把數(shù)據(jù)從SSD里讀取到顯存里呢？

從上圖可以看出，從PCI-E Gen4 NVMe的SSD里讀取的數(shù)據(jù)，通過磁盤控制器直接通過PCI-E總線放到顯卡的西安村里，這就是NVIDIA的RTX I/O技術(shù)，它可以讓這一存取數(shù)據(jù)的操作繞過CPU和本地內(nèi)存，完成數(shù)據(jù)鏈路從存儲到顯存的直接調(diào)度。

這一應(yīng)用場景除了可以充分利用PCI-E 4.0的高速帶寬來釋放NVMe SSD的速度外，還能夠極大的降低系統(tǒng)時(shí)延，玩家打開游戲不用再等那么久，幾乎感受不到游戲的加載用時(shí)。

3. REFLEX低延遲技術(shù)

黃教主在開頭就提及了NVIDIA REFLEX低延遲技術(shù)，這實(shí)際上可以理解為GeForce RTX顯卡和G-Sync新技術(shù)通過優(yōu)化來降低系統(tǒng)和游戲中的延遲——而最高360Hz刷新率的支持，也讓競技類游戲的對抗度提升了一大截。

吃雞游戲剛火起來的時(shí)候，很多玩家深有體會的就是60Hz刷新率下玩游戲是一個(gè)體驗(yàn)，而歡樂144Hz支持G-Sync的顯示器，加上一塊好顯卡，那么吃雞游戲就變成了另一種體驗(yàn)，仿佛自己技術(shù)提升了一大截——實(shí)際上是你的眼睛看到的內(nèi)容比別人多，比別人早了幾毫秒，就這幾毫秒就是瞄準(zhǔn)的關(guān)鍵時(shí)間點(diǎn)。

關(guān)于RTX 30系列顯卡其實(shí)還有不少新設(shè)計(jì)，例如雙軸流散熱設(shè)計(jì)，比上一代散熱器的效率提升了2倍，而8K HDR的視頻錄制和編輯，AV1的解碼加速都能在不同層面提升玩家的體驗(yàn)。各位敬請期待我們明天發(fā)布的具體評測——

RTX 3080顯卡的標(biāo)準(zhǔn)跑分：

3DMark Fire Strike ——詮釋DirectX 11對照上代卡的提升
3DMark Time Spy ——DirectX 12 基準(zhǔn)測試
3DMark Port Royal —— 顯卡的光線追蹤基準(zhǔn)測試
3DMark DLSS ——深度學(xué)習(xí)超采樣測試

游戲測試：

奇點(diǎn)灰燼：擴(kuò)展版（Ashes of the Singularity: Escalation）——沒有人真正玩過這個(gè)游戲，都是用它來做DX12跑分Benchmark
刺客信條：奧德賽（Assassin's Creed Odyssey）——眾生平等的基準(zhǔn)測試
堡壘之夜（Fronite）——支持光線追蹤的網(wǎng)游
控制（Control）——支持DLSS 2.0的游戲
德軍總部：新血脈（Wolfenstein: Youngblood）——光線追蹤和DLSS測試
邊境（跑分測試）（Boundary Benchmark）——國產(chǎn)游戲大作，支持光線追蹤
光明記憶：無限（Bright Memory: Infinity）——國內(nèi)知名大作，虛幻4.9引擎打造，光線追蹤+DLSS測試
地鐵：離去（Metro Exodus）——早期支持光線追蹤和DLSS的游戲，標(biāo)桿
我的世界（光追版）（MineCraft（RT））——不用多說了吧
古墓麗影：暗影（Shadow of the Tomb Raider）——光線追蹤和DLSS測試
古墓麗影：崛起（Rise of the Tomb Raider）——DirectX 12早期標(biāo)桿，游戲也支持DirectX 11