av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) 安培的力量——深入解析NVIDIA GeForce RTX3000系列顯卡

安培的力量——深入解析NVIDIA GeForce RTX3000系列顯卡

2020-09-16 17:48
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2020-09-16 17:48 ? 風(fēng)望月

NVIDIA(英偉達(dá))從8月到9月的新聞一個(gè)接一個(gè)的重磅:市值超過(guò)了Intel+AMD之和,到今天已經(jīng)超過(guò)3400億美元,另一個(gè)就是9月1日發(fā)布了基于NVIDIA Ampere架構(gòu)GPU的GeForce RTX 30系列顯卡——代表的有RTX 3080和RTX 3070以及怪獸級(jí)的RTX 3090。

發(fā)布會(huì)上黃教主就坦言這一代RTX 30系列顯卡得益于NVIDIA Ampere架構(gòu),性能相比上一代RTX 20系列顯卡有了巨大的飛躍。其中RTX 3080作為新一代旗艦顯卡,性能可以達(dá)到RTX 2080的兩倍,就連面向主流市場(chǎng)的RTX 3070也超過(guò)了之前售價(jià)過(guò)萬(wàn)的RTX 2080Ti旗艦顯卡。至于RTX 3090,其定位已經(jīng)是之前的TITAN RTX系列,性能是后者的1.5倍。

▲ 圖:好東西看起來(lái)就是高端(貴)

那么新一代旗艦顯卡RTX 3080的實(shí)際性能究竟是不是這么神呢?還記得之前的RTX 20系列開(kāi)啟了光線追蹤和DLSS之后,幀率暴跌的情形么?我們將會(huì)在9月17日揭秘實(shí)測(cè)性能和數(shù)據(jù),敬請(qǐng)期待。

那么本篇文章,我們主要來(lái)看看是什么樣的魔法,讓NVIDIA Ampere架構(gòu)給GPU帶來(lái)了如此魔力呢?換言之,NVIDIA Ampere架構(gòu)相比上代Turing架構(gòu)究竟有哪些不同?

先來(lái)看看數(shù)據(jù)——

如上表,得益于和三星合作的8N工藝(我們猜測(cè)不是單純的8nm工藝,有特殊之處),RTX 3080的GPU擁有280億個(gè)晶體管,比上一代RTX 2080Ti多了近10億個(gè)——而體積卻從754平方毫米減小到了628平方毫米。

因此,RTX 3080雖然同樣擁有著68個(gè)SM模組,但是CUDA Core增加到了8704個(gè),是RTX Super的2.8倍,也幾乎比RTX 2080Ti翻了一番。用作神經(jīng)網(wǎng)絡(luò)計(jì)算的Tensor Core和負(fù)責(zé)光線追蹤的RT Core雖然看著數(shù)量上和RTX 2080Ti差不多,甚至還有縮減,但是其效率今非昔比——后面我們會(huì)單獨(dú)提到重新設(shè)計(jì)的RT Core和Tensor Core有多驚人。

GPU主頻和Boost頻率也得益于新制造工藝,基礎(chǔ)頻率達(dá)到了1440MHz,Boost可以到1710MHz——相信一些非公版會(huì)大大提升這一極限。顯存、帶寬和功耗有著不同程度的變化。

重新設(shè)計(jì)的著色器、Tensor Core和RT Core

NVIDIA Ampere架構(gòu)相比于之前Turing的最大變化,就是其每一個(gè)SM(流式多處理器)的分區(qū)在每個(gè)時(shí)鐘周期能夠執(zhí)行32次FP32(32位浮點(diǎn)運(yùn)算)操作,這就使得SM中的全部4個(gè)分區(qū)加在一起每個(gè)時(shí)鐘周期可以進(jìn)行128次FP32操作——吞吐量翻倍。對(duì)于圖形渲染,著色器的工作和計(jì)算都是直接受益于FP32運(yùn)算速度,而光線追蹤等最新的技術(shù)也會(huì)被FP32進(jìn)一步加持。

作為顯卡GPU的基礎(chǔ),Shader著色器是從GPU誕生之初就作為渲染圖形的一種專用可編程器件——早期的著色器還會(huì)分為頂點(diǎn)著色器和像素著色器,前者負(fù)責(zé)畫(huà)三角形(3D模型可以根據(jù)建模復(fù)雜度拆分成無(wú)數(shù)三角形),后者則負(fù)責(zé)做2D圖形的像素渲染。

從CUDA誕生以來(lái),NVIDIA的GPU就開(kāi)始走上了一條從專門(mén)為圖形渲染的可編程著色器,逐漸向通用計(jì)算發(fā)展。到如今基于NVIDIA Ampere架構(gòu)的RTX 30系列顯卡所擁有的可編程著色器,其處理能力由11 Shader-TFLOP/s LOPS提升到為30 Shader-TFLOP/s, FP32浮點(diǎn)吞吐量是上一代Turing架構(gòu)的2.7倍。

▲ 圖:新的著色器性能提升2.7倍,RT Core和Tensor Core性能也分別提升了1.7倍和2.7倍

早在Turing架構(gòu)中引入Tensor Core(張量計(jì)算核心)和RT Core(光線追蹤核心)時(shí),我們就評(píng)論過(guò),這兩種核心必將成為未來(lái)顯卡的基石——如果將GPU自身的CUDA Core看做是通用處理器,那么對(duì)于通用計(jì)算來(lái)說(shuō),繁重的光線追蹤操作(RTX-OPS)和用于深度學(xué)習(xí)推演的張量計(jì)算(Tensor Flops)當(dāng)然需要卸載(Offload),來(lái)提升效率。

NVIDIA的雄心和魄力在整個(gè)游戲業(yè)界還只有寥寥數(shù)款游戲時(shí),就推出了超越時(shí)代的這兩種核心,一時(shí)間讓分析師和媒體不置可否的對(duì)其“信心不足”——直到越來(lái)越多的游戲開(kāi)始支持光線追蹤, 而Tensor Core所支持的DLSS基于深度學(xué)習(xí)技術(shù)的超采樣,也終于能在更多實(shí)際游戲中發(fā)揮作用。但是還是有很多玩家詬病,真想要全開(kāi)DLSS,必須上旗艦的RTX 2080Ti。

如今呢?新一代RTX 3080的根基,是NVIDIA Ampere架構(gòu)——這是在今年GTC美國(guó)發(fā)布的最重要的GPU核心架構(gòu),其中最重要的就是第三代Tensor Core(張量計(jì)算核心),如下表所示:

NVIDIA A100 Tensor Core GPU性能數(shù)據(jù)

▲ 圖:數(shù)據(jù)來(lái)自A100白皮書(shū)

這是NVIDIA用在數(shù)據(jù)中心深度學(xué)習(xí)的A100 GPU的數(shù)據(jù),但是其第三代Tensor Core的威力幾乎是原來(lái)V100的兩倍——同樣是NVIDIA Ampere架構(gòu)的RTX 3080里,僅僅272個(gè)Tensor Core就可以帶來(lái)238 Tensor-TFLOPS的計(jì)算力,而原來(lái)在RTX 2080Ti里,這個(gè)計(jì)算力僅為89 Tensor-TFLOPS——性能提升了近3倍。

▲ 圖:新一代DLSS 2.0是在超級(jí)計(jì)算機(jī)加持下用4K圖像做深度學(xué)習(xí)訓(xùn)練產(chǎn)生的模型(按訓(xùn)練的順序陸續(xù)支持各個(gè)游戲)

我們可以期待,在最新DLSS 2.0的加持下,即使同樣是4K分辨率,Tensor Core的強(qiáng)大推演能力,也可以讓畫(huà)面達(dá)到前所未有的銳度,消除鋸齒——形象的說(shuō)就是超級(jí)計(jì)算機(jī)幫你腦補(bǔ)了細(xì)節(jié)。

另一邊,第二代RT Core與之前相比也有了近2倍的性能提升,并且支持并發(fā)式的光線追蹤處理和著色。從數(shù)據(jù)上來(lái)說(shuō),RTX 2080Ti的光線追蹤性能是34 RT-TFLOPS,而到了RTX 3080中,雖然RT Core的數(shù)量和之前一樣,但是性能提升到了58 RT-FLOPS,這就使得同一時(shí)間內(nèi)可以計(jì)算更多的光線和路徑。

▲ 圖:第二代RT Core擁有1.5倍以上的性能提升

光線追蹤的最終目的,就是讓計(jì)算機(jī)影像盡可能的接近真實(shí)的物理效果——在傳統(tǒng)的光影環(huán)境中,GPU用光柵去處理光影關(guān)系,也就是將3D的圖形映射投影到一個(gè)2D的平面上,然后去處理每一個(gè)點(diǎn)應(yīng)該什么亮度,什么顏色等等。這樣在最后合成起來(lái),就得到了一個(gè)3D的圖像——這非常類似MRI(核磁共振)的切片式成像原理。但是問(wèn)題也很大——因?yàn)橛?jì)算力的限制,也因?yàn)榫幊痰膹?fù)雜度,程序員只能簡(jiǎn)化光影邏輯,使得物體往往只有一兩個(gè)光源——越多的光源對(duì)于場(chǎng)景的設(shè)計(jì)和計(jì)算復(fù)雜度要求越高。

而光線追蹤則是我們平時(shí)在現(xiàn)實(shí)生活中看到東西的樣子——光線從光源發(fā)出,可能是燈,可能是太陽(yáng),射到物體上再反射到我們的眼睛里,于是我們看到了亮部,暗部,顏色等。光線追蹤就是要模擬這樣的過(guò)程,只去定義光源和材質(zhì)的物理性質(zhì)(反光程度、漫反射程度等)。這樣做的好處是簡(jiǎn)化了程序設(shè)計(jì)的難度,最大限度的還原真實(shí)——如果能無(wú)限跟蹤所有光線,就可以還原整個(gè)世界的光影——這是理想中的設(shè)計(jì)。不可能實(shí)現(xiàn)的原因就是會(huì)帶來(lái)海量的計(jì)算——近乎無(wú)窮無(wú)盡。

RT Core的出現(xiàn),就是在GPU里分出一部分專門(mén)為這種最終而生的核心,來(lái)盡可能大的提升性能,并且在處理光影時(shí),能夠“專項(xiàng)治理”。

▲ 圖:如果不告訴你這是光線追蹤的虛擬世界,你會(huì)信以為真么

從2018年末微軟正式在自己的DirectX里添加Raytracing(DXR)光線追蹤技術(shù)以來(lái),越來(lái)越多的游戲開(kāi)始使用這項(xiàng)技術(shù)來(lái)讓自己的世界構(gòu)建的足夠真實(shí)——而NVIDIA也實(shí)實(shí)在在的推動(dòng)了時(shí)代的進(jìn)步,并且又一次通過(guò)RTX 3080將光線追蹤的水平提升到了新的高度。

三個(gè)容易被忽略的技術(shù)亮點(diǎn)

如果說(shuō)RTX 3080性能的大幅度攀升得益于制程工藝帶來(lái)的28億晶體管和全新NVIDIA Ampere架構(gòu)帶來(lái)的提升,那么有三個(gè)細(xì)節(jié)是顯卡與計(jì)算GPU最不同的地方——

1. GDDR6X顯存的強(qiáng)大

NVIDIA為這一代RTX 3080旗艦顯卡裝備了世界上最快的顯存——GDDR6X顯存,相比RTX 2080Ti使用的GDDR6顯存,顯存位寬從352-bit變成了320-bit,看起來(lái)降低了?其實(shí)是因?yàn)轱@存的消息傳輸率從14Gbps提升到了19Gbps,因此帶寬從GDDR6的616GB/秒,提升到了GDDR6X的760GB/秒。

▲ 圖:發(fā)布會(huì)上的“眼圖”——學(xué)過(guò)通信的朋友看著會(huì)很親切

“眼圖”可以清晰的看出來(lái)GDDR6X在同一時(shí)間周期內(nèi)(380皮秒,1皮秒等于一萬(wàn)億分之一(即10的負(fù)12次方)秒)以250mv步長(zhǎng)發(fā)送4個(gè)不同的電平(形成了3行4個(gè)大眼睛)——發(fā)出的信號(hào)是4*4=16個(gè)。而上圖左邊是上一代GDDR6在500皮秒時(shí)間內(nèi)發(fā)射2個(gè)電平——發(fā)出的信號(hào)是2*8=16個(gè)。

不難看出,左右兩側(cè)發(fā)射同樣數(shù)量消息的情況下,右側(cè)耗時(shí)是左側(cè)的70%樣子。換句話說(shuō),就是GDDR6X比GDDR6快了30%樣子。這也與鎂光官網(wǎng)所宣傳的系統(tǒng)帶寬提升一致。

NVIDIA表示這得益于和鎂光合作設(shè)計(jì)的GDDR6X顯存所采用的PAM4多級(jí)信令技術(shù)——其實(shí)這個(gè)牽扯到了通信里面非常時(shí)髦的脈沖振幅調(diào)制,尤其是在光通信領(lǐng)域——200G/s以上的光通信普遍采用QSFP64模塊,而內(nèi)部的信號(hào)調(diào)制就是PAM4為主。聰明的小伙伴開(kāi)始聯(lián)想GPU在NVIDIA游戲云(GeForce Now)里是如何通過(guò)Mellanox的高速網(wǎng)絡(luò)直接用著一模一樣的調(diào)制信號(hào),繞過(guò)CPU實(shí)現(xiàn)GPUDirect(請(qǐng)自行發(fā)掘這個(gè)秘籍)的。

2. RTX I/O技術(shù)

NVIDIA RTX I/O技術(shù)是什么?簡(jiǎn)而言之就是GPU可以繞過(guò)CPU而直接訪問(wèn)高速存儲(chǔ)。

在HDD時(shí)代,打開(kāi)游戲的過(guò)程就是從硬盤(pán)里通過(guò)南橋的控制芯片加載數(shù)據(jù)到內(nèi)存里,這一切都是通過(guò)CPU控制的,然后GPU再通過(guò)CPU去內(nèi)存里讀取數(shù)據(jù)放到自己的顯存里做計(jì)算。效率雖然低下,但是瓶頸主要是HDD機(jī)械硬盤(pán)的延遲和速度。

但是到了如今,PCI-E 已經(jīng)從3.0發(fā)展到了4.0時(shí)代,NVMe SSD的速度也極大的提升。那么之前這一數(shù)據(jù)存取過(guò)程就顯得非常的拖沓——為什么不直接把數(shù)據(jù)從SSD里讀取到顯存里呢?

從上圖可以看出,從PCI-E Gen4 NVMe的SSD里讀取的數(shù)據(jù),通過(guò)磁盤(pán)控制器直接通過(guò)PCI-E總線放到顯卡的西安村里,這就是NVIDIA的RTX I/O技術(shù),它可以讓這一存取數(shù)據(jù)的操作繞過(guò)CPU和本地內(nèi)存,完成數(shù)據(jù)鏈路從存儲(chǔ)到顯存的直接調(diào)度。

這一應(yīng)用場(chǎng)景除了可以充分利用PCI-E 4.0的高速帶寬來(lái)釋放NVMe SSD的速度外,還能夠極大的降低系統(tǒng)時(shí)延,玩家打開(kāi)游戲不用再等那么久,幾乎感受不到游戲的加載用時(shí)。

3. REFLEX低延遲技術(shù)

黃教主在開(kāi)頭就提及了NVIDIA REFLEX低延遲技術(shù),這實(shí)際上可以理解為GeForce RTX顯卡和G-Sync新技術(shù)通過(guò)優(yōu)化來(lái)降低系統(tǒng)和游戲中的延遲——而最高360Hz刷新率的支持,也讓競(jìng)技類游戲的對(duì)抗度提升了一大截。

吃雞游戲剛火起來(lái)的時(shí)候,很多玩家深有體會(huì)的就是60Hz刷新率下玩游戲是一個(gè)體驗(yàn),而歡樂(lè)144Hz支持G-Sync的顯示器,加上一塊好顯卡,那么吃雞游戲就變成了另一種體驗(yàn),仿佛自己技術(shù)提升了一大截——實(shí)際上是你的眼睛看到的內(nèi)容比別人多,比別人早了幾毫秒,就這幾毫秒就是瞄準(zhǔn)的關(guān)鍵時(shí)間點(diǎn)。

關(guān)于RTX 30系列顯卡其實(shí)還有不少新設(shè)計(jì),例如雙軸流散熱設(shè)計(jì),比上一代散熱器的效率提升了2倍,而8K HDR的視頻錄制和編輯,AV1的解碼加速都能在不同層面提升玩家的體驗(yàn)。各位敬請(qǐng)期待我們明天發(fā)布的具體評(píng)測(cè)——

RTX 3080顯卡的標(biāo)準(zhǔn)跑分:

  • 3DMark Fire Strike ——詮釋DirectX 11對(duì)照上代卡的提升

  • 3DMark Time Spy ——DirectX 12 基準(zhǔn)測(cè)試

  • 3DMark Port Royal —— 顯卡的光線追蹤基準(zhǔn)測(cè)試

  • 3DMark DLSS ——深度學(xué)習(xí)超采樣測(cè)試

游戲測(cè)試:

  • 奇點(diǎn)灰燼:擴(kuò)展版(Ashes of the Singularity: Escalation)——沒(méi)有人真正玩過(guò)這個(gè)游戲,都是用它來(lái)做DX12跑分Benchmark

  • 刺客信條:奧德賽(Assassin's Creed Odyssey)——眾生平等的基準(zhǔn)測(cè)試

  • 堡壘之夜(Fronite)——支持光線追蹤的網(wǎng)游

  • 控制(Control)——支持DLSS 2.0的游戲

  • 德軍總部:新血脈(Wolfenstein: Youngblood)——光線追蹤和DLSS測(cè)試

  • 邊境(跑分測(cè)試)(Boundary Benchmark)——國(guó)產(chǎn)游戲大作,支持光線追蹤

  • 光明記憶:無(wú)限(Bright Memory: Infinity)——國(guó)內(nèi)知名大作,虛幻4.9引擎打造,光線追蹤+DLSS測(cè)試

  • 地鐵:離去(Metro Exodus)——早期支持光線追蹤和DLSS的游戲,標(biāo)桿

  • 我的世界(光追版)(MineCraft(RT))——不用多說(shuō)了吧

  • 古墓麗影:暗影(Shadow of the Tomb Raider)——光線追蹤和DLSS測(cè)試

  • 古墓麗影:崛起(Rise of the Tomb Raider)——DirectX 12早期標(biāo)桿,游戲也支持DirectX 11

其他測(cè)試:有小驚喜測(cè)試送給專業(yè)玩家,敬請(qǐng)期待。

分享至
2贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-