NVIDIA(英偉達(dá))從8月到9月的新聞一個(gè)接一個(gè)的重磅:市值超過(guò)了Intel+AMD之和,到今天已經(jīng)超過(guò)3400億美元,另一個(gè)就是9月1日發(fā)布了基于NVIDIA Ampere架構(gòu)GPU的GeForce RTX 30系列顯卡——代表的有RTX 3080和RTX 3070以及怪獸級(jí)的RTX 3090。
發(fā)布會(huì)上黃教主就坦言這一代RTX 30系列顯卡得益于NVIDIA Ampere架構(gòu),性能相比上一代RTX 20系列顯卡有了巨大的飛躍。其中RTX 3080作為新一代旗艦顯卡,性能可以達(dá)到RTX 2080的兩倍,就連面向主流市場(chǎng)的RTX 3070也超過(guò)了之前售價(jià)過(guò)萬(wàn)的RTX 2080Ti旗艦顯卡。至于RTX 3090,其定位已經(jīng)是之前的TITAN RTX系列,性能是后者的1.5倍。
▲ 圖:好東西看起來(lái)就是高端(貴)
那么新一代旗艦顯卡RTX 3080的實(shí)際性能究竟是不是這么神呢?還記得之前的RTX 20系列開(kāi)啟了光線追蹤和DLSS之后,幀率暴跌的情形么?我們將會(huì)在9月17日揭秘實(shí)測(cè)性能和數(shù)據(jù),敬請(qǐng)期待。
那么本篇文章,我們主要來(lái)看看是什么樣的魔法,讓NVIDIA Ampere架構(gòu)給GPU帶來(lái)了如此魔力呢?換言之,NVIDIA Ampere架構(gòu)相比上代Turing架構(gòu)究竟有哪些不同?
先來(lái)看看數(shù)據(jù)——
如上表,得益于和三星合作的8N工藝(我們猜測(cè)不是單純的8nm工藝,有特殊之處),RTX 3080的GPU擁有280億個(gè)晶體管,比上一代RTX 2080Ti多了近10億個(gè)——而體積卻從754平方毫米減小到了628平方毫米。
因此,RTX 3080雖然同樣擁有著68個(gè)SM模組,但是CUDA Core增加到了8704個(gè),是RTX Super的2.8倍,也幾乎比RTX 2080Ti翻了一番。用作神經(jīng)網(wǎng)絡(luò)計(jì)算的Tensor Core和負(fù)責(zé)光線追蹤的RT Core雖然看著數(shù)量上和RTX 2080Ti差不多,甚至還有縮減,但是其效率今非昔比——后面我們會(huì)單獨(dú)提到重新設(shè)計(jì)的RT Core和Tensor Core有多驚人。
GPU主頻和Boost頻率也得益于新制造工藝,基礎(chǔ)頻率達(dá)到了1440MHz,Boost可以到1710MHz——相信一些非公版會(huì)大大提升這一極限。顯存、帶寬和功耗有著不同程度的變化。
重新設(shè)計(jì)的著色器、Tensor Core和RT Core
NVIDIA Ampere架構(gòu)相比于之前Turing的最大變化,就是其每一個(gè)SM(流式多處理器)的分區(qū)在每個(gè)時(shí)鐘周期能夠執(zhí)行32次FP32(32位浮點(diǎn)運(yùn)算)操作,這就使得SM中的全部4個(gè)分區(qū)加在一起每個(gè)時(shí)鐘周期可以進(jìn)行128次FP32操作——吞吐量翻倍。對(duì)于圖形渲染,著色器的工作和計(jì)算都是直接受益于FP32運(yùn)算速度,而光線追蹤等最新的技術(shù)也會(huì)被FP32進(jìn)一步加持。
作為顯卡GPU的基礎(chǔ),Shader著色器是從GPU誕生之初就作為渲染圖形的一種專用可編程器件——早期的著色器還會(huì)分為頂點(diǎn)著色器和像素著色器,前者負(fù)責(zé)畫(huà)三角形(3D模型可以根據(jù)建模復(fù)雜度拆分成無(wú)數(shù)三角形),后者則負(fù)責(zé)做2D圖形的像素渲染。
從CUDA誕生以來(lái),NVIDIA的GPU就開(kāi)始走上了一條從專門(mén)為圖形渲染的可編程著色器,逐漸向通用計(jì)算發(fā)展。到如今基于NVIDIA Ampere架構(gòu)的RTX 30系列顯卡所擁有的可編程著色器,其處理能力由11 Shader-TFLOP/s LOPS提升到為30 Shader-TFLOP/s, FP32浮點(diǎn)吞吐量是上一代Turing架構(gòu)的2.7倍。
▲ 圖:新的著色器性能提升2.7倍,RT Core和Tensor Core性能也分別提升了1.7倍和2.7倍
早在Turing架構(gòu)中引入Tensor Core(張量計(jì)算核心)和RT Core(光線追蹤核心)時(shí),我們就評(píng)論過(guò),這兩種核心必將成為未來(lái)顯卡的基石——如果將GPU自身的CUDA Core看做是通用處理器,那么對(duì)于通用計(jì)算來(lái)說(shuō),繁重的光線追蹤操作(RTX-OPS)和用于深度學(xué)習(xí)推演的張量計(jì)算(Tensor Flops)當(dāng)然需要卸載(Offload),來(lái)提升效率。
NVIDIA的雄心和魄力在整個(gè)游戲業(yè)界還只有寥寥數(shù)款游戲時(shí),就推出了超越時(shí)代的這兩種核心,一時(shí)間讓分析師和媒體不置可否的對(duì)其“信心不足”——直到越來(lái)越多的游戲開(kāi)始支持光線追蹤, 而Tensor Core所支持的DLSS基于深度學(xué)習(xí)技術(shù)的超采樣,也終于能在更多實(shí)際游戲中發(fā)揮作用。但是還是有很多玩家詬病,真想要全開(kāi)DLSS,必須上旗艦的RTX 2080Ti。
如今呢?新一代RTX 3080的根基,是NVIDIA Ampere架構(gòu)——這是在今年GTC美國(guó)發(fā)布的最重要的GPU核心架構(gòu),其中最重要的就是第三代Tensor Core(張量計(jì)算核心),如下表所示:
NVIDIA A100 Tensor Core GPU性能數(shù)據(jù)
▲ 圖:數(shù)據(jù)來(lái)自A100白皮書(shū)
這是NVIDIA用在數(shù)據(jù)中心深度學(xué)習(xí)的A100 GPU的數(shù)據(jù),但是其第三代Tensor Core的威力幾乎是原來(lái)V100的兩倍——同樣是NVIDIA Ampere架構(gòu)的RTX 3080里,僅僅272個(gè)Tensor Core就可以帶來(lái)238 Tensor-TFLOPS的計(jì)算力,而原來(lái)在RTX 2080Ti里,這個(gè)計(jì)算力僅為89 Tensor-TFLOPS——性能提升了近3倍。
▲ 圖:新一代DLSS 2.0是在超級(jí)計(jì)算機(jī)加持下用4K圖像做深度學(xué)習(xí)訓(xùn)練產(chǎn)生的模型(按訓(xùn)練的順序陸續(xù)支持各個(gè)游戲)
我們可以期待,在最新DLSS 2.0的加持下,即使同樣是4K分辨率,Tensor Core的強(qiáng)大推演能力,也可以讓畫(huà)面達(dá)到前所未有的銳度,消除鋸齒——形象的說(shuō)就是超級(jí)計(jì)算機(jī)幫你腦補(bǔ)了細(xì)節(jié)。
另一邊,第二代RT Core與之前相比也有了近2倍的性能提升,并且支持并發(fā)式的光線追蹤處理和著色。從數(shù)據(jù)上來(lái)說(shuō),RTX 2080Ti的光線追蹤性能是34 RT-TFLOPS,而到了RTX 3080中,雖然RT Core的數(shù)量和之前一樣,但是性能提升到了58 RT-FLOPS,這就使得同一時(shí)間內(nèi)可以計(jì)算更多的光線和路徑。
▲ 圖:第二代RT Core擁有1.5倍以上的性能提升
光線追蹤的最終目的,就是讓計(jì)算機(jī)影像盡可能的接近真實(shí)的物理效果——在傳統(tǒng)的光影環(huán)境中,GPU用光柵去處理光影關(guān)系,也就是將3D的圖形映射投影到一個(gè)2D的平面上,然后去處理每一個(gè)點(diǎn)應(yīng)該什么亮度,什么顏色等等。這樣在最后合成起來(lái),就得到了一個(gè)3D的圖像——這非常類似MRI(核磁共振)的切片式成像原理。但是問(wèn)題也很大——因?yàn)橛?jì)算力的限制,也因?yàn)榫幊痰膹?fù)雜度,程序員只能簡(jiǎn)化光影邏輯,使得物體往往只有一兩個(gè)光源——越多的光源對(duì)于場(chǎng)景的設(shè)計(jì)和計(jì)算復(fù)雜度要求越高。
而光線追蹤則是我們平時(shí)在現(xiàn)實(shí)生活中看到東西的樣子——光線從光源發(fā)出,可能是燈,可能是太陽(yáng),射到物體上再反射到我們的眼睛里,于是我們看到了亮部,暗部,顏色等。光線追蹤就是要模擬這樣的過(guò)程,只去定義光源和材質(zhì)的物理性質(zhì)(反光程度、漫反射程度等)。這樣做的好處是簡(jiǎn)化了程序設(shè)計(jì)的難度,最大限度的還原真實(shí)——如果能無(wú)限跟蹤所有光線,就可以還原整個(gè)世界的光影——這是理想中的設(shè)計(jì)。不可能實(shí)現(xiàn)的原因就是會(huì)帶來(lái)海量的計(jì)算——近乎無(wú)窮無(wú)盡。
RT Core的出現(xiàn),就是在GPU里分出一部分專門(mén)為這種最終而生的核心,來(lái)盡可能大的提升性能,并且在處理光影時(shí),能夠“專項(xiàng)治理”。
▲ 圖:如果不告訴你這是光線追蹤的虛擬世界,你會(huì)信以為真么
從2018年末微軟正式在自己的DirectX里添加Raytracing(DXR)光線追蹤技術(shù)以來(lái),越來(lái)越多的游戲開(kāi)始使用這項(xiàng)技術(shù)來(lái)讓自己的世界構(gòu)建的足夠真實(shí)——而NVIDIA也實(shí)實(shí)在在的推動(dòng)了時(shí)代的進(jìn)步,并且又一次通過(guò)RTX 3080將光線追蹤的水平提升到了新的高度。
三個(gè)容易被忽略的技術(shù)亮點(diǎn)
如果說(shuō)RTX 3080性能的大幅度攀升得益于制程工藝帶來(lái)的28億晶體管和全新NVIDIA Ampere架構(gòu)帶來(lái)的提升,那么有三個(gè)細(xì)節(jié)是顯卡與計(jì)算GPU最不同的地方——
1. GDDR6X顯存的強(qiáng)大
NVIDIA為這一代RTX 3080旗艦顯卡裝備了世界上最快的顯存——GDDR6X顯存,相比RTX 2080Ti使用的GDDR6顯存,顯存位寬從352-bit變成了320-bit,看起來(lái)降低了?其實(shí)是因?yàn)轱@存的消息傳輸率從14Gbps提升到了19Gbps,因此帶寬從GDDR6的616GB/秒,提升到了GDDR6X的760GB/秒。
▲ 圖:發(fā)布會(huì)上的“眼圖”——學(xué)過(guò)通信的朋友看著會(huì)很親切
“眼圖”可以清晰的看出來(lái)GDDR6X在同一時(shí)間周期內(nèi)(380皮秒,1皮秒等于一萬(wàn)億分之一(即10的負(fù)12次方)秒)以250mv步長(zhǎng)發(fā)送4個(gè)不同的電平(形成了3行4個(gè)大眼睛)——發(fā)出的信號(hào)是4*4=16個(gè)。而上圖左邊是上一代GDDR6在500皮秒時(shí)間內(nèi)發(fā)射2個(gè)電平——發(fā)出的信號(hào)是2*8=16個(gè)。
不難看出,左右兩側(cè)發(fā)射同樣數(shù)量消息的情況下,右側(cè)耗時(shí)是左側(cè)的70%樣子。換句話說(shuō),就是GDDR6X比GDDR6快了30%樣子。這也與鎂光官網(wǎng)所宣傳的系統(tǒng)帶寬提升一致。
NVIDIA表示這得益于和鎂光合作設(shè)計(jì)的GDDR6X顯存所采用的PAM4多級(jí)信令技術(shù)——其實(shí)這個(gè)牽扯到了通信里面非常時(shí)髦的脈沖振幅調(diào)制,尤其是在光通信領(lǐng)域——200G/s以上的光通信普遍采用QSFP64模塊,而內(nèi)部的信號(hào)調(diào)制就是PAM4為主。聰明的小伙伴開(kāi)始聯(lián)想GPU在NVIDIA游戲云(GeForce Now)里是如何通過(guò)Mellanox的高速網(wǎng)絡(luò)直接用著一模一樣的調(diào)制信號(hào),繞過(guò)CPU實(shí)現(xiàn)GPUDirect(請(qǐng)自行發(fā)掘這個(gè)秘籍)的。
2. RTX I/O技術(shù)
NVIDIA RTX I/O技術(shù)是什么?簡(jiǎn)而言之就是GPU可以繞過(guò)CPU而直接訪問(wèn)高速存儲(chǔ)。
在HDD時(shí)代,打開(kāi)游戲的過(guò)程就是從硬盤(pán)里通過(guò)南橋的控制芯片加載數(shù)據(jù)到內(nèi)存里,這一切都是通過(guò)CPU控制的,然后GPU再通過(guò)CPU去內(nèi)存里讀取數(shù)據(jù)放到自己的顯存里做計(jì)算。效率雖然低下,但是瓶頸主要是HDD機(jī)械硬盤(pán)的延遲和速度。
但是到了如今,PCI-E 已經(jīng)從3.0發(fā)展到了4.0時(shí)代,NVMe SSD的速度也極大的提升。那么之前這一數(shù)據(jù)存取過(guò)程就顯得非常的拖沓——為什么不直接把數(shù)據(jù)從SSD里讀取到顯存里呢?
從上圖可以看出,從PCI-E Gen4 NVMe的SSD里讀取的數(shù)據(jù),通過(guò)磁盤(pán)控制器直接通過(guò)PCI-E總線放到顯卡的西安村里,這就是NVIDIA的RTX I/O技術(shù),它可以讓這一存取數(shù)據(jù)的操作繞過(guò)CPU和本地內(nèi)存,完成數(shù)據(jù)鏈路從存儲(chǔ)到顯存的直接調(diào)度。
這一應(yīng)用場(chǎng)景除了可以充分利用PCI-E 4.0的高速帶寬來(lái)釋放NVMe SSD的速度外,還能夠極大的降低系統(tǒng)時(shí)延,玩家打開(kāi)游戲不用再等那么久,幾乎感受不到游戲的加載用時(shí)。
3. REFLEX低延遲技術(shù)
黃教主在開(kāi)頭就提及了NVIDIA REFLEX低延遲技術(shù),這實(shí)際上可以理解為GeForce RTX顯卡和G-Sync新技術(shù)通過(guò)優(yōu)化來(lái)降低系統(tǒng)和游戲中的延遲——而最高360Hz刷新率的支持,也讓競(jìng)技類游戲的對(duì)抗度提升了一大截。
吃雞游戲剛火起來(lái)的時(shí)候,很多玩家深有體會(huì)的就是60Hz刷新率下玩游戲是一個(gè)體驗(yàn),而歡樂(lè)144Hz支持G-Sync的顯示器,加上一塊好顯卡,那么吃雞游戲就變成了另一種體驗(yàn),仿佛自己技術(shù)提升了一大截——實(shí)際上是你的眼睛看到的內(nèi)容比別人多,比別人早了幾毫秒,就這幾毫秒就是瞄準(zhǔn)的關(guān)鍵時(shí)間點(diǎn)。
關(guān)于RTX 30系列顯卡其實(shí)還有不少新設(shè)計(jì),例如雙軸流散熱設(shè)計(jì),比上一代散熱器的效率提升了2倍,而8K HDR的視頻錄制和編輯,AV1的解碼加速都能在不同層面提升玩家的體驗(yàn)。各位敬請(qǐng)期待我們明天發(fā)布的具體評(píng)測(cè)——
RTX 3080顯卡的標(biāo)準(zhǔn)跑分:
3DMark Fire Strike ——詮釋DirectX 11對(duì)照上代卡的提升
3DMark Time Spy ——DirectX 12 基準(zhǔn)測(cè)試
3DMark Port Royal —— 顯卡的光線追蹤基準(zhǔn)測(cè)試
3DMark DLSS ——深度學(xué)習(xí)超采樣測(cè)試
游戲測(cè)試:
奇點(diǎn)灰燼:擴(kuò)展版(Ashes of the Singularity: Escalation)——沒(méi)有人真正玩過(guò)這個(gè)游戲,都是用它來(lái)做DX12跑分Benchmark
刺客信條:奧德賽(Assassin's Creed Odyssey)——眾生平等的基準(zhǔn)測(cè)試
堡壘之夜(Fronite)——支持光線追蹤的網(wǎng)游
控制(Control)——支持DLSS 2.0的游戲
德軍總部:新血脈(Wolfenstein: Youngblood)——光線追蹤和DLSS測(cè)試
邊境(跑分測(cè)試)(Boundary Benchmark)——國(guó)產(chǎn)游戲大作,支持光線追蹤
光明記憶:無(wú)限(Bright Memory: Infinity)——國(guó)內(nèi)知名大作,虛幻4.9引擎打造,光線追蹤+DLSS測(cè)試
地鐵:離去(Metro Exodus)——早期支持光線追蹤和DLSS的游戲,標(biāo)桿
我的世界(光追版)(MineCraft(RT))——不用多說(shuō)了吧
古墓麗影:暗影(Shadow of the Tomb Raider)——光線追蹤和DLSS測(cè)試
古墓麗影:崛起(Rise of the Tomb Raider)——DirectX 12早期標(biāo)桿,游戲也支持DirectX 11
其他測(cè)試:有小驚喜測(cè)試送給專業(yè)玩家,敬請(qǐng)期待。
好文章,需要你的鼓勵(lì)
這項(xiàng)研究提出了"高效探測(cè)"方法,解決了掩碼圖像建模AI難以有效評(píng)估的問(wèn)題。通過(guò)創(chuàng)新的多查詢交叉注意力機(jī)制,該方法在減少90%參數(shù)的同時(shí)實(shí)現(xiàn)10倍速度提升,在七個(gè)基準(zhǔn)測(cè)試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強(qiáng)相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊(duì)承諾開(kāi)源全部代碼,推動(dòng)技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了CLAIMSPECT系統(tǒng),通過(guò)層次化分解復(fù)雜爭(zhēng)議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點(diǎn)的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動(dòng)構(gòu)建爭(zhēng)議話題的分析框架,識(shí)別不同觀點(diǎn)及其支撐證據(jù),為科學(xué)和政治爭(zhēng)議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國(guó)際關(guān)系領(lǐng)域驗(yàn)證有效性。
清華大學(xué)研究團(tuán)隊(duì)首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類一樣理解和表達(dá)情感。該系統(tǒng)通過(guò)多層次情感處理架構(gòu),在情感識(shí)別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實(shí)現(xiàn)了跨模態(tài)情感融合、動(dòng)態(tài)情感追蹤和個(gè)性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來(lái)革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊(duì)通過(guò)創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會(huì)復(fù)雜推理。研究發(fā)現(xiàn)AI通過(guò)游戲競(jìng)爭(zhēng)能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問(wèn)題等方面表現(xiàn)顯著提升。這項(xiàng)突破性成果為未來(lái)AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過(guò)模擬人類學(xué)習(xí)過(guò)程培養(yǎng)真正智能AI的新路徑。