
在看完了GeForce RTX 4090的性能测试后,接着我们就继续来分析全新的Ada Lovelace绘图架构,深入了解其改进之处。
运算架构组成
首先我们以GeForce RTX 4090的AD102 GPU来说明Ada Lovelace绘图架构的运算单元组成方式。
完整的AD102具有12组图像处理丛集(Graphics Processing Clusters,GPC)、72组材质处理丛集(Texture Processing Clusters,TPC)、144组串流多重处理器(Streaming Multiprocessors,SM),总共有18432组CUDA核心。 至于内存部分,则是由12组宽度为32bit的控制器组成总宽度为384bit的内存通道,此外还有独立的光流加速器(Optical Flow Accelerator),以及NVENC编码器、NVDEC解码器各3组,并透过PCIe Gen 4×16总线连接至主板。
NVIDIA也在Ada Lovelace白皮书中提到,每组SM中具有2个FP64运算核心(总量为288个),由于FP64数据格式程序的执行效率仅有FP32的1/64,因此这些少量的FP64运算核心目的仅为确保FP64程序能够正常运作。
与前代架构相比,Ada Lovelace的SM具有2倍的运算效能与电力效率,因此能在不增加电力消耗的前提下,达到相同效能输出,或是在消耗相同电力的情况下,将效能输出提升2倍。
而实际搭载于GeForce RTX 4090的AD102则屏蔽1组GPC,因此总共少了6组TPC、12组SM、1536组CUDA核心,详细规格请参考下表。 此外GeForce RTX 4090也仅保留2组NVENC编码器与1组NVDEC解码器,但内存控制器与光流加速器则无异动。
(若手机版浏览器无法显示表,请点我看完整表格)
NVIDIA例代显卡规格对照表 | |||||
项目 | GeForce RTX 2080 Ti | GeForce RTX 3090 Ti | GeForce RTX 4080 12GB | GeForce RTX 4080 16GB | GeForce RTX 4090 |
GPU代号 | TU102 | GA102 | AD104 | AD103 | AD102 |
GPC数量 | 6 | 7 | 5 | 7 | 11 |
TPC数量 | 34 | 74 | 30 | 38 | 64 |
SM数量 | 68 | 84 | 60 | 76 | 128 |
CUDA核心数量 | 4352 | 10752 | 7680 | 9728 | 16384 |
光流处理器数量(OFA) | 无 | 126 | 305 | 305 | 305 |
核心Boost时脉 | 1635MHz | 1860MHz | 2610MHz | 2505MHz | 2520MHz |
FP32运算效能 | 14.2TFLOPS | 40TFLOPS | 40.1TFLOPS | 48.7TFLOPS | 82.6TFLOPS |
Tensor核心数量 | 544(第2代) | 336(第3代) | 240(第4代) | 304(第4代) | 512(第4代) |
Tensor FP16运算效能(正常/稀疏运算) | 113.8TFLOPS | 160/320TFLOPS | 160.4/320.8TFLOPS | 194.9/389.8TFLOPS | 330.3/660.6TFLOPS |
Tensor FP8运算效能(正常/稀疏运算) | 不支持 | 不支持 | 320.7/641.4TFLOPS | 389.8/779.8TFLOPS | 660.6/1321.2TFLOPS |
RT核心数量 | 68(第1代) | 84(第2代) | 60(第3代) | 76(第3代) | 128(第3代) |
RT运算效能 | 42.9TFLOPS | 78.1TFLOPS | 92.7TFLOPS | 112.7TFLOPS | 191TFLOPS |
材质单元数量 | 272 | 336 | 240 | 304 | 512 |
材质填充率(Gigatexels/s) | 444.7 | 625 | 626.4 | 761.5 | 1290.2 |
ROP数量 | 88 | 112 | 80 | 112 | 176 |
像素填充率(Gigapixels/s) | 143.9 | 208.3 | 208.8 | 280.6 | 443.5 |
显示内存容量、种类 | 11GB GDDR6 | 24GB GDDR6X | 12GB GDDR6X | 16GB GDDR6X | 24GB GDDR6X |
显示内存通道宽度 | 352bit | 384bit | 192bit | 256bit | 384bit |
显示内存传输速度 | 14Gbps | 21Gbps | 21Gbps | 22.4Gbps | 21Gbps |
显示内存带宽 | 616GB/s | 1008GB/s | 504GB/s | 716.8GB/s | 1008GB/s |
L1缓存容量 | 6.375MB | 10.5MB | 7.5MB | 9.5MB | 16MB |
L2缓存容量 | 5.5MB | 6MB | 48MB | 64MB | 72MB |
影像编码加速器 | 第7代NVENC | 第7代NVENC | 第8代NVENC x2 | 第8代NVENC x2 | 第8代NVENC x2 |
影像解码加速器 | 第4代NVDEC | 第5代NVDEC | 第5代NVDEC | 第5代NVDEC | 第5代NVDEC |
PCIe接口 | PCIe Gen 3×16 | PCIe Gen 4×16 | PCIe Gen 4×16 | PCIe Gen 4×16 | PCIe Gen 4×16 |
TGP(显示卡功耗) | 360W | 450W | 285W | 320W | 450W |
晶体管数量 | 186亿 | 283亿 | 358亿 | 459亿 | 763亿 |
裸晶尺寸 | 754mm2 | 628.4mm2 | 294.5mm2 | 378.6mm2 | 608.5mm2 |
制程 | TSMC 12nm FFN(FinFET NVIDIA) | Samsung 8nm 8N NVIDIA定制工艺 | TSMC 4nm NVIDIA定制制程 | TSMC 4nm NVIDIA定制制程 | TSMC 4nm NVIDIA定制制程 |
▲ 完整的AD102具有12组GPC,以及NVENC编码器、NVDEC解码器各2组。
▲ GeForce RTX 4090的AD102则屏蔽部分组件,变成只有11组GPC,也仅保留2组NVENC编码器与1组NVDEC解码器。
▲ SM的细部组成如图所示。 需要注意的是文中提到的FP64运算核心并未绘制于图中。
▲ 在软件支持的情况下,GeForce RTX 4090的2组NVENC编码器可以同时运作,进行实时8K编码转档。
▲ 根据官方提供的测试数据,GeForce RTX 4090的编码速度比GeForce RTX 3090 Ti高出1倍以上。
