DLSS 3 是 GeForce RTX 40 系列最大优势，NVIDIA Ada Lovelace 架构与特色介绍

DLSS 3 真的很强，同时 Ada Lovelace 架构也有很多特色。

NVIDIA GeForce RTX 40系列在9月20日正式发表，而NVIDIA则是与全球媒体在9月21日阐明更多Ada LovelaceGPU架构的细节与GeForce RTX 40系列的特色。

新一代GeForce RTX 40系列采用 Ada Lovelace 架构，现阶段发表了 GeForce RTX 4090 24GB GDDR6x，确定会在 10 月 12 日发售，紧接其后会是 GeForce RTX 4080 16GB GDDR6x 与 GeForce RTX 4080 12GB GDDR6x，发售时间目前暂定在 11 月份。

DLSS 3 是 GeForce RTX 40 系列最大优势，NVIDIA Ada Lovelace 架构与特色介绍

目前 Ada Lovelace 架构中，旗舰的 GeForce RTX 4090 采用 AD102 芯片，16GB 与 12GB 的 GeForce RTX 4080 系列分别使用 AD103 与 AD104 芯片。

NVIDIA 明确提到 Ada Lovelace 架构拥有新的 Streaming Processors、RT Core、Tensor Core、Optical Flow Accelerator 与 Video Engine。

Video Engine 部分，GeForce RTX 40 系列与 GeForce RTX 30 系列相比较的话，新一代显示卡拥有 2x NVENC（第 8 代）与 1x NVDEC（第 5 代）; GeForce RTX 30 系列为 1x NVENC（第 7 代）与 1x NVDEC（第 5 代）。主要不同在与NVENC，这也让GeForce RTX 40系列可以在8K 60Hz部分更为强悍。

GeForce RTX 40 系列也拥有 H.264、H.265 与 AV1 格式的编解码能力。

回到 Ada Lovelace 架构上，跟着来看看它与 2020 年发表的 Ampere 架构差异到底有多大。

Ada Lovelace 推进到TSMC 4nm制程，与 Ampere 架构的三星g 8nm 制程有着非常大的不同。

首先在GPCs（Graphics Processing Clusters），AD102从原先GA102的7组提升至12组，至于每1组GPCs是由6组TPCs（Texture Processing Clusters）组成，再来就是每个TCs整合2个SMs（Streaming Multiprocessors），每组SMs整合第3代RT Core 、128KB L1 快取与 4 个 TMUs（Texture Mapping Units），同时 4 个集群（clusters）各拥有 16 FP32 CUDA Cores、16 个同步 FP32 + INT32 CUDA Cores、4 load / store units 与带有 warp-scheduler 和 threat-dispatch 功能的 L0 快取; 当然，这里面更重要的是第 4 代 Tensor Cores。

总结来说，Ada Lovelace 每组SM拥有128 CUDA Cores、4个Tensor Cores与1个RT Core; 每GPC拥有12SMs，也就是1，536 CUDA Cores、48个Tensor Cores和12个RT Cores。因此，12个GPCs可以提供多大18，432 CUDA Cores、576个Tensor Cores与144 RT Cores; 此外，每组GPU拥有16 RPOs，也就是说AD102拥有多达192 ROPs。

Ada Lovelace仍旧维持 PCIe 4.0 x16 与 384 bit 内存接口。

效能提升当然也会迫使功耗往上增加，可是与 Ampere 相比较的话，在同样功耗的前提下，可以见到 Ada Lovelace 表现是有相当 2x 幅度的增加; AD102 aka GeForce RTX 4090 默认 TGP 为 450W。

Ada Lovelace 架構 GPU 的新功能包含 SER（Shader Execution Reordering）、DMM（Displace micro-mesh）、OMM（Opacity micro-masks）、FP8 Inferencing、Optical Flow Accelerator 与 DLSS 3。

在众多新功能里面，DLSS 3 的加入可以说是个革命性的特色。

DLSS 3 具有 DLSS 2 的所有功能与 AI super-resolution，但它新加入的 AI frame-generation 特色让同等质量的条件下，可以将帧速率提高近一倍。另一方面，DLSS 3 可以不投过图形渲染管道的前提下，简单透过 AI 生成整个画面。

DLSS 3 引入了一项革命性的新功能，该功能有望在同等质量的情况下将帧速率提高近一倍，称为 AI 帧生成。虽然它具有DLSS 2的所有功能及其AI超分辨率（以最小的质量损失将较低分辨率的帧放大到原始分辨率）; DLSS 3 可以简单地使用 AI 生成整个帧，而不涉及图形渲染渠道。因此，使用DLSS 3的每个交替帧都是 AI 生成的，而不是先前渲染帧的副本。

只能在 Ada Lovelace 架构 GPU 实现的原因，主要在于 Optical Flow Accelerator（OFA）硬件，透过它创建所谓的光流场预测下一个画面的外观。 OFA同时也确保DLSS 3算法不会被快速变化的3D场景中的静态对象所混淆，这很大程度是仰赖第4代Tensor Cores的FP8所带来的效能提升。

DLSS 3 最后一个要素就是Reflex。透过降低 rendering queue to zero，Reflex 在 DLSS 3 帧时间中扮演则着至关重要的作用，并且确保渲染队列不会混淆 upscaler。 OFA 与第 4 代 Tensor Cores 的结合，是 Ada Lovelace 拥有 DLSS 3 的原因，这也是 Ampere 以及其他旧架构无法运行的主因。