DLSS 3 是 GeForce RTX 40 系列最大优势,NVIDIA Ada Lovelace 架构与特色介绍

DLSS 3 真的很强,同时 Ada Lovelace 架构也有很多特色。

NVIDIA GeForce RTX 40系列在9月20日正式发表,而NVIDIA则是与全球媒体在9月21日阐明更多Ada LovelaceGPU架构的细节与GeForce RTX 40系列的特色。

新一代GeForce RTX 40系列采用 Ada Lovelace 架构,现阶段发表了 GeForce RTX 4090 24GB GDDR6x,确定会在 10 月 12 日发售,紧接其后会是 GeForce RTX 4080 16GB GDDR6x 与 GeForce RTX 4080 12GB GDDR6x,发售时间目前暂定在 11 月份。

DLSS 3 是 GeForce RTX 40 系列最大优势,NVIDIA Ada Lovelace 架构与特色介绍

目前 Ada Lovelace 架构中,旗舰的 GeForce RTX 4090 采用 AD102 芯片,16GB 与 12GB 的 GeForce RTX 4080 系列分别使用 AD103 与 AD104 芯片。

NVIDIA 明确提到 Ada Lovelace 架构拥有新的 Streaming Processors、RT Core、Tensor Core、Optical Flow Accelerator 与 Video Engine。

Video Engine 部分,GeForce RTX 40 系列与 GeForce RTX 30 系列相比较的话,新一代显示卡拥有 2x NVENC(第 8 代)与 1x NVDEC(第 5 代); GeForce RTX 30 系列为 1x NVENC(第 7 代)与 1x NVDEC(第 5 代)。 主要不同在与NVENC,这也让GeForce RTX 40系列可以在8K 60Hz部分更为强悍。

DLSS 3 是 GeForce RTX 40 系列最大优势,NVIDIA Ada Lovelace 架构与特色介绍

GeForce RTX 40 系列也拥有 H.264、H.265 与 AV1 格式的编解码能力。

回到 Ada Lovelace 架构上,跟着来看看它与 2020 年发表的 Ampere 架构差异到底有多大。

DLSS 3 是 GeForce RTX 40 系列最大优势,NVIDIA Ada Lovelace 架构与特色介绍

Ada Lovelace 推进到TSMC 4nm制程,与 Ampere 架构的三星g 8nm 制程有着非常大的不同。

首先在GPCs(Graphics Processing Clusters),AD102从原先GA102的7组提升至12组,至于每1组GPCs是由6组TPCs(Texture Processing Clusters)组成,再来就是每个TCs整合2个SMs(Streaming Multiprocessors),每组SMs整合第3代RT Core 、128KB L1 快取与 4 个 TMUs(Texture Mapping Units),同时 4 个集群(clusters)各拥有 16 FP32 CUDA Cores、16 个同步 FP32 + INT32 CUDA Cores、4 load / store units 与带有 warp-scheduler 和 threat-dispatch 功能的 L0 快取; 当然,这里面更重要的是第 4 代 Tensor Cores。

总结来说,Ada Lovelace 每组SM拥有128 CUDA Cores、4个Tensor Cores与1个RT Core; 每GPC拥有12SMs,也就是1,536 CUDA Cores、48个Tensor Cores和12个RT Cores。 因此,12个GPCs可以提供多大18,432 CUDA Cores、576个Tensor Cores与144 RT Cores; 此外,每组GPU拥有16 RPOs,也就是说AD102拥有多达192 ROPs。

Ada Lovelace仍旧维持 PCIe 4.0 x16 与 384 bit 内存接口。

DLSS 3 是 GeForce RTX 40 系列最大优势,NVIDIA Ada Lovelace 架构与特色介绍

效能提升当然也会迫使功耗往上增加,可是与 Ampere 相比较的话,在同样功耗的前提下,可以见到 Ada Lovelace 表现是有相当 2x 幅度的增加; AD102 aka GeForce RTX 4090 默认 TGP 为 450W。

DLSS 3 是 GeForce RTX 40 系列最大优势,NVIDIA Ada Lovelace 架构与特色介绍
DLSS 3 是 GeForce RTX 40 系列最大优势,NVIDIA Ada Lovelace 架构与特色介绍

Ada Lovelace 架構 GPU 的新功能包含 SER(Shader Execution Reordering)、DMM(Displace micro-mesh)、OMM(Opacity micro-masks)、FP8 Inferencing、Optical Flow Accelerator 与 DLSS 3。

在众多新功能里面,DLSS 3 的加入可以说是个革命性的特色。

DLSS 3 具有 DLSS 2 的所有功能与 AI super-resolution,但它新加入的 AI frame-generation 特色让同等质量的条件下,可以将帧速率提高近一倍。 另一方面,DLSS 3 可以不投过图形渲染管道的前提下,简单透过 AI 生成整个画面。

DLSS 3 引入了一项革命性的新功能,该功能有望在同等质量的情况下将帧速率提高近一倍,称为 AI 帧生成。 虽然它具有DLSS 2的所有功能及其AI超分辨率(以最小的质量损失将较低分辨率的帧放大到原始分辨率); DLSS 3 可以简单地使用 AI 生成整个帧,而不涉及图形渲染渠道。 因此,使用DLSS 3的每个交替帧都是 AI 生成的,而不是先前渲染帧的副本。

DLSS 3 是 GeForce RTX 40 系列最大优势,NVIDIA Ada Lovelace 架构与特色介绍
DLSS 3 是 GeForce RTX 40 系列最大优势,NVIDIA Ada Lovelace 架构与特色介绍

只能在 Ada Lovelace 架构 GPU 实现的原因,主要在于 Optical Flow Accelerator(OFA)硬件,透过它创建所谓的光流场预测下一个画面的外观。 OFA同时也确保DLSS 3算法不会被快速变化的3D场景中的静态对象所混淆,这很大程度是仰赖第4代Tensor Cores的FP8所带来的效能提升。

DLSS 3 是 GeForce RTX 40 系列最大优势,NVIDIA Ada Lovelace 架构与特色介绍

DLSS 3 最后一个要素就是Reflex。 透过降低 rendering queue to zero,Reflex 在 DLSS 3 帧时间中扮演则着至关重要的作用,并且确保渲染队列不会混淆 upscaler。 OFA 与第 4 代 Tensor Cores 的结合,是 Ada Lovelace 拥有 DLSS 3 的原因,这也是 Ampere 以及其他旧架构无法运行的主因。

(0)
打赏 微信扫一扫 微信扫一扫

相关推荐

发表回复

登录后才能评论