NVIDIA TensorRT为所有RTX GPU加速Stable Diffusion GenAI，RTX 4090比Apple M2 Ultra快7倍

technews • 2023年10月18日 15:08 • 3C数码

NVIDIA针对RTX GPU的TensorRT更新也大幅提升了GenAI工作负载的效能，例如Stable Diffusion。

我们已经详细介绍了TensorRT-LLM如何在RTX硬件上为Windows带来更快的AI功能，而GenAI是拥有RTX GPU的消费者将能够看到直接好处的另一个领域。

众所周知NVIDIA的GPU是Stable Diffusion和产生AI工作负载最受欢迎的解决方案之一。我们已经看到NVIDIA在这一领域领先于几乎所有公司，但最近和即将推出的CPU（来自AMD和Intel）已开始包含专用NPU单元，可以从CPU/GPU卸载AI任务并完成对于绝大多数用户来说，这是一种非常低功耗和高效的模式。

NVIDIA表示很高兴看到通过将AI融入CPU来推动AI加速，它们将主要用于以低功耗运行的轻量级AI任务，而GPU将用于要求更高的范例。 NPU和GPU都是离线且本地可用的资源，提供低延迟和数据局部性/隐私功能，而云数据中心则针对超大型模型和按需使用的重型AI工作负载。据说NVIDIA的RTX GPU的性能比这些NPU高出20倍到100倍。

在稳定扩散效能展示中NVIDIA展示了GeForce RTX 4090从自动1111运型WebUI，并使用PyTorc xFormers实现每分钟输出27个影像，但使用TensorRT运行时，效能提高了一倍，达到每分钟52个影像。

NVIDIA 还将其性能与Apple的M2 Ultra（72核）进行了比较，后者的基本价格为5000美元。此系统使用CoreML模型每分钟仅输出7张影像。同时您可以以相同的预算建立有两个GeForce RTX 4090 GPU的非常高阶系统。