NVIDIA TensorRT为所有RTX GPU加速Stable Diffusion GenAI,RTX 4090比Apple M2 Ultra快7倍

NVIDIA针对RTX GPU的TensorRT更新也大幅提升了GenAI工作负载的效能,例如Stable Diffusion。
NVIDIA-RTX-TensorRT-Stable-Diffusion-GenAI-2.png
我们已经详细介绍了TensorRT-LLM如何在RTX硬件上为Windows带来更快的AI功能,而GenAI是拥有RTX GPU的消费者将能够看到直接好处的另一个领域。
NVIDIA-TensorRT-Stable-Diffusion-AI-RTX-GPUs-_1.png
众所周知NVIDIA的GPU是Stable Diffusion和产生AI工作负载最受欢迎的解决方案之一。 我们已经看到NVIDIA在这一领域领先于几乎所有公司,但最近和即将推出的CPU(来自AMD和Intel)已开始包含专用NPU单元,可以从CPU/GPU卸载AI任务并完成对于绝大多数用户来说,这是一种非常低功耗和高效的模式。
NVIDIA-TensorRT-Stable-Diffusion-AI-RTX-GPUs-_4.png
NVIDIA表示很高兴看到通过将AI融入CPU来推动AI加速,它们将主要用于以低功耗运行的轻量级AI任务,而GPU将用于要求更高的范例。 NPU和GPU都是离线且本地可用的资源,提供低延迟和数据局部性/隐私功能,而云数据中心则针对超大型模型和按需使用的重型AI工作负载。 据说NVIDIA的RTX GPU的性能比这些NPU高出20倍到100倍。

在稳定扩散效能展示中NVIDIA展示了GeForce RTX 4090从自动1111运型WebUI,并使用PyTorc xFormers实现每分钟输出27个影像,但使用TensorRT运行时,效能提高了一倍,达到每分钟52个影像。
NVIDIA-TensorRT-Stable-Diffusion-AI-RTX-GPUs-_2.png
NVIDIA 还将其性能与Apple的M2 Ultra(72核)进行了比较,后者的基本价格为5000美元。 此系统使用CoreML模型每分钟仅输出7张影像。 同时您可以以相同的预算建立有两个GeForce RTX 4090 GPU的非常高阶系统。

该公司宣布TensorRT现已在WebUI中提供(自动 1111),并且可以从 GitHub.com/NVIDIA 下载。

(0)
打赏 微信扫一扫 微信扫一扫

相关推荐

发表评论

登录后才能评论