NVIDIA Research通过人工智能,在一瞬间将2D平面照片变成3D立体场景

image003.jpg

Instant NeRF 神经渲染模型能在几秒钟内学习高分辨率的 3D 场景内容,并在几毫秒内渲染出该场景的图像

当人们在 75 年前使用宝丽来 (Polaroid ) 相机拍摄出世界上第一张实时成像照片时,便是一项以逼真 2D 影像迅速捕捉 3D 世界画面的创举。 时至今日,人工智能(AI)研究人员反将此作法倒转过来,亦即在几秒钟内将一组静态影像变成数位3D场景。

这项称为逆向渲染 (inverse rendering) 的过程,利用 AI 来预估光线在真实世界中的表现,让研究人员能利用从不同角度拍摄的少量 2D 影像来重建 3D 场景。 NVIDIA Research 团队开发出一种方法,几乎能在瞬间内完成这项任务,是同类中首批将超高速神经网络训练与快速渲染相结合的模型之一。

NVIDIA 将该方法应用在一种称为神经辐射场 (Neural Radiance Fields;NeRF) 的热门新技术上,创造出 Instant NeRF 这项当今渲染速度最快的 NeRF 技术,在某些情况下速度可以提升超过 1,000 倍。 用数十张静态照片,便能在几秒钟内完成训练模型,再加上拍摄角度的数据,在几十毫秒内即可渲染出生成的 3D 场景。

NVIDIA 绘图研究部门副总裁 David Luebke 表示:「如果说多边形网格这样的传统 3D 表现方式像是向量图形,那么 NeRF 就像是点阵图,它们会密集捕捉光线从物体或场景中辐射出来的方式。 从这个意义上来说,Instant NeRF对3D的重要性,不亚于数码相机和JPEG压缩技术对2D摄影的重要性,其可大幅提升3D捕捉与分享的速度、便利性和范围。」

在 NVIDIA GTC 大会议程中展示的 Instant NeRF,可用于为虚拟世界创建化身或场景、以 3D 方式拍摄视频会议的与会者以及所处环境,或是为 3D 数字地图重建场景。

NVIDIA Research 团队为了向早期的宝丽来照片致敬,重现了安迪. 沃荷 (Andy Warhol) 拍摄实时成像照片的经典照片,利用 Instant NeRF 将其转变为 3D 场景。

NeRF 是什么?

NeRF 会依照输入的一组 2D 影像,使用神经网络来表现及渲染逼真的 3D 场景。

收集资料再投入 NeRF 的做法,有点类似红毯上的摄影师试着从各个角度拍摄名人身上的华丽服装,而神经网络需要有从场景四周多个位置拍摄的数十张照片,以及每张照片的相机位置等资料支持。

场景里的人或物体若移动,拍摄照片的速度则是愈快愈好。 要是在拍摄 2D 影像的过程中,人或物体有过多的移动,AI 便会生成模糊的 3D 场景。

基本上,NeRF 在此时会填补空白处,训练一个小型神经网络,预测从 3D 空间中任何一点朝着任意方向辐射出的光线颜色来重建场景。 这项技术甚至能解决当某些照片里的物体被其它照片中的柱子等障碍物遮住时所产生的遮挡问题。

利用 Instant NeRF 将渲染速度提升 1,000 倍
人类天生就会按照一部分所见画面来估算物体的深度和外观,但这对 AI 来说却是一项高难度的任务。

根据画面的复杂性和分辨率,以传统方法建立一个3D场景须花费数小时甚至更长的时间。 而利用 AI 则可加快处理速度。 早期开发的 NeRF 模型在几分钟内便能渲染出无伪影的清晰场景,但仍需数小时进行训练。

然而,Instant NeRF却大幅缩短了渲染时间,其以英伟达所开发出的Multi-resolution Hash Encoding技术为基础,而这项经过优化调整的技术可以在NVIDIA GPU上高效运行。 研究人员通过一种新的输入编码法,可以利用一个高速运行的微型神经网络来创造高质量的结果。

研究人员使用 NVIDIA CUDA 工具套件  Tiny CUDA 神经网络 库来开发此模型。 这个小巧的神经网络可以在单一英伟达 GPU 上进行训练和运行,并在搭载英伟达 Tensor 核心 的显卡上有着最高的运行速度。

这项技术可以用于拍摄物理环境物体的 2D 照片或视频,以训练机器人和自动驾驶车来了解这些物体的大小及形状。 建筑业与娱乐产业也能使用这项技术,快速为实体环境建立数字画面,创作者便能用它来进行修改和构建。

除了 NeRF,NVIDIA 的研究人员也在探索如何将这种输入编码技术用于加速处理多项 AI 领域的难题,包括强化学习、语言翻译和通用的深度学习算法。

欲了解更多关于英伟达最新研究成果的相关信息,请观看下方英伟达执行长黄仁勋在 GTC 大会主题演讲的回放视频。

(0)
打赏 微信扫一扫 微信扫一扫

相关推荐

发表回复

登录后才能评论