Google公开最强游戏AI系统SIMA:已会600种游戏技能,可听从人类指示、什么游戏都能上手的神队友

谷歌公开最强游戏AI系统SIMA:已会600种游戏技能,可听从人类指示、什么游戏都能上手的神队友

谷歌公开了新开发的AI系统SIMA(Scalable Instructable Multiworld Agent),可以听从人类的指示实时操纵游玩游戏。

这是由 谷歌 的 Deep Mind 团队所开发,根据官网表示,电玩游戏是人工智能 (AI) 系统的重要试验场。 与现实世界一样,游戏是丰富的学习环境,具有响应灵敏、即时的设置和不断变化的目标。

过去,DeepMind与 Atari 游戏的合作,AI 后来又进展到以人类特级大师级别玩《星海争霸 II》的 AlphaStar 系统,谷歌 DeepMind 在人工智能和游戏领域拥有悠久的历史。

现在最新发布的 SIMA(Scalable Instructable Multiworld Agent )可以说是AI玩游戏这个系统的里程碑,因为他们将过去只用在单一游戏的AI系统,转向为通用的,可以受到人类指导的AI智能代理系统。

SIMA是一种用于 3D 虚拟设置的通用 AI 代理。 DeepMind表示,他们与游戏开发商合作,对 SIMA 进行各种视频游戏的培训。 这项研究标志着AI智能体首次证明它可以理解广泛的游戏世界,并像人类一样遵循自然语言指令执行其中的任务。

这项工作并不是为了获得高分。 对于人工智能系统来说,学习玩一款游戏就是一项技术壮举,但学习在各种游戏设置中遵循指令可以为任何环境解锁更有用的人工智能代理。

谷歌 表示「我们的研究展示了如何通过语言界面将高端人工智能模型的功能转化为有用的、现实世界的动作。 我们希望 SIMA 和其他代理商研究能够使用游戏作为沙盒,以便更好地了解人工智能系统如何变得更有帮助。 」

真正的「从游戏中学习」

为了将 SIMA 应用于多种环境,DeepMind与游戏开发商建立了许多合作伙伴关系以进行研究。 他们表示,一共与八家游戏工作室合作,在九种不同的电玩游戏上训练和测试 SIMA,例如Hello Games 的《No Man’s Sky》和 Tuxedo Labs 的《Teardown》

SIMA 产品组合中的每款游戏都开启了一个新的互动世界,包括一系列可供学习的技能,从简单的导航和菜单使用,到采矿资源、驾驶宇宙飞船或制作头盔。

DeepMind表示,他们还使用了四个研究环境:包括使用Unity建造的一个名为「建造实验室」的新环境,以测试他们的对象操作和对物理世界的直观理解。

通过学习不同的游戏世界,SIMA 捕捉到如何与游戏行为连结。 「我们的第一种方法是在我们的投资组合中记录游戏中的成对人类玩家,其中一名玩家观看并指导另一名玩家。 我们也让玩家自由地玩,然后重新观察他们所做的事情并记录导致他们进行游戏操作的指示。 」

SIMA 包括预先训练的视觉模型和一个包含内存并输出键盘和鼠标操作的主模型。▲ SIMA 包括预先训练的视觉模型和一个包含内存并输出键盘和鼠标操作的主模型。

SIMA:多功能人工智能代理

SIMA 是一种人工智能代理,可以感知和理解各种环境,然后采取行动来实现指示的目标。 它包括一个专为精确图像语言映射而设计的模型和一个预测屏幕上接下来会发生什么的视频模型。 我们根据 SIMA 产品组合中特定于 3D 设置的训练数据对这些模型进行了微调。

人工智能代理不需要读取游戏的代码,也不需要自定义的 API。 它只需要两个输入:屏幕上的图像以及用户提供的简单的自然语言指令。 SIMA 使用键盘和鼠标输出来控制游戏的中心角色来执行这些指令。 这个简单的接口是人类使用的,这意味着 SIMA 可以与任何虚拟环境进行互动。

SIMA 的当前版本通过 600 项基本技能进行评估,涵盖导航(例如「左转」)、对象互动(「爬梯子」)和菜单使用(「开启地图」)。 官方表示「我们已经训练 SIMA 执行可在大约 10 秒内完成的简单任务。 」

SIMA的评估涉及600项基本技能,涵盖导览、对象互动和菜单使用。▲ SIMA的评估涉及600项基本技能,涵盖导览、对象互动和菜单使用。

跨游戏等泛化

谷歌表示,训练的结果证明,受过多种游戏训练的智能体比只学习如何玩一种游戏的智能体更好。

在评估中,SIMA 智能体在产品组合中的 9 个 3D 游戏上进行训练,其表现明显优于仅在每个游戏上进行训练的所有专业智能体。 更重要的是,平均而言,在除一款游戏之外的所有游戏中接受过训练的智能体在该看不见的游戏中的表现几乎与专门针对该游戏进行过训练的智能体一样好。 重要的是,这种在全新环境中运作的能力凸显了 SIMA 超越其训练的泛化能力。 这是一个很有希望的初步结果,但是 SIMA 需要进行更多的研究才能在可见和未见的游戏中达到人类水平。

结果还表明 SIMA 的性能依赖于语言。 在控制测试中,智能体没有接受任何语言训练或指令,它的行为方式适当但漫无目的。 例如,代理可能会收集资源(这是一种常见行为),而不是按照指示走去。https://13a6817a9ea422d3305abea9e0a8c885.safeframe.googlesyndication.com/safeframe/1-0-40/html/container.html

评估了 SIMA 按照指令完成近 1500 个独特游戏内任务的能力,其中部分使用了人类评审。 作为我们的基准比较,我们使用环境专用 SIMA 代理的性能(经过培训和评估以遵循单一环境中的指令)。 将这种性能与三种类型的通用 SIMA 代理程序进行比较,每种代理程序都经过多个环境的训练。▲ 评估了 SIMA 按照指令完成近 1500 个独特游戏内任务的能力,其中部分使用了人类评审。 作为我们的基准比较,我们使用环境专用 SIMA 代理的性能(经过培训和评估以遵循单一环境中的指令)。 将这种性能与三种类型的通用 SIMA 代理程序进行比较,每种代理程序都经过多个环境的训练。

推动人工智能代理研究

谷歌表示,SIMA 的结果显示了开发新一波通用、语言驱动的人工智能代理的潜力。 虽然目前这只是早期研究,未来期待在更多训练环境中进一步建立 SIMA,并纳入更强大的模型。

随着将 SIMA 暴露在更多的训练世界中,可以期待它将变得更加通用。 通过更先进的模型,希望提高 SIMA 对高阶语言指令的理解和能力,以实现更复杂的目标。

最终,我们的研究正在建立更通用的人工智能系统和代理,这些系统和代理可以理解并安全地执行各种任务,从而对网络和现实世界中的人们有所帮助。

(0)
打赏 微信扫一扫 微信扫一扫

相关推荐

发表评论

登录后才能评论