Google新的BC-Z系统在经过100种范例任务训练后,便有能力解决未在训练任务中见过的全新任务
谷歌新的机器人研究,训练了一个称为BC-Z的系统,让机器人可以在经过一连串训练后,具有解决陌生任务的能力。 研究人员以100种任务来训练BC-Z系统,并且使用28种未出现在训练中的新任务来考验BC-Z,结果BC-Z能够成功完成其中24个任务,研究人员认为简单的模仿学习,就可使机器人具泛化能力,零样本解决新任务。
研究人员提到,要实际应用在真实世界的机器人,难免需要解决新的用户指令,或是处理训练过程没有看过的状况,因此机器人除了要能够在各种情况下执行多项任务外,还要能够根据人类用户的要求解决新任务,即便机器人过去没有针对这些任务,进行明确的训练。
要机器人完成全新的任务指令,目前这方面的研究进展仍很少,研究人员表示,这类问题很困难,因为机器人除了需要理解新指令,还必须要在没有任何训练数据的情况下完成任务,而且当机器人需要同时泛化多个轴向的问题时,像是要在不同的场景以及物体位置执行任务,情况变得更加复杂。
谷歌研究人员为此开发了BC-Z系统,期望让机器人能泛化解决未经训练的任务,该系统具有两个重要的部分,分别是涵盖100种任务的大规模示范资料集,另外则是以语言和视频作为任务指令条件的神经网络政策。
要机器人泛化解决一项新任务,比保留部分训练任务的泛化困难的多,研究人员提到,他们希望机器人具有更多的泛化能力,而这需要使用不同且大量的资料进行训练。 人工操作员通过虚拟现实头戴装置,远程操作机器人收集数据,操作员纪录每个任务的完整演示,接着一旦机器人学习了初始政策,便会在监督下部署该策略,当机器人犯错或是卡住,操作员则进行干预,并且示范一次正确的操作。 操作员使用这个方法,总共收集了100种任务。
这种结合示范和干预的训练范例收集方式,在实验中证明,能有效减少错误提高效能,与只仰赖人工范例的方法相比,这种新的数据收集策略能获得2倍效能。
在收集完所有100种任务后,研究人员使用这些数据训练神经网络政策,以便将相机图像的朝向和方向,对应至机器人手臂和爪子,而且因为要让这些政策能够解决100个训练任务以外的新任务,研究人员还对各任务输入描述,包括语言命令的形式,以及人工操作任务的视频。

藉由在100个任务中训练政策,并根据描述调整政策,研究人员成功让BC-Z系统能够解释和完成新指令。 研究人员提到,语言模型能够翻译拿起杯子和推碗这两个动作,该模型也应该能正确翻译推杯子,而且语言编码器的组合泛化能力,也能够转移解决机器人的问题。
即便在训练中,只有机器手臂拿起葡萄做其他事,以及将其他物体放进红色碗中两种任务,而且在过程,葡萄也未曾和红色碗出现在同一个场景中,但在解决新任务实验中,机器人可以正确地将葡萄放进红色碗里(下图)。

研究人员强调,神经网络需要正确解释指令,并在视觉上辨识该指令相关的物体,还要忽略场景中的其他噪声,将解释后的指令和感知,转化为机器人动作空间,这个过程非常困难。 但机器人在经过100个范例任务训练后,能够成功完成研究人员所设定的28个新任务中的24个,成果比研究人员预期的还要好,并且证明了自然语言模型,不仅可以提供机器人灵活的输入界面,预训练的语言表示,还可以给予下游政策新的泛化能力,将不曾见过的物体组合在一起。
