通才经纪人

我们应用类似的方法来构建超越文本输出的通才代理。 Gato 是一个多面手代理,可以执行多个任务,以不同的模式和各种实施例。 具有相同权重的相同网络可以播放 Atari 和字幕图像。 它还可以聊天、使用机械臂堆叠积木等等。

在 Gato 的训练阶段,来自各种任务和模式的数据由 Transformer 神经网络进行序列化、批处理和处理,类似于大型语言模型。 Gato 掩盖了损失,因此它只能预测动作和文本目标。

部署 Gato 时,演示或问题等提示将被标记化并形成初始序列。 然后环境产生初始观察,该观察被标记化并添加到序列中。 Gato 一次对动作向量进行自回归采样一个标记。

来源和详细信息:
https://www.deepmind.com/publications/a-generalist-agent

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注