2023年谷歌人工智能专题分析：机器人大模型引领者

首页>焦点 > 正文

2023-08-29 14:06:35

来源：中信建投证券

谷歌AI、Deepmind两条路线引领机器人模型发展

在机器人模型领域，Google自身的AI团队及Deepmind分别沿两条技术路线探索机器人模型，近年来发布过多篇引领性的文章。本文将回顾 Google两大团队近年来在机器人模型领域的核心进展，其技术路线的异同点，梳理其中的发展脉络。 Deepmind：延续Gato的模型架构，2023年6月，Google DeepMind推出可以自我改进的机器人AI智能体，名为“RoboCat” 。谷歌AI团队：从RT-1开始，到可以操作机器人的大语言模型PaLM-E，再到2023年7月融合此前的RT-1和PaLM-E，推出的VLA模型RT-2，真正实现了将视觉、语言、机器人操作融合到一个模型中。

谷歌AI·DeepMind：深度学习浪潮中的引领者

(资料图片)

DeepMind Technologies 是 Alphabet Inc. 的英国人工智能子公司和研究实验室。DeepMind成立于 2010 年 9 月，于 2014 年被 Google 收购。该公司总部位于伦敦，在加拿大、法国、美国设有研究中心。2015年，它成为谷歌母公司Alphabet Inc.的全资子公司。以发展通用人工智能（AGI）作为目标，持续研发革命性技术引领人工智能发展。于2016年推出的AlphaGo是DeepMind的第一个代表作，其让全世界的人们第一次直观感受到AI的强大之处，成为AI技术走向新一轮高峰的重要标志，也进一步推动了第三轮AI发展的浪潮。自 AlphaGo开始，DeepMind接连推出了AlphaZero（下棋）、AlphaFold（蛋白质结构预测）、AlphaCode（代码写作）等AI领域内的重要技术成果。这些成果不仅发表在顶级的学术期刊上，并且也收到了业界的广泛关注和认可。 DeepMind在智能体（Agent）方面有着深厚的积累，是谷歌机器人模型研发的中坚力量。

谷歌CV：将Transformer引入CV领域

通过ViT将Transformer引入CV 领域：尽管Transformer网络结构在NLP领域展现出了强大的性能和能力，但在ViT之前，其在CV领域中的效果仍远不如CNN网络结构。Google在2021年推出了ViT，其通过将图片划分为不同的部分的方式构建出了类似于文本的序列输入，而后构建出相应的部分的向量，进而可以通过Transformer结构对图像特征进行提取和分析。最终在大规模的训练数据集中展现出相较于 CNN结构的模型更加强大的性能。其提出标志着Transformer模型在CV领域的应用落地。进一步探索在CV领域中预训练大模型的能力边界：2021年的研究中，其中最大版本的ViT模型（ViT-Huge）参数量为6.32亿。2023年4 月，谷歌在模型架构方面进行了升级，推出了ViT的220亿参数量的版本（ViT（22B））。和GPT-2到GPT-3的变化趋势相似，其具备了强大的Zero-shot图像分类泛化能力（如下图所示，在两个下游任务中都比小参数模型更强大）。同时引入了人类反馈来使模型的能力与人类的目标相对齐，并且成功将模型公平性和稳健型控制在了一个合理的范围。 Google在CV领域的强大能力为其机器人模型的视觉理解能力提供了扎实的能力底座。

Gato：具备不同场景能力的多模态通用智能体

DeepMind在2022年5月12日推出了多模态通用智能体（Agent），名为“Gato”。模型参数量：11.8亿/3.64亿/7900万。模型架构：将控制任务实现序列化，放入到统一的模型框架（Transformer）中进行处理。如右图黄框所示，紫色和淡黄色的token代表环境情况，深黄色的token代表对与机械臂的相关操作，训练数据中包含了初始环境的情况以及每一次的机械臂操作以及相应的环境变化组成的序列，通过Transformer架构对这一序列的学习实现，让“Gato”具备了解决具体场景中复杂任务的能力。训练数据集：其中包括控制任务和视觉与语言数据集，共604个任务。控制训练数据集占比较高，达85.3%，共596个任务，6300万个片段， 15亿个token。控制任务中包括游戏任务和模拟/现实机器人操控任务，其中游戏类任务的占比较高，机器人操控任务，尤其是现实场景中的机器人操控任务占比较低。

模型能力：能够完成丰富种类的任务，在模拟环境和传统强化学习任务中取得了较好的性能表现，机器人相关任务性能有较大提升模拟任务中，有450多项能达到专家水平的50%，其中在DM LAB、BabyAI、Meta-World等经典的强化学习数据集中取得了较为优秀的性能表现，标准化后的分数分别为91.4、93.2、87.0，而在模拟场景的机械臂RGB方块堆叠任务中之取得了58.0的标准化分数，性能有待进一步挖掘。现实任务中（物块堆叠），Gato在训练集覆盖的任务中达到了75.6%的成功率，而在泛化能力测试的任务中达到了50.2%的成功率，相较于前代模型模型性能有所提升。我们认为，Gato实现了智能体完成任务广度的提升，并且拓展到了机器人控制领域中，但“通用性”和“智能性”仍有较大提升空间，其模型架构和控制任务数据的序列化方式为后续模型的发展奠定了基础。

RT-1：基于Transformer打造现实世界的多任务机器人控制模型

Google在2022年12月推出了适用于机器人领域的Transformer模型，Robotics Transformer 1（简称RT-1）。模型参数量：3500万（FiLM部分1600万，Transformer部分1900万）。模型架构：RT-1 将文本指令和对应图像作为输入，通过预训练的FiLM EfficientNet模型将其转化为token，再通过TokenLearner进行压缩，最后通过Transformer层将其输出为三个维度的机器人操作指令（Mode、Arm、Base），其中Mode用于控制机器人不同模式之间的切换， Arm用于控制机器人手臂进行不同的动作，Base用于控制机器人的移动。

训练数据集：7个大类的744个任务，共13万个现实环境中的机器人演示片段。为了让RT-1得到充分的训练，研究人员利用13个机器人（来自Everyday Robots），历时17个月收集了7大类，744个任务，共13万个片段的机器人相关数据。这一过程中，由研究员对机器人进行操控，将相应的数据进行收集后，对相应的机器人执行指令进行注释而构成了最终的数据集，其中包含了拾取、移动、打开、关闭、放置等多种技能以及相关的方位词（如Near、Upright等）。

PaLM-E：多模态具身视觉语言模型

谷歌和柏林工业大学的团队在2023年3月推出多模态具身视觉语言模型 (VLM) — PaLM-E。模型架构：PaLM-E具有5620亿参数量，且将多模态大模型拓展到机器人控制领域。相较于之前的多模态模型，其不仅可以理解和生成图像/ 语言，如下左图所示，输入可以为文本、图像等不同模态信息，还能够融合不同模态的知识进而生成RT-1中的特定机器人指令（基于自然语言）。模型能力：PaLM-E基于丰富的多模态模型知识对任务信息进行理解和处理，并分解成特定的机器人指令，RT-1将特定的机器人指令转化为对应的机器人控制指令，在此合作下，模型可以将较为复杂的任务分解成简单的步骤进行完成，并且具备了更强的抗干扰性和知识能力。我们认为，PaLM等语言大模型丰富的知识、强大的逻辑推理能力等优势的成功引入将助力Google机器人模型进一步智能化，PaLM-E便是在这一思路下的重要里程碑。

RoboCat：具备自我改进能力的新一代AI智能体

Google DeepMind在2023年6月20日推出了新一代的机器人AI智能体，名为“RoboCat”。模型参数量：11.8亿/3.64亿。训练数据：共130类任务，超过400万个机器人片段。从数据生成方式来看，其中大部分来自强化学习智能体，有309.2万个片段，纯人类演示则有77.9万个片段，剩余部分则为三种数据生成方式混合，此外，本次训练数据中还用到了不同的机械臂进行训练。 “RoboCat”具备自我改进、自我提升的能力。在第一轮训练后，“RoboCat”会进入“自我完善”的训练周期，其中包含以下五个步骤：1）使用由人类控制的机械臂收集 100-1000 个新任务或新机器人的演示。2）在这个新任务上微调模型，创建一个专门的衍生智能体（Agent）。3）衍生智能体（Agent）对这个新任务/新机器人进行平均 10,000 次练习，生成更多训练数据。4）将演示数据和自生成数据合并到模型现有的训练数据集中。5）在新的训练数据集上训练新版本的模型。这一自我改进、自我完善的流程为“RoboCat”提供了更为丰富的训练数据。

RT-2：将互联网图文知识应用于机器人控制的VLA模型

Google DeepMind在2023年7月28日推出VLA模型RT-2。 RT-2是一种结合了视觉、语言和动作来控制机器人的模型，模型从图文数据集中学习认知一个物体和与之相关的事情，同时，模型从机器人数据集中学习如何在具体任务完成机器人控制，总的来说，VLA不仅可以学习相关知识而且可以将这些知识直接转化为机器人控制的指令。模型参数量：550亿/120亿/50亿。训练数据集：RT-2的数据集包括两个部分，其一是来自互联网的图像文本数据（Webli数据集），这部分数据有10亿个来自109种语言的图像文本对，其二是机器人控制数据集，这部分数据主要沿用了RT-1中收集的训练数据集，机器人数据在整体数据中的占比为50%（PaLI-X） /66%（PaLM-E）。

可进行思维链推理的RT-2能够回答更复杂的命令。思维链推理可以将困难的任务分解成多个小任务来解决。思维链推理的实现是通过引入一个中间状态来实现的。在每个步骤中，模型将当前的观察结果与先前的状态进行连接，并将连接后的结果输入到模型中进行处理。模型可以在处理当前的观察结果时，同时考虑到先前的观察结果，从而实现了思维链推理。通过这种方式，模型可以进行多阶段的语义推理，使其能够更好地理解和解释环境中的信息，并做出更准确的决策和行动。

差异路线引领发展，团队整合协同革新

2023年4月20日，Google宣布将Google Brain和DeepMind两大世界级AI实验室合并，成立Google DeepMind部门，以谷歌的计算资源作为后盾，加速人工智能研发和应用的推进。回顾谷歌机器人模型在过去两年间的发展，Google Brain和DeepMind两个团队从两个不同的切入点出发逐步推进AI机器人模型发展， DeepMind团队从智能体（Agent）的角度出发不断提升机器人能力，因此RoboCat中的训练数据大多来自强化学习，模型参数量控制表现更为优秀，能够实现更高频率的机器人控制；而Google Brain则尝试将大语言模型应用到机器人的控制领域，因此RT-2的模型参数量更大，在泛化能力、知识和推理能力方面有更强的表现。随着两个团队进一步合并，深化数据、模型等方面的协同合作，谷歌的机器人模型进展有望进一步加速，值得持续跟踪关注。

谷歌机器人模型进展总结

训练数据呈现出数据量持续扩大，数据来源逐渐丰富，覆盖的任务种类持续扩张的发展趋势；模型算法层面上，Transformer成为主要的解决方案。在大语言模型结合的路线中模型参数量有所扩大，但是也面临着计算速度不足导致机器人控制频率较低的问题。展望未来，高质量数据集的收集、边缘侧算力的发展和更高效的模型架构创新等都是后续机器人模型发展中需要密切关注的方向。

报告节选：

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）

标签：

THE END

免责声明：本文系转载，版权归原作者所有；旨在传递信息，不代表热讯制鞋网的观点和立场。