RT-1:Robotics Transformer for Real-world Control at Scale

Date:2022-12-14

论文链接:https://arxiv.org/abs/2212.06817

原文代码仓库:google-research/robotics_transformer

模型使用数据集:gresearch – 存储桶详情 – Cloud Storage – Google Cloud Console

提出具有高容量结构(with high-capacity architectures)的Vision-Language-Action(VLA)多模态大模型Robotics Transformer,结合真实机器人执行实际任务时所收集到的大规模数据(all of the diverse, robotic data:图像/视觉-语音/语言-行为),进行开放式的任务无偏训练(open-ended task-agnostic training),从而提高模型的可扩展性,但模型充分利用大规模数据集的能力仍然有限。

intro

Background

  • 在计算机视觉(CV)、自然语言处理(NLP)或语音识别等下游任务中,通过在多样化且任务无偏的大型数据集上进行预训练,现代机器学习模型已经可以在零样本(Zero-Shot)学习与在特定任务的小数据集上进行微调(迁移学习)中有良好的表现;
  • 这种技术在机器人中仍未得到广泛运用,同时由于真实世界中的机器人数据难以收集,需要对其可行性进行验证,重点需要关注模型的泛化与微调能力。

Model

工作平台:移动机械手 from Everyday Robots——7自由度手臂+两指夹持器+移动基座

机械臂

工作模式:接收图像短序列和自然语言指令->输出离散化的基底和手臂动作供机器人在每个时间步执行(闭环控制),直到产生终止动作或用完预设时间步数

动作包括手臂运动的七个维度(x、y、z、roll、pitch、yaw、抓持器打开)、底座运动的三个维度(x、y、yaw)和一个额外的离散维度,用于在三种模式之间切换:控制手臂、控制基座或终止。

参数规模:35M

处理频率:3Hz——100ms推理时间 + 280ms执行延迟

基本架构:

基于Transformer——将高维输入和输出(包括相机图像、文本指令和电机命令)编码成紧凑的token表示供Transformer使用,以高效推理与实时控制

模型架构

  • 图像和指令(文本)的处理(tokenization):

    • 总体上采用基于 ImageNet 数据集预训练的卷积神经网络 EfficientNet-B3 作为基本框架,在此基础上嵌入预训练的语言编码器进行条件化,以提取与任务指令相关的图像特征
    • 参数规模:16M
    • 架构:26层【MBConv模块+FiLM层】
    • 文本:文本输入Universal Sentence Encoder->嵌入EfficientNet中添加的FiLM层(将产生FiLM仿射变换的密集层(fc和hC)的权重初始化为零,允许FiLM层最初作为恒等映射并保留预训练权重的功能,防止破坏中间激活)
    • 图像:输入6张300 * 300的3通道图像->经由CNN输入9 * 9 * 512空间特征图(每张图像)->展平为81个视觉标记
  • Token Learner 模块:

    • 为加速推理,设计该元素注意力模块用于压缩所需注意的tokens数量(81->8)
    • 允许基于指令信息软选择图像tokens,只传递重要的token组合给后续的Transformer层
    • 参数规模:34k
  • Transformer :

    • 仅有解码器的序列模型
    • 参数规模:19M
    • 架构:8个自注意力层
    • 输入:每张图像8tokens * 6张输入图像->48个总tokens(添加位置编码)
    • 输出:动作tokens(7-dim arm movement + 3-dim base movement + 1-dim 状态切换,共11个维度;对于每个维度,在其变量范围内均匀离散化为256个bin)
  • 损失函数:标准分类交叉熵熵目标与因果掩码

模型架构

Data

数据规模:用时17个月,通过13个机器人采集了130k+ episodes ,包含700+指令

工作场景:办公室厨房场景(2个真实办公室厨房场景Kitchen1、Kitchen2+1个根据真实场景Kitchen1建模的训练环境)

场景

物品环境

阅读更多