一眼看懂
封面预览
论文旨在解决机器人操作领域中策略泛化能力与执行效率两大核心挑战。
- 论文旨在解决机器人操作领域中策略泛化能力与执行效率两大核心挑战。
- 现有双系统视觉-语言-动作(VLA)方法将系统分离,限制了快速执行系统(System 1)充分利用慢速推理系统(System 2)中VLM的预…
- 提出了Fast-in-Slow (FiS) ,一种统一的双系统VLA基础模型,将System 1执行模块嵌入到基于VLM的System 2内部…
Card 01
研究单位
研究单位
- The Chinese University of Hong Kong
- Peking University (State Key Laboratory of Multimedia Information Processing, School of Computer Science)
- AI2Robotics
- Beijing Academy of Artificial Intelligence (BAAI)
Card 02
论文概述
论文概述
- 论文旨在解决机器人操作领域中策略泛化能力与执行效率两大核心挑战。
- 现有双系统视觉-语言-动作(VLA)方法将系统分离,限制了快速执行系统(System 1)充分利用慢速推理系统(System 2)中VLM的预训练知识。
- 提出了Fast-in-Slow (FiS) ,一种统一的双系统VLA基础模型,将System 1执行模块嵌入到基于VLM的System 2内部,通过部分参数共享实现无缝协作。
Card 03
核心贡献
核心贡献
- 提出了 FiS-VLA 统一双系统架构,在保持System 2完整推理能力的同时,将其最终Transformer模块重新用作System 1执行模块。
- 为System 2和System 1设计了异构模态输入与异步运行频率,System 2处理低频的2D图像和语言指令,System 1处理高频的机器人状态、2D图像和3D点云。
- 提出了双感知协同训练策略,通过扩散去噪目标优化System 1的动作生成,同时通过自回归下一词预测目标保持System 2的推理能力。
- 模型在仿真和真实世界任务中取得了SOTA性能,并实现了高达117.7 Hz的控制频率。
Card 04
方法描述
方法描述
- 模型基于Prismatic VLMs架构初始化,采用7B参数的LLaMA2作为LLM主干。
- System 2:保留完整的VLM进行高层次语义理解与推理,输入低频的2D图像和语言指令。
- System 1:重用LLM的最后几层Transformer块作为执行模块,输入高频的机器人状态、2D图像和通过轻量级3D分词器编码的点云。
- 采用扩散模型生成连续动作序列,并通过异步采样训练来协调两个系统的运行频率。
Card 05
数据集与资源
数据集与资源
- 预训练数据集:整合了Open X-Embodiment、DROID、ROBOMIND等开源数据集,包含超过860K条机器人轨迹。
- 微调数据集:使用RLBench仿真数据(10个任务,每任务100条轨迹)和自收集的真实世界数据。
- 模型参数:基于7B参数的LLaMA2。
- 计算资源:实验在NVIDIA 4090 GPU上进行。
Card 06
评估与结果
评估与结果
- 仿真基准:在RLBench的10项任务上进行评估,平均成功率比此前最佳方法高出8%。
- 真实世界实验:在单臂和双臂机器人上测试,平均成功率比基准方法高出11%。
- 控制频率:在NVIDIA 4090 GPU上,当动作块设置为8时,实现了117.7 Hz的高频控制。
- 泛化能力:展现出对未见物体、复杂背景和不同光照条件的强泛化能力。