返回列表 VLA / Vision-Language-Action 每日论文卡
Asynchronous Fast-Slow Vision-Language-Action Policies for Whole-Body Robotic Manipulation
论文提出 DuoCore-FS,一种真正异步的快慢双系统视觉-语言-动作(VLA)框架,用于全身机器人操控

论文详情

Asynchronous Fast-Slow Vision-Language-Action Policies for Whole-Body Robotic Manipulation

2025-12-23 · 原文 · 翻译 · 2512.20188

论文提出 DuoCore-FS,一种真正异步的快慢双系统视觉-语言-动作(VLA)框架,用于全身机器人操控 解决现有VLA系统中VLM推理速度慢限制控制频率的问题,实现高频动作生成与丰富语义推理的解耦 针对全身操控任务(25自由度、动态视角变化)对实时性和控制稳定性的高要求

5 分钟读完 6 张阅读卡 Astribot Team (astribot_ai@astribot.com)
一眼看懂 封面预览

论文提出 DuoCore-FS,一种真正异步的快慢双系统视觉-语言-动作(VLA)框架,用于全身机器人操控

  • 论文提出 DuoCore-FS,一种真正异步的快慢双系统视觉-语言-动作(VLA)框架,用于全身机器人操控
  • 解决现有VLA系统中VLM推理速度慢限制控制频率的问题,实现高频动作生成与丰富语义推理的解耦
  • 针对全身操控任务(25自由度、动态视角变化)对实时性和控制稳定性的高要求
Card 01 研究单位

研究单位

  • Astribot Team (astribot_ai@astribot.com)
Card 02 论文概述

论文概述

  • 论文提出 DuoCore-FS,一种真正异步的快慢双系统视觉-语言-动作(VLA)框架,用于全身机器人操控
  • 解决现有VLA系统中VLM推理速度慢限制控制频率的问题,实现高频动作生成与丰富语义推理的解耦
  • 针对全身操控任务(25自由度、动态视角变化)对实时性和控制稳定性的高要求
Card 03 核心贡献

核心贡献

  • 真正并行异步的快慢执行架构:慢系统(1-3 Hz)进行语义推理,快系统(25-30 Hz)生成连续全身动作,两者完全并行运行
  • 桥接缓冲区(Bridge Buffer)机制:存储VLM产生的语义和推理表征,实现快慢系统间的异步信息传递
  • 全身动作分词器(Whole-Body Action Tokenizer):基于RVQ-VAE的紧凑统一表示,支持25自由度全身关节配置
  • 端到端联合训练:快慢系统同时优化,保持语义-控制对齐,无需手工设计模块
  • 跨时间尺度协同训练策略:模拟真实部署中的异步时序特性,消除训练-推理不匹配
Card 04 方法描述

方法描述

  • 慢系统:使用3B参数VLM(如PaliGemma-3B、Qwen2.5-VL)生成语义隐状态、推理特征和可学习的融合查询
  • 快系统:基于Transformer的扩散策略解码器,以Pi0-small风格建模条件向量场,生成连续动作块
  • 桥接缓冲区:可微分接口,存储指令嵌入和融合查询嵌入,支持端到端训练
  • 动作分词:将29维动作分解为位置、旋转(SO(3))、夹爪三个流,分别用1D卷积编码器和RVQ量化
  • 推理加速:采用Jacobi风格并行解码策略降低慢系统延迟
Card 05 数据集与资源

数据集与资源

  • 数据集:1,780条演示轨迹(10.22小时),来自商业爆米花售卖场景,包含长程爆米花舀取任务和短程饮料柜关门任务
  • 模型规模:慢系统采用3B参数VLM(基于PaliGemma-3B的π0-FAST),快系统为轻量化扩散策略网络
  • 训练资源:第一阶段24张NVIDIA H100 GPU训练30轮;第二阶段联合训练12轮
  • 推理平台:NVIDIA RTX 4090 GPU,快系统编译为TensorRT BF16格式
Card 06 评估与结果

评估与结果

  • 评估基准:真实世界Astribot S1平台(双臂7-DoF + 4-DoF躯干 + 2-DoF头部 + 3-DoF移动底座)
  • 主要指标:各子任务条件成功率、整体任务成功率、推理频率(Hz)
  • 关键结果

- 推理速度DuoCore-FS达到32.3 Hz,约为π0(12.5 Hz)的3倍,慢系统单独仅3.27 Hz

- 分布内任务:整体成功率90%(vs. π0的85%),在保持精度的同时实现显著加速

- 分布外泛化:整体成功率50%(vs. π0的10%),慢系统的自回归推理增强泛化能力

- 语言遵循能力:42.9%成功率(vs. π0的14.3%),慢系统的token-by-token推理提升指令理解

- 异常场景鲁棒性:95.8%检测恢复成功率(vs. π0的91.7%)