论文提出 DuoCore-FS，一种真正异步的快慢双系统视觉-语言-动作（VLA）框架，用于全身机器人操控

论文详情

Asynchronous Fast-Slow Vision-Language-Action Policies for Whole-Body Robotic Manipulation

2025-12-23 · 原文 · 翻译 · 2512.20188

论文提出 DuoCore-FS，一种真正异步的快慢双系统视觉-语言-动作（VLA）框架，用于全身机器人操控解决现有VLA系统中VLM推理速度慢限制控制频率的问题，实现高频动作生成与丰富语义推理的解耦针对全身操控任务（25自由度、动态视角变化）对实时性和控制稳定性的高要求

5 分钟读完 6 张阅读卡 Astribot Team (astribot_ai@astribot.com)

一眼看懂封面预览

论文提出 DuoCore-FS，一种真正异步的快慢双系统视觉-语言-动作（VLA）框架，用于全身机器人操控

论文提出 DuoCore-FS，一种真正异步的快慢双系统视觉-语言-动作（VLA）框架，用于全身机器人操控
解决现有VLA系统中VLM推理速度慢限制控制频率的问题，实现高频动作生成与丰富语义推理的解耦
针对全身操控任务（25自由度、动态视角变化）对实时性和控制稳定性的高要求

Card 01 研究单位

研究单位

Astribot Team (astribot_ai@astribot.com)

Card 02 论文概述

论文概述

论文提出 DuoCore-FS，一种真正异步的快慢双系统视觉-语言-动作（VLA）框架，用于全身机器人操控
解决现有VLA系统中VLM推理速度慢限制控制频率的问题，实现高频动作生成与丰富语义推理的解耦
针对全身操控任务（25自由度、动态视角变化）对实时性和控制稳定性的高要求

Card 03 核心贡献

核心贡献

真正并行异步的快慢执行架构：慢系统（1-3 Hz）进行语义推理，快系统（25-30 Hz）生成连续全身动作，两者完全并行运行
桥接缓冲区（Bridge Buffer）机制：存储VLM产生的语义和推理表征，实现快慢系统间的异步信息传递
全身动作分词器（Whole-Body Action Tokenizer）：基于RVQ-VAE的紧凑统一表示，支持25自由度全身关节配置
端到端联合训练：快慢系统同时优化，保持语义-控制对齐，无需手工设计模块
跨时间尺度协同训练策略：模拟真实部署中的异步时序特性，消除训练-推理不匹配

Card 04 方法描述

方法描述

慢系统：使用3B参数VLM（如PaliGemma-3B、Qwen2.5-VL）生成语义隐状态、推理特征和可学习的融合查询
快系统：基于Transformer的扩散策略解码器，以Pi0-small风格建模条件向量场，生成连续动作块
桥接缓冲区：可微分接口，存储指令嵌入和融合查询嵌入，支持端到端训练
动作分词：将29维动作分解为位置、旋转（SO(3)）、夹爪三个流，分别用1D卷积编码器和RVQ量化
推理加速：采用Jacobi风格并行解码策略降低慢系统延迟

Card 05 数据集与资源

数据集与资源

数据集：1,780条演示轨迹（10.22小时），来自商业爆米花售卖场景，包含长程爆米花舀取任务和短程饮料柜关门任务
模型规模：慢系统采用3B参数VLM（基于PaliGemma-3B的π0-FAST），快系统为轻量化扩散策略网络
训练资源：第一阶段24张NVIDIA H100 GPU训练30轮；第二阶段联合训练12轮
推理平台：NVIDIA RTX 4090 GPU，快系统编译为TensorRT BF16格式

Card 06 评估与结果

评估与结果

评估基准：真实世界Astribot S1平台（双臂7-DoF + 4-DoF躯干 + 2-DoF头部 + 3-DoF移动底座）
主要指标：各子任务条件成功率、整体任务成功率、推理频率（Hz）
关键结果：

- 推理速度：DuoCore-FS达到32.3 Hz，约为π0（12.5 Hz）的3倍，慢系统单独仅3.27 Hz

- 分布内任务：整体成功率90%（vs. π0的85%），在保持精度的同时实现显著加速

- 分布外泛化：整体成功率50%（vs. π0的10%），慢系统的自回归推理增强泛化能力

- 语言遵循能力：42.9%成功率（vs. π0的14.3%），慢系统的token-by-token推理提升指令理解

- 异常场景鲁棒性：95.8%检测恢复成功率（vs. π0的91.7%）