返回列表 VLA / Vision-Language-Action 每日论文卡
DynamicVLA: A Vision-Language-Action Model for Dynamic Object Manipulation
提出 DynamicVLA,一个用于动态物体操作(dynamic object manipulation)的视觉-语言-动作(Vision-L…

论文详情

DynamicVLA: A Vision-Language-Action Model for Dynamic Object Manipulation

2026-01-29 · 原文 · 翻译 · 2601.22153

提出 DynamicVLA,一个用于动态物体操作(dynamic object manipulation)的视觉-语言-动作(Vision-Language-Action, VLA)模型框架,旨在解决机器人在处理运动物体时面临的感知-执行延迟问题 针对现有 VLA 模型在静态操作方面表现优秀,但在动态场景中因推理延迟导致感知与执行不同步的难题,提出三项关键技术设计 构建了 Dynamic Object Manipu…

7 分钟读完 6 张阅读卡 S-Lab, Nanyang Technological University(南洋理工大学 S-La…
一眼看懂 封面预览

提出 DynamicVLA,一个用于动态物体操作(dynamic object manipulation)的视觉-语言-动作(Vision-L…

  • 提出 DynamicVLA,一个用于动态物体操作(dynamic object manipulation)的视觉-语言-动作(Vision-L…
  • 针对现有 VLA 模型在静态操作方面表现优秀,但在动态场景中因推理延迟导致感知与执行不同步的难题,提出三项关键技术设计
  • 构建了 Dynamic Object Manipulation(DOM)基准,包含 200K 模拟场景 episodes 和 2K 真实世界…
Card 01 研究单位

研究单位

  • S-Lab, Nanyang Technological University(南洋理工大学 S-Lab 实验室)
  • 作者包括:Haozhe Xie(共同一作)、Beichen Wen(共同一作)、Jiarui Zheng、Zhaoxi Chen、Fangzhong Hong、Haiwen Diao、Ziwei Liu(通讯作者)
Card 02 论文概述

论文概述

  • 提出 DynamicVLA,一个用于动态物体操作(dynamic object manipulation)的视觉-语言-动作(Vision-Language-Action, VLA)模型框架,旨在解决机器人在处理运动物体时面临的感知-执行延迟问题
  • 针对现有 VLA 模型在静态操作方面表现优秀,但在动态场景中因推理延迟导致感知与执行不同步的难题,提出三项关键技术设计
  • 构建了 Dynamic Object Manipulation(DOM)基准,包含 200K 模拟场景 episodes 和 2K 真实世界 episodes,填补了动态操作领域大规模数据集的空白
Card 03 核心贡献

核心贡献

  • 紧凑的 0.4B 参数 VLA 模型:采用卷积视觉编码器(FastViT)进行高效空间压缩,使用 SmolLM2-360M 作为语言骨干,实现快速多模态推理
  • 连续推理(Continuous Inference):通过流水线化执行方案重叠推理与动作执行,消除推理块之间的等待时间
  • 潜在感知动作流(Latent-aware Action Streaming):通过丢弃过时动作并优先执行最新预测,解决推理延迟导致的时序对齐问题
  • DOM 基准:首个专注于动态物体操作的大规模基准,包含自动数据收集管道,支持模拟和真实世界的多机器人平台
Card 04 方法描述

方法描述

  • 模型架构:0.4B 参数 VLA,包含 FastViT 视觉编码器 + SmolLM2-360M 语言骨干 + 基于扩散的动作专家(Flow Matching Transformer)
  • 视觉编码器:采用 FastViT 进行高效空间压缩,输出 36 个视觉 tokens,比 Transformer 编码器延迟更低
  • 连续推理机制:推理周期在前一个推理完成时立即触发,而非等待动作序列执行完毕(假设动作预测范围 n > 推理延迟 m)
  • 潜在感知动作流:丢弃与当前时间步不对齐的旧动作,在动作块重叠时优先使用较新的动作预测
Card 05 数据集与资源

数据集与资源

  • 模拟数据:Isaac Sim 环境中生成 200K episodes,涵盖 2.8K 场景、206 个物体(来自 Objaverse)
  • 真实世界数据:2K episodes,使用双 RGB 视图进行 6D 物体姿态估计和速度推断,无需遥操作
  • 测试基准:DOM 基准评估维度包括交互(Closed-loop Reactivity、Dynamic Adaptation、Long-horizon Sequencing)、感知(Visual Understanding、Spatial Reasoning、Motion Perception)和泛化(Visual Generalization、Motion Generalization、Disturbance Robustness)
  • 评估环境:Franka Emika Panda(模拟+真实)、AgileX PiPER(真实)
Card 06 评估与结果

评估与结果

  • 模拟环境:DynamicVLA 在平均成功率(47.06%)上显著优于所有基线方法,比最强基线(VLA-Adapter-Pro 的 13.61%)提升超过 188%
  • 交互能力:Closed-loop Reactivity 60.5%、Dynamic Adaptation 38.5%、Long-horizon Sequencing 40.5%
  • 消融实验:验证了 360M 语言模型容量最优、FastViT 编码器优势、连续推理和潜在感知动作流的互补作用
  • 推理效率:路径长度 2.50m、任务完成时间 8.53s(均优于基线)
  • 实际部署:在真实世界实验中,DynamicVLA 达到 51.9% 成功率,显著超过基线的 11.7%