提出 DynamicVLA，一个用于动态物体操作（dynamic object manipulation）的视觉-语言-动作（Vision-L…

论文详情

DynamicVLA: A Vision-Language-Action Model for Dynamic Object Manipulation

2026-01-29 · 原文 · 翻译 · 2601.22153

提出 DynamicVLA，一个用于动态物体操作（dynamic object manipulation）的视觉-语言-动作（Vision-Language-Action, VLA）模型框架，旨在解决机器人在处理运动物体时面临的感知-执行延迟问题针对现有 VLA 模型在静态操作方面表现优秀，但在动态场景中因推理延迟导致感知与执行不同步的难题，提出三项关键技术设计构建了 Dynamic Object Manipu…

7 分钟读完 6 张阅读卡 S-Lab, Nanyang Technological University（南洋理工大学 S-La…

一眼看懂封面预览

提出 DynamicVLA，一个用于动态物体操作（dynamic object manipulation）的视觉-语言-动作（Vision-L…

提出 DynamicVLA，一个用于动态物体操作（dynamic object manipulation）的视觉-语言-动作（Vision-L…
针对现有 VLA 模型在静态操作方面表现优秀，但在动态场景中因推理延迟导致感知与执行不同步的难题，提出三项关键技术设计
构建了 Dynamic Object Manipulation（DOM）基准，包含 200K 模拟场景 episodes 和 2K 真实世界…

Card 01 研究单位

研究单位

S-Lab, Nanyang Technological University（南洋理工大学 S-Lab 实验室）
作者包括：Haozhe Xie（共同一作）、Beichen Wen（共同一作）、Jiarui Zheng、Zhaoxi Chen、Fangzhong Hong、Haiwen Diao、Ziwei Liu（通讯作者）

Card 02 论文概述

论文概述

提出 DynamicVLA，一个用于动态物体操作（dynamic object manipulation）的视觉-语言-动作（Vision-Language-Action, VLA）模型框架，旨在解决机器人在处理运动物体时面临的感知-执行延迟问题
针对现有 VLA 模型在静态操作方面表现优秀，但在动态场景中因推理延迟导致感知与执行不同步的难题，提出三项关键技术设计
构建了 Dynamic Object Manipulation（DOM）基准，包含 200K 模拟场景 episodes 和 2K 真实世界 episodes，填补了动态操作领域大规模数据集的空白

Card 03 核心贡献

核心贡献

紧凑的 0.4B 参数 VLA 模型：采用卷积视觉编码器（FastViT）进行高效空间压缩，使用 SmolLM2-360M 作为语言骨干，实现快速多模态推理
连续推理（Continuous Inference）：通过流水线化执行方案重叠推理与动作执行，消除推理块之间的等待时间
潜在感知动作流（Latent-aware Action Streaming）：通过丢弃过时动作并优先执行最新预测，解决推理延迟导致的时序对齐问题
DOM 基准：首个专注于动态物体操作的大规模基准，包含自动数据收集管道，支持模拟和真实世界的多机器人平台

Card 04 方法描述

方法描述

模型架构：0.4B 参数 VLA，包含 FastViT 视觉编码器 + SmolLM2-360M 语言骨干 + 基于扩散的动作专家（Flow Matching Transformer）
视觉编码器：采用 FastViT 进行高效空间压缩，输出 36 个视觉 tokens，比 Transformer 编码器延迟更低
连续推理机制：推理周期在前一个推理完成时立即触发，而非等待动作序列执行完毕（假设动作预测范围 n > 推理延迟 m）
潜在感知动作流：丢弃与当前时间步不对齐的旧动作，在动作块重叠时优先使用较新的动作预测

Card 05 数据集与资源

数据集与资源

模拟数据：Isaac Sim 环境中生成 200K episodes，涵盖 2.8K 场景、206 个物体（来自 Objaverse）
真实世界数据：2K episodes，使用双 RGB 视图进行 6D 物体姿态估计和速度推断，无需遥操作
测试基准：DOM 基准评估维度包括交互（Closed-loop Reactivity、Dynamic Adaptation、Long-horizon Sequencing）、感知（Visual Understanding、Spatial Reasoning、Motion Perception）和泛化（Visual Generalization、Motion Generalization、Disturbance Robustness）
评估环境：Franka Emika Panda（模拟+真实）、AgileX PiPER（真实）

Card 06 评估与结果

评估与结果

模拟环境：DynamicVLA 在平均成功率（47.06%）上显著优于所有基线方法，比最强基线（VLA-Adapter-Pro 的 13.61%）提升超过 188%
交互能力：Closed-loop Reactivity 60.5%、Dynamic Adaptation 38.5%、Long-horizon Sequencing 40.5%
消融实验：验证了 360M 语言模型容量最优、FastViT 编码器优势、连续推理和潜在感知动作流的互补作用
推理效率：路径长度 2.50m、任务完成时间 8.53s（均优于基线）
实际部署：在真实世界实验中，DynamicVLA 达到 51.9% 成功率，显著超过基线的 11.7%