返回列表 VLA / Vision-Language-Action 每日论文卡
Video2Act: A Dual-System Video Diffusion Policy with Robotic Spatio-Motional Modeling
论文提出了 Video2Act,一种视觉-语言-动作(VLA)框架,利用视频扩散模型(VDM)增强机器人策略学习。

论文详情

Video2Act: A Dual-System Video Diffusion Policy with Robotic Spatio-Motional Modeling

2025-12-02 · 原文 · 翻译 · 2512.03044

论文提出了 Video2Act,一种视觉-语言-动作(VLA)框架,利用视频扩散模型(VDM)增强机器人策略学习。 旨在解决现有方法未充分利用 VDM 中隐含的空间结构和运动动态表示的问题,以实现更鲁棒的感知和动力学建模。 构建了一个异步双系统架构,将慢速感知模块(System 2)与快速执行模块(System 1)结合,实现稳定且高频的动作生成。

5 分钟读完 6 张阅读卡 Peking University(北京大学多媒体信息处理国家重点实验室)
一眼看懂 封面预览

论文提出了 Video2Act,一种视觉-语言-动作(VLA)框架,利用视频扩散模型(VDM)增强机器人策略学习。

  • 论文提出了 Video2Act,一种视觉-语言-动作(VLA)框架,利用视频扩散模型(VDM)增强机器人策略学习。
  • 旨在解决现有方法未充分利用 VDM 中隐含的空间结构和运动动态表示的问题,以实现更鲁棒的感知和动力学建模。
  • 构建了一个异步双系统架构,将慢速感知模块(System 2)与快速执行模块(System 1)结合,实现稳定且高频的动作生成。
Card 01 研究单位

研究单位

  • Peking University(北京大学多媒体信息处理国家重点实验室)
  • AI2Robotics
  • Hong Kong University of Science and Technology(香港科技大学)
Card 02 论文概述

论文概述

  • 论文提出了 Video2Act,一种视觉-语言-动作(VLA)框架,利用视频扩散模型(VDM)增强机器人策略学习。
  • 旨在解决现有方法未充分利用 VDM 中隐含的空间结构和运动动态表示的问题,以实现更鲁棒的感知和动力学建模。
  • 构建了一个异步双系统架构,将慢速感知模块(System 2)与快速执行模块(System 1)结合,实现稳定且高频的动作生成。
Card 03 核心贡献

核心贡献

  • 对机器人场景下的 VDM 表征进行了系统分析,揭示了其捕捉稳定空间结构和运动一致性特征的能力。
  • 提出了显式提取空间-运动表征的方法,利用 Sobel 算子提取空间边界,利用 FFT 捕捉运动动态。
  • 设计了表征驱动的异步双系统架构,利用低频的 VDM 特征指导高频的 DiT 动作专家进行实时控制。
  • 在仿真和真实世界实验中均取得了最先进(SOTA)的性能,验证了方法的有效性。
Card 04 方法描述

方法描述

  • 采用 Hunyuan Video Diffusion Model 作为慢速系统(System 2),通过反演轨迹提取特征。
  • 设计双流输入:高分辨率短时序图像用于空间结构提取,常规分辨率长时序图像用于运动动态提取。
  • 在潜空间应用 Sobel 空间滤波算子提取前景边界,应用 快速傅里叶变换(FFT)提取帧间运动变化。
  • 使用 1B 参数的 Diffusion Transformer (DiT) 作为快速系统(System 1),通过交叉注意力机制融合提取的表征与实时视觉 Token,生成动作序列。
Card 05 数据集与资源

数据集与资源

  • 仿真环境:RoboTwin 1.0RoboTwin 2.0 基准测试,包含 12 项双臂操作任务。
  • 真实环境:基于 Agilex Cobot Magic (ALOHA) 平台收集的 6 项任务数据集,每项任务包含 100 次演示。
  • 硬件资源:使用 NVIDIA 4090 GPU 进行真实世界推理。
Card 06 评估与结果

评估与结果

  • 对比基线包括 Diffusion PolicyACTRDT-1B$\pi_0$$\pi_{0.5}$VPDDVPP
  • 在仿真实验中,平均成功率分别达到 54.6% (RoboTwin 1.0) 和 54.1% (RoboTwin 2.0),超越之前最优方法 8.9%
  • 在真实世界实验中,平均成功率达到 73.3%,超越之前最优方法 21.7%
  • 实验表明该方法在高精度协调和复杂动态任务中表现优异,并具备良好的泛化能力。