论文提出了 Video2Act，一种视觉-语言-动作（VLA）框架，利用视频扩散模型（VDM）增强机器人策略学习。

论文详情

Video2Act: A Dual-System Video Diffusion Policy with Robotic Spatio-Motional Modeling

2025-12-02 · 原文 · 翻译 · 2512.03044

论文提出了 Video2Act，一种视觉-语言-动作（VLA）框架，利用视频扩散模型（VDM）增强机器人策略学习。旨在解决现有方法未充分利用 VDM 中隐含的空间结构和运动动态表示的问题，以实现更鲁棒的感知和动力学建模。构建了一个异步双系统架构，将慢速感知模块（System 2）与快速执行模块（System 1）结合，实现稳定且高频的动作生成。

5 分钟读完 6 张阅读卡 Peking University（北京大学多媒体信息处理国家重点实验室）

一眼看懂封面预览

论文提出了 Video2Act，一种视觉-语言-动作（VLA）框架，利用视频扩散模型（VDM）增强机器人策略学习。

论文提出了 Video2Act，一种视觉-语言-动作（VLA）框架，利用视频扩散模型（VDM）增强机器人策略学习。
旨在解决现有方法未充分利用 VDM 中隐含的空间结构和运动动态表示的问题，以实现更鲁棒的感知和动力学建模。
构建了一个异步双系统架构，将慢速感知模块（System 2）与快速执行模块（System 1）结合，实现稳定且高频的动作生成。

Card 01 研究单位

研究单位

Peking University（北京大学多媒体信息处理国家重点实验室）
AI2Robotics
Hong Kong University of Science and Technology（香港科技大学）

Card 02 论文概述

论文概述

论文提出了 Video2Act，一种视觉-语言-动作（VLA）框架，利用视频扩散模型（VDM）增强机器人策略学习。
旨在解决现有方法未充分利用 VDM 中隐含的空间结构和运动动态表示的问题，以实现更鲁棒的感知和动力学建模。
构建了一个异步双系统架构，将慢速感知模块（System 2）与快速执行模块（System 1）结合，实现稳定且高频的动作生成。

Card 03 核心贡献

核心贡献

对机器人场景下的 VDM 表征进行了系统分析，揭示了其捕捉稳定空间结构和运动一致性特征的能力。
提出了显式提取空间-运动表征的方法，利用 Sobel 算子提取空间边界，利用 FFT 捕捉运动动态。
设计了表征驱动的异步双系统架构，利用低频的 VDM 特征指导高频的 DiT 动作专家进行实时控制。
在仿真和真实世界实验中均取得了最先进（SOTA）的性能，验证了方法的有效性。

Card 04 方法描述

方法描述

采用 Hunyuan Video Diffusion Model 作为慢速系统（System 2），通过反演轨迹提取特征。
设计双流输入：高分辨率短时序图像用于空间结构提取，常规分辨率长时序图像用于运动动态提取。
在潜空间应用 Sobel 空间滤波算子提取前景边界，应用 快速傅里叶变换（FFT）提取帧间运动变化。
使用 1B 参数的 Diffusion Transformer (DiT) 作为快速系统（System 1），通过交叉注意力机制融合提取的表征与实时视觉 Token，生成动作序列。

Card 05 数据集与资源

数据集与资源

仿真环境：RoboTwin 1.0 和 RoboTwin 2.0 基准测试，包含 12 项双臂操作任务。
真实环境：基于 Agilex Cobot Magic (ALOHA) 平台收集的 6 项任务数据集，每项任务包含 100 次演示。
硬件资源：使用 NVIDIA 4090 GPU 进行真实世界推理。

Card 06 评估与结果

评估与结果

对比基线包括 Diffusion Policy、ACT、RDT-1B、$\pi_0$、$\pi_{0.5}$、VPDD 和 VPP。
在仿真实验中，平均成功率分别达到 54.6% (RoboTwin 1.0) 和 54.1% (RoboTwin 2.0)，超越之前最优方法 8.9%。
在真实世界实验中，平均成功率达到 73.3%，超越之前最优方法 21.7%。
实验表明该方法在高精度协调和复杂动态任务中表现优异，并具备良好的泛化能力。