研究如何利用最先进视频生成模型（如 Veo-3）推进通用化机器人操纵能力

论文详情

Veo-Act: How Far Can Frontier Video Models Advance Generalizable Robot Manipulation?

2026-04-06 · 原文 · 翻译 · 2604.04502

研究如何利用最先进视频生成模型（如 Veo-3）推进通用化机器人操纵能力提出"Veo-3+IDM"零样本方法：视频模型预测未来图像序列，逆动力学模型（IDM）从中恢复机器人动作关键发现：视频模型能产生正确任务级轨迹，但低层控制精度不足；因此提出分层框架 Veo-Act，结合视频规划器与 VLA 低层执行器在高维灵巧手平台上验证，显著提升基线 VLA 策略 π₀.₅ 的指令跟随性能

5 分钟读完 6 张阅读卡清华大学 (Tsinghua University): 所有作者均来自该校

一眼看懂封面预览

研究如何利用最先进视频生成模型（如 Veo-3）推进通用化机器人操纵能力

研究如何利用最先进视频生成模型（如 Veo-3）推进通用化机器人操纵能力
提出"Veo-3+IDM"零样本方法：视频模型预测未来图像序列，逆动力学模型（IDM）从中恢复机器人动作
关键发现：视频模型能产生正确任务级轨迹，但低层控制精度不足；因此提出分层框架 Veo-Act，结合视频规划器与 VLA 低层执行器

Card 01 研究单位

研究单位

清华大学 (Tsinghua University): 所有作者均来自该校
通讯作者：Yanjiang Guo（项目负责人）

Card 02 论文概述

论文概述

研究如何利用最先进视频生成模型（如 Veo-3）推进通用化机器人操纵能力
提出"Veo-3+IDM"零样本方法：视频模型预测未来图像序列，逆动力学模型（IDM）从中恢复机器人动作
关键发现：视频模型能产生正确任务级轨迹，但低层控制精度不足；因此提出分层框架 Veo-Act，结合视频规划器与 VLA 低层执行器
在高维灵巧手平台上验证，显著提升基线 VLA 策略 π₀.₅ 的指令跟随性能

Card 03 核心贡献

核心贡献

首次系统研究最先进视频生成模型在零人类演示下的机器人操纵能力边界
发现 Veo-3 能持续生成近似正确的任务级轨迹并忠实遵循指令，但缺乏低层物理交互精度
提出分层操纵框架 Veo-Act，利用视频模型作为高层运动规划器，VLA 策略作为低层事件执行器
设计多头部逆动力学模型（Multi-Head IDM），同时输出动作和交互检测信号，实现自动切换
在模拟和真实环境中实现从 45% 到 80% 的整体成功率提升（+78.4% 加权改进）

Card 04 方法描述

方法描述

视频生成: 使用 Veo-3 根据初始观测图像和任务指令生成未来视觉轨迹 I*₀:n
多头部 IDM: 基于 DINOv3 视觉编码器，包含动作预测头和交互检测头；动作头用 Huber 损失训练，交互检测头用二元交叉熵损失训练
动作平滑: 对预测的动作序列进行时间平滑处理，提高执行稳定性
分层规划与执行: 维护计划动作队列，实时评估交互检测信号 G_t；当 G_t 超过阈值时切换到 VLA 低层策略执行灵巧交互
变体: Pure IDM（纯 IDM 执行）和 Simultaneous Control（同时控制不同动作子空间）

Card 05 数据集与资源

数据集与资源

训练数据: 模拟环境 300k 帧对样本 + 100k 随机运动样本；真实机器人 150k 样本
视觉编码器: DINOv3
低层策略: π₀.₅（Vision-Language-Action 模型）
仿真环境: IsaacLab 高保真仿真
硬件平台: 7-DoF 机械臂 + 12-DoF 灵巧手 + 全局相机 + 手腕相机

Card 06 评估与结果

评估与结果

评估设置（模拟）: 手腕相机不可见、相似物体干扰、途经交互
评估设置（真实）: 相似物体干扰、途经交互、更丰富语义
评估指标: 指令跟随成功率、整体任务成功率
主要结果:

- 模拟环境：Veo-Act 整体成功率 69%（基线 24%），加权改进 2.8×

- 真实机器人：Veo-Act 整体成功率 79%（基线 25%），加权改进 3.2×

- 综合模拟和真实：Veo-Act 80% vs 基线 45%，+78.4% 加权改进

消融实验: 多头部设计（动作头+交互检测头）比单头部提升整体成功率达 85.1%