一眼看懂
封面预览
研究如何利用最先进视频生成模型(如 Veo-3)推进通用化机器人操纵能力
- 研究如何利用最先进视频生成模型(如 Veo-3)推进通用化机器人操纵能力
- 提出"Veo-3+IDM"零样本方法:视频模型预测未来图像序列,逆动力学模型(IDM)从中恢复机器人动作
- 关键发现:视频模型能产生正确任务级轨迹,但低层控制精度不足;因此提出分层框架 Veo-Act,结合视频规划器与 VLA 低层执行器
Card 01
研究单位
研究单位
- 清华大学 (Tsinghua University): 所有作者均来自该校
- 通讯作者:Yanjiang Guo(项目负责人)
Card 02
论文概述
论文概述
- 研究如何利用最先进视频生成模型(如 Veo-3)推进通用化机器人操纵能力
- 提出"Veo-3+IDM"零样本方法:视频模型预测未来图像序列,逆动力学模型(IDM)从中恢复机器人动作
- 关键发现:视频模型能产生正确任务级轨迹,但低层控制精度不足;因此提出分层框架 Veo-Act,结合视频规划器与 VLA 低层执行器
- 在高维灵巧手平台上验证,显著提升基线 VLA 策略 π₀.₅ 的指令跟随性能
Card 03
核心贡献
核心贡献
- 首次系统研究最先进视频生成模型在零人类演示下的机器人操纵能力边界
- 发现 Veo-3 能持续生成近似正确的任务级轨迹并忠实遵循指令,但缺乏低层物理交互精度
- 提出分层操纵框架 Veo-Act,利用视频模型作为高层运动规划器,VLA 策略作为低层事件执行器
- 设计多头部逆动力学模型(Multi-Head IDM),同时输出动作和交互检测信号,实现自动切换
- 在模拟和真实环境中实现从 45% 到 80% 的整体成功率提升(+78.4% 加权改进)
Card 04
方法描述
方法描述
- 视频生成: 使用 Veo-3 根据初始观测图像和任务指令生成未来视觉轨迹 I*₀:n
- 多头部 IDM: 基于 DINOv3 视觉编码器,包含动作预测头和交互检测头;动作头用 Huber 损失训练,交互检测头用二元交叉熵损失训练
- 动作平滑: 对预测的动作序列进行时间平滑处理,提高执行稳定性
- 分层规划与执行: 维护计划动作队列,实时评估交互检测信号 G_t;当 G_t 超过阈值时切换到 VLA 低层策略执行灵巧交互
- 变体: Pure IDM(纯 IDM 执行)和 Simultaneous Control(同时控制不同动作子空间)
Card 05
数据集与资源
数据集与资源
- 训练数据: 模拟环境 300k 帧对样本 + 100k 随机运动样本;真实机器人 150k 样本
- 视觉编码器: DINOv3
- 低层策略: π₀.₅(Vision-Language-Action 模型)
- 仿真环境: IsaacLab 高保真仿真
- 硬件平台: 7-DoF 机械臂 + 12-DoF 灵巧手 + 全局相机 + 手腕相机
Card 06
评估与结果
评估与结果
- 评估设置(模拟): 手腕相机不可见、相似物体干扰、途经交互
- 评估设置(真实): 相似物体干扰、途经交互、更丰富语义
- 评估指标: 指令跟随成功率、整体任务成功率
- 主要结果:
- 模拟环境:Veo-Act 整体成功率 69%(基线 24%),加权改进 2.8×
- 真实机器人:Veo-Act 整体成功率 79%(基线 25%),加权改进 3.2×
- 综合模拟和真实:Veo-Act 80% vs 基线 45%,+78.4% 加权改进
- 消融实验: 多头部设计(动作头+交互检测头)比单头部提升整体成功率达 85.1%