返回列表 VLA / Vision-Language-Action 每日论文卡
ViVa: A Video-Generative Value Model for Robot Reinforcement Learning
提出 ViVa (Video-generative Value model),一种利用预训练视频生成模型进行机器人强化学习价值函数估计的新方法

论文详情

ViVa: A Video-Generative Value Model for Robot Reinforcement Learning

2026-04-09 · 原文 · 翻译 · 2604.08168

提出 ViVa (Video-generative Value model),一种利用预训练视频生成模型进行机器人强化学习价值函数估计的新方法 解决现有基于 VLM 的价值模型无法捕捉时序动态的问题,将价值估计重新定义为未来预测问题 通过将当前观测与机器人本体感知作为输入,联合预测未来本体感知和标量价值,将价值估计根植于预期的本体动态中 集成到 RECAP 管道中,在真实世界的箱体装配任务上取得显著改进

5 分钟读完 6 张阅读卡 GigaAI (第一作者单位)
一眼看懂 封面预览

提出 ViVa (Video-generative Value model),一种利用预训练视频生成模型进行机器人强化学习价值函数估计的新方法

  • 提出 ViVa (Video-generative Value model),一种利用预训练视频生成模型进行机器人强化学习价值函数估计的新方法
  • 解决现有基于 VLM 的价值模型无法捕捉时序动态的问题,将价值估计重新定义为未来预测问题
  • 通过将当前观测与机器人本体感知作为输入,联合预测未来本体感知和标量价值,将价值估计根植于预期的本体动态中
Card 01 研究单位

研究单位

  • GigaAI (第一作者单位)
  • 四川大学 (Sichuan University)
  • 清华大学 (Tsinghua University)
Card 02 论文概述

论文概述

  • 提出 ViVa (Video-generative Value model),一种利用预训练视频生成模型进行机器人强化学习价值函数估计的新方法
  • 解决现有基于 VLM 的价值模型无法捕捉时序动态的问题,将价值估计重新定义为未来预测问题
  • 通过将当前观测与机器人本体感知作为输入,联合预测未来本体感知和标量价值,将价值估计根植于预期的本体动态中
  • 集成到 RECAP 管道中,在真实世界的箱体装配任务上取得显著改进
Card 03 核心贡献

核心贡献

  • 识别价值估计本质上是未来预测问题,视频生成模型由于学习时空演化,比基于静态数据的判别式 VLM 更适合价值学习
  • 引入 ViVa,一种将价值与远见内在耦合的视频生成价值模型,通过联合预测未来本体动态来估计当前状态的价值
  • 在箱体装配任务上实现成功率从 58% 提升至 73%,吞吐量达到每小时 14 个成功任务
  • 通过三个任务的定性分析确认更可靠的价值信号,并能泛化到未见过的物体(如裤子折叠)
Card 04 方法描述

方法描述

  • 基于 Wan2.2 预训练视频扩散 Transformer 构建,使用潜在注入扩展输入/输出模态
  • 将所有模态(图像、本体感知、标量价值)映射到潜在帧,使用 VAE 编码图像,本体感知通过重复填充注入,标量价值通过广播操作注入
  • 训练时使用流匹配 (Flow Matching) 目标函数,预测未来本体感知和价值
  • 推理时运行反向扩散生成目标帧,从潜在帧解码出预测价值和未来本体感知
  • 预测视界 K 设为 50,损失权重 λ_prop=1.0,λ_val=0.5
Card 05 数据集与资源

数据集与资源

  • 任务数据集: 衬衫折叠、箱体包装与组装、厕纸整理三个真实世界任务
  • 训练配置: 单轮训练,batch size 192,8 张 NVIDIA A800 GPU
  • 推理配置: 1 步去噪,DDIM 采样
  • 训练时间: 4 GPU·天
  • 推理延迟: 0.18 秒/帧
Card 06 评估与结果

评估与结果

  • 真实世界箱体装配实验: RECAP (ViVa) 达到 73% 成功率和 14 个任务/小时吞吐量,优于 VLM-based RECAP 的 58% 成功率
  • 价值估计定性分析: ViVa 能准确追踪任务进度,在执行错误时产生明显价值下降,VLM-based 方法对中间错误不敏感
  • 域外泛化: 在未见过的裤子折叠任务上,ViVa 保持稳健的价值估计,VLM-based 方法无法检测关键里程碑
  • 消融实验:

- 视频生成 backbone 相比 VLM 提供更稳定的时间理解

- 未来本体感知预测对检测细微操作错误至关重要

- 预测视界 K=50 在稳定性和准确性间取得最佳平衡