Vision-Language-Action (VLA) 模型已成为构建具身智能体的 promising 范式，但现有方法依赖直接动作预测，缺…

论文详情

World-Value-Action Model: Implicit Planning for Vision-Language-Action Systems

2026-04-16 · 原文 · 翻译 · 2604.14732

Vision-Language-Action (VLA) 模型已成为构建具身智能体的 promising 范式，但现有方法依赖直接动作预测，缺乏对长-horizon 轨迹的推理能力提出 World-Value-Action (WAV) 模型，通过学习未来轨迹的结构化潜在表示，在视觉观察和语言指令条件下实现 VLA 系统的隐式规划- 学习的世界模型预测未来状态，轨迹价值函数评估其长期效用，动作生成被表述为潜在空间中…

4 分钟读完 6 张阅读卡 Westlake University（西湖大学）- 杭州，中国

一眼看懂封面预览

Vision-Language-Action (VLA) 模型已成为构建具身智能体的 promising 范式，但现有方法依赖直接动作预测，缺…

Vision-Language-Action (VLA) 模型已成为构建具身智能体的 promising 范式，但现有方法依赖直接动作预测，缺…
提出 World-Value-Action (WAV) 模型，通过学习未来轨迹的结构化潜在表示，在视觉观察和语言指令条件下实现 VLA 系统的…
理论分析表明：直接在动作空间规划会导致可行轨迹概率随 horizon 指数衰减，而潜在空间推理可重塑搜索分布到可行区域

Card 01 研究单位

研究单位

Westlake University（西湖大学）- 杭州，中国
Nanjing University Suzhou Campus（南京大学苏州校区）- 苏州，中国

Card 02 论文概述

论文概述

Vision-Language-Action (VLA) 模型已成为构建具身智能体的 promising 范式，但现有方法依赖直接动作预测，缺乏对长-horizon 轨迹的推理能力
提出 World-Value-Action (WAV) 模型，通过学习未来轨迹的结构化潜在表示，在视觉观察和语言指令条件下实现 VLA 系统的隐式规划- 学习的世界模型预测未来状态，轨迹价值函数评估其长期效用，动作生成被表述为潜在空间中的推理过程
理论分析表明：直接在动作空间规划会导致可行轨迹概率随 horizon 指数衰减，而潜在空间推理可重塑搜索分布到可行区域

Card 03 核心贡献

核心贡献

提出 WAV 模型，一个通过联合建模动态特性和轨迹价值实现 VLA 系统隐式规划的统一框架
提供理论分析，证明潜在规划可减轻动作空间规划中固有的可行轨迹概率指数衰减问题
在模拟基准测试和真实场景中实现最先进性能，在长-horizon 推理和泛化方面取得显著提升

Card 04 方法描述

方法描述

语言条件视频生成模块：基于 Diffusion Transformer (DiT) 架构，根据历史多视角视觉、随机潜在变量和语言语义预测未来视觉轨迹
轨迹价值模块：基于 DiT 的自回归架构，通过交叉注意力评估预测轨迹的长期累积回报
动作解码模块：整合视频和价值特征，生成可执行的机器人动作
三阶段 Flow Matching 训练：分别训练视频生成、价值预测和动作解码模块
潜在规划和迭代推理：推理时保持两个独立的高斯噪声分布（视频流噪声和价值流噪声），通过迭代采样、评估和更新分布，逐步集中概率质量到高价值可行轨迹

Card 05 数据集与资源

数据集与资源

模拟基准：LIBERO benchmark，包含四个任务套件（Spatial、Object、Goal、Long）
真实机器人实验：长-horizon 组合操作任务
未在 HTML 中明确找到模型参数量和训练资源信息

Card 06 评估与结果

评估与结果

模拟环境：WAV 在 LIBERO 基准上与多个 baseline（Diffusion Policy、Octo、OpenVLA、SpatialVLA、π₀-FAST、GR00T-N1、π₀ 等）对比，在 Long 任务上提升显著
消融实验：分析了迭代次数 K、采样大小 M,N、平滑参数 α,β、精英选择 K₁,K₂ 对性能的影响，以及性能-效率权衡