返回列表 VLA / Vision-Language-Action 每日论文卡
Reshaping Action Error Distributions for Reliable Vision-Language-Action Models
针对连续动作视觉-语言-动作(VLA)模型,论文指出现有的均方误差(MSE)监督仅关注逐点预测,忽略了动作误差分布的全局结构。

论文详情

Reshaping Action Error Distributions for Reliable Vision-Language-Action Models

2026-02-04 · 原文 · 翻译 · 2602.04228

针对连续动作视觉-语言-动作(VLA)模型,论文指出现有的均方误差(MSE)监督仅关注逐点预测,忽略了动作误差分布的全局结构。 为了解决该问题,论文引入信息论原则,提出了轨迹级最小误差熵及其两种加权变体,以重塑动作误差分布。 研究目标是在不增加推理开销的情况下,提升 VLA 模型在标准、少样本、噪声及数据不平衡等多种设置下的成功率和鲁棒性。

5 分钟读完 6 张阅读卡 西安交通大学 人工智能与机器人研究所
一眼看懂 封面预览

针对连续动作视觉-语言-动作(VLA)模型,论文指出现有的均方误差(MSE)监督仅关注逐点预测,忽略了动作误差分布的全局结构。

  • 针对连续动作视觉-语言-动作(VLA)模型,论文指出现有的均方误差(MSE)监督仅关注逐点预测,忽略了动作误差分布的全局结构。
  • 为了解决该问题,论文引入信息论原则,提出了轨迹级最小误差熵及其两种加权变体,以重塑动作误差分布。
  • 研究目标是在不增加推理开销的情况下,提升 VLA 模型在标准、少样本、噪声及数据不平衡等多种设置下的成功率和鲁棒性。
Card 01 研究单位

研究单位

  • 西安交通大学 人工智能与机器人研究所
  • 北京智源人工智能研究院
  • 中国科学院大学 自动化研究所 / 人工智能学院
  • 北京大学
Card 02 论文概述

论文概述

  • 针对连续动作视觉-语言-动作(VLA)模型,论文指出现有的均方误差(MSE)监督仅关注逐点预测,忽略了动作误差分布的全局结构。
  • 为了解决该问题,论文引入信息论原则,提出了轨迹级最小误差熵及其两种加权变体,以重塑动作误差分布。
  • 研究目标是在不增加推理开销的情况下,提升 VLA 模型在标准、少样本、噪声及数据不平衡等多种设置下的成功率和鲁棒性。
Card 03 核心贡献

核心贡献

  • 首次将最小误差熵(MEE)准则引入 VLA 模型,提出了三种轨迹级变体(T-MEE, Cw-TMEE, Ew-TMEE)来捕获结构化的动作误差分布。
  • 提供了深入的理论分析,阐明了 MEE 目标函数的优化行为,包括误差间的相似性加权交互、对非高斯噪声和异常值的鲁棒性以及多任务设置下的耦合机制。
  • 在多种 VLA 架构、模型规模(小规模到 2B+ 参数)和训练环境下进行了广泛的实证评估,验证了方法的有效性并分析了其适用范围。
Card 04 方法描述

方法描述

  • 将动作预测误差视为从共享误差分布中抽取的样本,通过二次 Renyi 熵来最小化误差分布的熵,鼓励误差分布更加紧凑。
  • 提出了统一的轨迹级 MEE(T-MEE)目标函数,该函数聚合了批次、时间和动作块维度的误差。
  • 引入了两种加权变体:Chunk-weighted T-MEE (Cw-TMEE) 强调可靠的动作块,Element-weighted T-MEE (Ew-TMEE) 则提供对称的元素级加权。
  • 最终训练目标将分布级 T-MEE 损失与标准的逐点 MSE 损失相结合,以同时保证预测精度和误差分布的几何结构。
Card 05 数据集与资源

数据集与资源

  • 仿真基准LIBERO(包含 Spatial, Goal, Object, Long 四个任务套件,共 40 个任务)和 SimplerEnv(WidowX 基准)。
  • 模型规模:小规模模型(BC-RNN, BC-Transformer, BC-DP,参数量 10M-100M);大规模模型(GR00T, OFT, $\pi_0$, DS-VLA,基于 Qwen3-VL 骨干网络,参数量约 2.3B)。
  • 真实世界实验:使用真实机械臂进行操作任务评估。
  • 训练资源:文中未明确提及具体 GPU/TPU 数量,但实验涵盖了大规模模型训练。
Card 06 评估与结果

评估与结果

  • 评估环境:LIBERO 仿真环境、SimplerEnv 仿真环境以及真实机器人操作平台。
  • 主要指标:任务成功率。
  • 关键结果

- 在 LIBERO 基准上,加入 T-MEE 后,BC-Transformer 的平均成功率从 52.6% 提升至 63.5%,GR00T 模型从 96.4% 提升至 97.0%。

- 在 SimplerEnv 基准上,T-MEE 在 2B 和 4B 不同骨干网络规模下均带来了性能提升。

- 在少样本、噪声干扰和数据不平衡的设置下,T-MEE 展现出更强的鲁棒性,且几乎没有增加额外的训练成本,不影响推理效率。