Reshaping Action Error Distributions for Reliable Vision-Language-Action Models

一眼看懂封面预览

针对连续动作视觉-语言-动作（VLA）模型，论文指出现有的均方误差（MSE）监督仅关注逐点预测，忽略了动作误差分布的全局结构。

Card 01 研究单位

研究单位

Card 02 论文概述

Card 03 核心贡献

Card 04 方法描述

将动作预测误差视为从共享误差分布中抽取的样本，通过二次 Renyi 熵来最小化误差分布的熵，鼓励误差分布更加紧凑。
提出了统一的轨迹级 MEE（T-MEE）目标函数，该函数聚合了批次、时间和动作块维度的误差。
引入了两种加权变体：Chunk-weighted T-MEE (Cw-TMEE) 强调可靠的动作块，Element-weighted T-MEE (Ew-TMEE) 则提供对称的元素级加权。
最终训练目标将分布级 T-MEE 损失与标准的逐点 MSE 损失相结合，以同时保证预测精度和误差分布的几何结构。

Card 05 数据集与资源

仿真基准：LIBERO（包含 Spatial, Goal, Object, Long 四个任务套件，共 40 个任务）和 SimplerEnv（WidowX 基准）。
模型规模：小规模模型（BC-RNN, BC-Transformer, BC-DP，参数量 10M-100M）；大规模模型（GR00T, OFT, $\pi_0$, DS-VLA，基于 Qwen3-VL 骨干网络，参数量约 2.3B）。
真实世界实验：使用真实机械臂进行操作任务评估。
训练资源：文中未明确提及具体 GPU/TPU 数量，但实验涵盖了大规模模型训练。

Card 06 评估与结果

- 在 LIBERO 基准上，加入 T-MEE 后，BC-Transformer 的平均成功率从 52.6% 提升至 63.5%，GR00T 模型从 96.4% 提升至 97.0%。

- 在 SimplerEnv 基准上，T-MEE 在 2B 和 4B 不同骨干网络规模下均带来了性能提升。

- 在少样本、噪声干扰和数据不平衡的设置下，T-MEE 展现出更强的鲁棒性，且几乎没有增加额外的训练成本，不影响推理效率。