研究 Vision-Language-Action (VLA) 模型在顺序决策任务中的鲁棒性问题，发现 VLA 存在轨迹过拟合现象，即模型过度…

论文详情

Test-Time Perturbation Learning with Delayed Feedback for Vision-Language-Action Models

2026-04-20 · 原文 · 翻译 · 2604.18107

研究 Vision-Language-Action (VLA) 模型在顺序决策任务中的鲁棒性问题，发现 VLA 存在轨迹过拟合现象，即模型过度依赖动作与实体之间的虚假相关性，在环境轻微变化时性能急剧下降提出 PDF (Perturbation learning with Delayed Feedback)，一种无需验证器的测试时适配框架，通过数据增强和延迟反馈引导的扰动学习来提升 VLA 决策性能，无需对基础模型…

5 分钟读完 6 张阅读卡中国科学院软件研究所，北京

一眼看懂封面预览

研究 Vision-Language-Action (VLA) 模型在顺序决策任务中的鲁棒性问题，发现 VLA 存在轨迹过拟合现象，即模型过度…

研究 Vision-Language-Action (VLA) 模型在顺序决策任务中的鲁棒性问题，发现 VLA 存在轨迹过拟合现象，即模型过度…
提出 PDF (Perturbation learning with Delayed Feedback)，一种无需验证器的测试时适配框架，通过…
在 LIBERO 机器人操作基准和 Atari-57 游戏基准上验证方法有效性，显著提升任务成功率

Card 01 研究单位

研究单位

中国科学院软件研究所，北京
中国科学院大学，北京
清华大学，北京
北京大学王选计算机技术研究所，北京
国防大学，北京

Card 02 论文概述

论文概述

研究 Vision-Language-Action (VLA) 模型在顺序决策任务中的鲁棒性问题，发现 VLA 存在轨迹过拟合现象，即模型过度依赖动作与实体之间的虚假相关性，在环境轻微变化时性能急剧下降
提出 PDF (Perturbation learning with Delayed Feedback)，一种无需验证器的测试时适配框架，通过数据增强和延迟反馈引导的扰动学习来提升 VLA 决策性能，无需对基础模型进行微调
在 LIBERO 机器人操作基准和 Atari-57 游戏基准上验证方法有效性，显著提升任务成功率

Card 03 核心贡献

核心贡献

首次系统性地识别并分析轨迹过拟合现象，揭示 VLA 在环境变化下脆弱性的根本原因
提出 PDF 框架，包含不确定性动作投票和延迟反馈引导的适配两大核心组件，在保持基础模型参数冻结的情况下提升决策性能
在 LIBERO (+7.4% 成功率) 和 Atari (+10.3 人类标准化分数) 上实现一致的性能提升，优于现有 VLA 和测试时适配基线方法

Card 04 方法描述

方法描述

不确定性动作投票：通过计算输出 logits 的标准化香农熵估计模型决策不确定性，根据不确定性自适应分配数据增强预算 N_t = N_max × U_t，对高不确定性决策分配更多增强视图
延迟反馈引导适配：引入轻量级扰动头 h_θ(·)，在每轮交互后根据延迟反馈信号更新扰动参数，使用 REINFORCE 风格目标函数增加成功动作的似然，并结合 KL 散度正则化稳定更新
维度-wise 投票策略：在动作各维度上进行多数投票，而非对完整动作元组投票，以更灵活地偏离原始策略

Card 05 数据集与资源

数据集与资源

LIBERO 基准：四个 10 任务套件（Spatial、Object、Goal、Long），Franka Panda 仿真环境，RGB 视图、机器人状态、文本指令和末端执行器增量动作
Atari-57：57 个 Atari 2600 游戏，像素输入，4-18 个离散动作
基础模型：OpenVLA（LIBERO）和 Jat/GATO（Atari）
训练资源：单卡 Tesla V100-PCIE-32GB，每游戏 50 评估回合

Card 06 评估与结果

评估与结果

LIBERO 基准：PDF 达到最高平均成功率 0.77（排名 2.5），Spatial 套件 0.90，Goal 套件 0.86，Long 套件 0.59（+4.1% 超越最佳基线）
Atari-57：人类标准化分数达到 1.07（基线 0.97，+0.10），47/57 游戏性能提升，最大增益出现在 BOXING (+60.25%) 和 TIME PILOT (+53%)
消融实验：数据增强和延迟反馈两个组件均对性能有贡献，KL 正则化项对稳定性至关重要，最佳数据增强预算设为 3