返回列表 VLA / Vision-Language-Action 每日论文卡
Test-Time Perturbation Learning with Delayed Feedback for Vision-Language-Action Models
研究 Vision-Language-Action (VLA) 模型在顺序决策任务中的鲁棒性问题,发现 VLA 存在轨迹过拟合现象,即模型过度…

论文详情

Test-Time Perturbation Learning with Delayed Feedback for Vision-Language-Action Models

2026-04-20 · 原文 · 翻译 · 2604.18107

研究 Vision-Language-Action (VLA) 模型在顺序决策任务中的鲁棒性问题,发现 VLA 存在轨迹过拟合现象,即模型过度依赖动作与实体之间的虚假相关性,在环境轻微变化时性能急剧下降 提出 PDF (Perturbation learning with Delayed Feedback),一种无需验证器的测试时适配框架,通过数据增强和延迟反馈引导的扰动学习来提升 VLA 决策性能,无需对基础模型…

5 分钟读完 6 张阅读卡 中国科学院软件研究所,北京
一眼看懂 封面预览

研究 Vision-Language-Action (VLA) 模型在顺序决策任务中的鲁棒性问题,发现 VLA 存在轨迹过拟合现象,即模型过度…

  • 研究 Vision-Language-Action (VLA) 模型在顺序决策任务中的鲁棒性问题,发现 VLA 存在轨迹过拟合现象,即模型过度…
  • 提出 PDF (Perturbation learning with Delayed Feedback),一种无需验证器的测试时适配框架,通过…
  • 在 LIBERO 机器人操作基准和 Atari-57 游戏基准上验证方法有效性,显著提升任务成功率
Card 01 研究单位

研究单位

  • 中国科学院软件研究所,北京
  • 中国科学院大学,北京
  • 清华大学,北京
  • 北京大学王选计算机技术研究所,北京
  • 国防大学,北京
Card 02 论文概述

论文概述

  • 研究 Vision-Language-Action (VLA) 模型在顺序决策任务中的鲁棒性问题,发现 VLA 存在轨迹过拟合现象,即模型过度依赖动作与实体之间的虚假相关性,在环境轻微变化时性能急剧下降
  • 提出 PDF (Perturbation learning with Delayed Feedback),一种无需验证器的测试时适配框架,通过数据增强和延迟反馈引导的扰动学习来提升 VLA 决策性能,无需对基础模型进行微调
  • LIBERO 机器人操作基准和 Atari-57 游戏基准上验证方法有效性,显著提升任务成功率
Card 03 核心贡献

核心贡献

  • 首次系统性地识别并分析轨迹过拟合现象,揭示 VLA 在环境变化下脆弱性的根本原因
  • 提出 PDF 框架,包含不确定性动作投票和延迟反馈引导的适配两大核心组件,在保持基础模型参数冻结的情况下提升决策性能
  • 在 LIBERO (+7.4% 成功率) 和 Atari (+10.3 人类标准化分数) 上实现一致的性能提升,优于现有 VLA 和测试时适配基线方法
Card 04 方法描述

方法描述

  • 不确定性动作投票:通过计算输出 logits 的标准化香农熵估计模型决策不确定性,根据不确定性自适应分配数据增强预算 N_t = N_max × U_t,对高不确定性决策分配更多增强视图
  • 延迟反馈引导适配:引入轻量级扰动头 h_θ(·),在每轮交互后根据延迟反馈信号更新扰动参数,使用 REINFORCE 风格目标函数增加成功动作的似然,并结合 KL 散度正则化稳定更新
  • 维度-wise 投票策略:在动作各维度上进行多数投票,而非对完整动作元组投票,以更灵活地偏离原始策略
Card 05 数据集与资源

数据集与资源

  • LIBERO 基准:四个 10 任务套件(Spatial、Object、Goal、Long),Franka Panda 仿真环境,RGB 视图、机器人状态、文本指令和末端执行器增量动作
  • Atari-57:57 个 Atari 2600 游戏,像素输入,4-18 个离散动作
  • 基础模型:OpenVLA(LIBERO)和 Jat/GATO(Atari)
  • 训练资源:单卡 Tesla V100-PCIE-32GB,每游戏 50 评估回合
Card 06 评估与结果

评估与结果

  • LIBERO 基准:PDF 达到最高平均成功率 0.77(排名 2.5),Spatial 套件 0.90,Goal 套件 0.86,Long 套件 0.59(+4.1% 超越最佳基线)
  • Atari-57:人类标准化分数达到 1.07(基线 0.97,+0.10),47/57 游戏性能提升,最大增益出现在 BOXING (+60.25%) 和 TIME PILOT (+53%)
  • 消融实验:数据增强和延迟反馈两个组件均对性能有贡献,KL 正则化项对稳定性至关重要,最佳数据增强预算设为 3