返回列表 VLA / Vision-Language-Action 每日论文卡
Reflection-Based Task Adaptation for Self-Improving VLA
提出 Reflective Self-Adaptation 框架,解决预训练 Vision-Language-Action (VLA) 模型在…

论文详情

Reflection-Based Task Adaptation for Self-Improving VLA

2025-10-14 · 原文 · 翻译 · 2510.12710

提出 Reflective Self-Adaptation 框架,解决预训练 Vision-Language-Action (VLA) 模型在新环境中的快速适应问题,无需人工干预即可实现自主任务学习 核心挑战:现有 VLA 模型在部署到新环境时初始成功率低,强化学习样本效率差,导致任务精通过程漫长而困难 框架建立自改进闭环,通过从自身失败和成功中学习来协同提升策略和执行能力

5 分钟读完 6 张阅读卡 北京大学智能科学与技术学院 (Peking University)
一眼看懂 封面预览

提出 Reflective Self-Adaptation 框架,解决预训练 Vision-Language-Action (VLA) 模型在…

  • 提出 Reflective Self-Adaptation 框架,解决预训练 Vision-Language-Action (VLA) 模型在…
  • 核心挑战:现有 VLA 模型在部署到新环境时初始成功率低,强化学习样本效率差,导致任务精通过程漫长而困难
  • 框架建立自改进闭环,通过从自身失败和成功中学习来协同提升策略和执行能力
Card 01 研究单位

研究单位

  • 北京大学智能科学与技术学院 (Peking University)
  • 京东探索研究院 (JD Explore Academy)
  • 清华大学智能产业研究院 (AIR, Tsinghua University)
Card 02 论文概述

论文概述

  • 提出 Reflective Self-Adaptation 框架,解决预训练 Vision-Language-Action (VLA) 模型在新环境中的快速适应问题,无需人工干预即可实现自主任务学习
  • 核心挑战:现有 VLA 模型在部署到新环境时初始成功率低,强化学习样本效率差,导致任务精通过程漫长而困难
  • 框架建立自改进闭环,通过从自身失败和成功中学习来协同提升策略和执行能力
Card 03 核心贡献

核心贡献

  • 提出 Reflective Self-Adaptation 框架,一种新型双路径架构,实现 VLA 的自主现场自适应,系统性地从失败和成功中学习,实现快速稳健的任务掌握
  • 引入 Failure-Driven Reflective RL 路径,围绕 Reflective Reward Synthesis 方法,利用 VLM 的因果推理从失败分析自动生成密集奖励
  • 设计互补的 Success-Driven Quality-Guided SFT 路径,通过选择性模仿高质量成功轨迹来稳定学习并确保目标对齐,通过内在质量评估和 VLM 驱动的课程缓解奖励黑客和冷启动探索风险
Card 04 方法描述

方法描述

  • Reflective Reward Synthesis:使用 VLM 进行四阶段推理(因果分析→组件选择→关系识别→结构化配置生成),构建模块化奖励函数
  • 奖励组件库:包含位置组件(如 approach, avoid, maintain_distance)、姿态组件、运动学组件、状态组件
  • 关系处理器:AND(加权求和)、IF(条件调制)、OR(最大选择)用于组合奖励组件
  • 策略优化:使用 PPO 算法,结合 GAE 估计优势函数
  • 质量引导 SFT:基于累积反射奖励和轨迹长度计算质量分数,使用优先经验回放采样
  • 条件课程机制:当主任务成功率低于阈值时,激活课程学习生成简化任务
Card 05 数据集与资源

数据集与资源

  • 数据集:LIBERO 基准(4个子集:Spatial, Object, Goal, Long)、LIBERO-Adapt(自定义困难任务套件,10个场景)
  • 基础模型:OpenVLA-7B
  • VLM:GPT-4o 用于反思推理
  • 训练资源:8 张 A800 GPU,每 5 轮执行一次反思过程
Card 06 评估与结果

评估与结果

  • 评估环境:LIBERO 模拟器
  • 主要指标:成功率 (Success Rate)
  • 关键结果

- LIBERO 四个子集平均成功率达 83.6%,超越 VLA-RL (81.0%) 等基线

- LIBERO-Adapt 上收敛速度显著快于 VLA-RL 和 Sparse RL 基线

- 消融实验表明去除任一核心组件均导致性能下降,去除 Success-Driven SFT 完全失败 (0.0%)