Reflection-Based Task Adaptation for Self-Improving VLA - VLA / Vision-Language-Action 每日论文卡

一眼看懂封面预览

提出 Reflective Self-Adaptation 框架，解决预训练 Vision-Language-Action (VLA) 模型在…

Card 01 研究单位

研究单位

Card 02 论文概述

提出 Reflective Self-Adaptation 框架，解决预训练 Vision-Language-Action (VLA) 模型在新环境中的快速适应问题，无需人工干预即可实现自主任务学习
核心挑战：现有 VLA 模型在部署到新环境时初始成功率低，强化学习样本效率差，导致任务精通过程漫长而困难
框架建立自改进闭环，通过从自身失败和成功中学习来协同提升策略和执行能力

Card 03 核心贡献

提出 Reflective Self-Adaptation 框架，一种新型双路径架构，实现 VLA 的自主现场自适应，系统性地从失败和成功中学习，实现快速稳健的任务掌握
引入 Failure-Driven Reflective RL 路径，围绕 Reflective Reward Synthesis 方法，利用 VLM 的因果推理从失败分析自动生成密集奖励
设计互补的 Success-Driven Quality-Guided SFT 路径，通过选择性模仿高质量成功轨迹来稳定学习并确保目标对齐，通过内在质量评估和 VLM 驱动的课程缓解奖励黑客和冷启动探索风险

Card 04 方法描述

Reflective Reward Synthesis：使用 VLM 进行四阶段推理（因果分析→组件选择→关系识别→结构化配置生成），构建模块化奖励函数
奖励组件库：包含位置组件（如 approach, avoid, maintain_distance）、姿态组件、运动学组件、状态组件
关系处理器：AND（加权求和）、IF（条件调制）、OR（最大选择）用于组合奖励组件
策略优化：使用 PPO 算法，结合 GAE 估计优势函数
质量引导 SFT：基于累积反射奖励和轨迹长度计算质量分数，使用优先经验回放采样
条件课程机制：当主任务成功率低于阈值时，激活课程学习生成简化任务

Card 05 数据集与资源

数据集：LIBERO 基准（4个子集：Spatial, Object, Goal, Long）、LIBERO-Adapt（自定义困难任务套件，10个场景）
基础模型：OpenVLA-7B
VLM：GPT-4o 用于反思推理
训练资源：8 张 A800 GPU，每 5 轮执行一次反思过程

Card 06 评估与结果

- LIBERO 四个子集平均成功率达 83.6%，超越 VLA-RL (81.0%) 等基线

- LIBERO-Adapt 上收敛速度显著快于 VLA-RL 和 Sparse RL 基线

- 消融实验表明去除任一核心组件均导致性能下降，去除 Success-Driven SFT 完全失败 (0.0%)