返回列表 VLA / Vision-Language-Action 每日论文卡
Beyond Success: Refining Elegant Robot Manipulation from Mixed-Quality Data via Just-in-Time Intervention
论文旨在解决 Vision-Language-Action (VLA) 模型在混合质量数据上训练后执行质量不一致的问题。

论文详情

Beyond Success: Refining Elegant Robot Manipulation from Mixed-Quality Data via Just-in-Time Intervention

2025-11-27 · 原文 · 翻译 · 2511.22555

论文旨在解决 Vision-Language-Action (VLA) 模型在混合质量数据上训练后执行质量不一致的问题。 提出了一种解耦的优化框架,通过 Elegance Critic 和 Just-in-Time Intervention (JITI) 机制,在不重新训练基础策略的情况下提升机器人操作的优雅度。 核心目标是让机器人控制不仅关注任务成功,还要关注动作执行的质量,即满足 Implicit Task C…

5 分钟读完 6 张阅读卡 Jilin University
一眼看懂 封面预览

论文旨在解决 Vision-Language-Action (VLA) 模型在混合质量数据上训练后执行质量不一致的问题。

  • 论文旨在解决 Vision-Language-Action (VLA) 模型在混合质量数据上训练后执行质量不一致的问题。
  • 提出了一种解耦的优化框架,通过 Elegance Critic 和 Just-in-Time Intervention (JITI) 机制,在…
  • 核心目标是让机器人控制不仅关注任务成功,还要关注动作执行的质量,即满足 Implicit Task Constraints (ITCs)。
Card 01 研究单位

研究单位

  • Jilin University
  • Microsoft Research Asia
Card 02 论文概述

论文概述

  • 论文旨在解决 Vision-Language-Action (VLA) 模型在混合质量数据上训练后执行质量不一致的问题。
  • 提出了一种解耦的优化框架,通过 Elegance CriticJust-in-Time Intervention (JITI) 机制,在不重新训练基础策略的情况下提升机器人操作的优雅度。
  • 核心目标是让机器人控制不仅关注任务成功,还要关注动作执行的质量,即满足 Implicit Task Constraints (ITCs)
Card 03 核心贡献

核心贡献

  • 形式化定义了 Elegant Execution,将其定义为对 Implicit Task Constraints (ITCs) 的可靠满足,超越了二元的成功标准。
  • 构建了 LIBERO-Elegant Benchmark,这是一个用于评估操作执行质量的基准,包含明确的优雅度标准。
  • 提出了一种非侵入式的优化框架,包含离线训练的 Elegance Critic 和推理时的 Just-in-Time Intervention (JITI) 机制。
  • 在仿真和真实机器人环境中验证了方法的有效性,显著提升了执行质量。
Card 04 方法描述

方法描述

  • 方法分为三个阶段:基础策略训练、优雅度评价器训练和即时干预。
  • Stage 1:使用 Flow-matching 生成模型在混合质量数据上训练基础 VLA 策略,捕捉人类行为的整体分布。
  • Stage 2:利用 LIBERO-Elegant 数据集的细粒度奖励标注,通过 Calibrated Q-Learning (Cal-QL) 算法离线训练 Elegance Critic,以评估动作的优雅度。
  • Stage 3:提出 Just-in-Time Intervention (JITI) 算法,通过监控 Q 值的波动来识别关键决策时刻,仅在关键点进行多候选动作采样并选择最优动作。
Card 05 数据集与资源

数据集与资源

  • 提出了 LIBERO-Elegant Benchmark,包含 8 个操作任务327 个演示片段和约 52.7K 帧的数据。
  • 基础模型包括 SmolVLA (450M)Isaac GR00T N1.5 (3B),评价器使用了 SmolVLM2-256M-Video-InstructEagle2-1B
  • 训练资源包括 NVIDIA RTX 5090 GPU 和 NVIDIA A40 GPU。
  • 真实世界实验使用了 SO-100 机械臂。
Card 06 评估与结果

评估与结果

  • 评估指标为 Elegant Success Rate (ESR),要求任务成功且满足所有优雅度约束。
  • LIBERO-Elegant 仿真基准上,结合 JITI 的 SmolVLA 平均 ESR 从 49.8% 提升至 67.2%GR00T N1.5 从 46.0% 提升至 67.2%
  • 消融实验表明,JITI 机制比全时干预更高效,干预次数减少超过 60%
  • 在真实世界任务中,JITI 将 SO-100 机械臂的平均 ESR 从 34.3% 提升至 58.0%,证明了其有效性。