论文旨在解决 Vision-Language-Action (VLA) 模型在混合质量数据上训练后执行质量不一致的问题。

论文详情

Beyond Success: Refining Elegant Robot Manipulation from Mixed-Quality Data via Just-in-Time Intervention

2025-11-27 · 原文 · 翻译 · 2511.22555

论文旨在解决 Vision-Language-Action (VLA) 模型在混合质量数据上训练后执行质量不一致的问题。提出了一种解耦的优化框架，通过 Elegance Critic 和 Just-in-Time Intervention (JITI) 机制，在不重新训练基础策略的情况下提升机器人操作的优雅度。核心目标是让机器人控制不仅关注任务成功，还要关注动作执行的质量，即满足 Implicit Task C…

5 分钟读完 6 张阅读卡 Jilin University

一眼看懂封面预览

论文旨在解决 Vision-Language-Action (VLA) 模型在混合质量数据上训练后执行质量不一致的问题。

论文旨在解决 Vision-Language-Action (VLA) 模型在混合质量数据上训练后执行质量不一致的问题。
提出了一种解耦的优化框架，通过 Elegance Critic 和 Just-in-Time Intervention (JITI) 机制，在…
核心目标是让机器人控制不仅关注任务成功，还要关注动作执行的质量，即满足 Implicit Task Constraints (ITCs)。

Card 01 研究单位

研究单位

Jilin University
Microsoft Research Asia

Card 02 论文概述

论文概述

论文旨在解决 Vision-Language-Action (VLA) 模型在混合质量数据上训练后执行质量不一致的问题。
提出了一种解耦的优化框架，通过 Elegance Critic 和 Just-in-Time Intervention (JITI) 机制，在不重新训练基础策略的情况下提升机器人操作的优雅度。
核心目标是让机器人控制不仅关注任务成功，还要关注动作执行的质量，即满足 Implicit Task Constraints (ITCs)。

Card 03 核心贡献

核心贡献

形式化定义了 Elegant Execution，将其定义为对 Implicit Task Constraints (ITCs) 的可靠满足，超越了二元的成功标准。
构建了 LIBERO-Elegant Benchmark，这是一个用于评估操作执行质量的基准，包含明确的优雅度标准。
提出了一种非侵入式的优化框架，包含离线训练的 Elegance Critic 和推理时的 Just-in-Time Intervention (JITI) 机制。
在仿真和真实机器人环境中验证了方法的有效性，显著提升了执行质量。

Card 04 方法描述

方法描述

方法分为三个阶段：基础策略训练、优雅度评价器训练和即时干预。
Stage 1：使用 Flow-matching 生成模型在混合质量数据上训练基础 VLA 策略，捕捉人类行为的整体分布。
Stage 2：利用 LIBERO-Elegant 数据集的细粒度奖励标注，通过 Calibrated Q-Learning (Cal-QL) 算法离线训练 Elegance Critic，以评估动作的优雅度。
Stage 3：提出 Just-in-Time Intervention (JITI) 算法，通过监控 Q 值的波动来识别关键决策时刻，仅在关键点进行多候选动作采样并选择最优动作。

Card 05 数据集与资源

数据集与资源

提出了 LIBERO-Elegant Benchmark，包含 8 个操作任务、327 个演示片段和约 52.7K 帧的数据。
基础模型包括 SmolVLA (450M) 和 Isaac GR00T N1.5 (3B)，评价器使用了 SmolVLM2-256M-Video-Instruct 和 Eagle2-1B。
训练资源包括 NVIDIA RTX 5090 GPU 和 NVIDIA A40 GPU。
真实世界实验使用了 SO-100 机械臂。

Card 06 评估与结果

评估与结果

评估指标为 Elegant Success Rate (ESR)，要求任务成功且满足所有优雅度约束。
在 LIBERO-Elegant 仿真基准上，结合 JITI 的 SmolVLA 平均 ESR 从 49.8% 提升至 67.2%，GR00T N1.5 从 46.0% 提升至 67.2%。
消融实验表明，JITI 机制比全时干预更高效，干预次数减少超过 60%。
在真实世界任务中，JITI 将 SO-100 机械臂的平均 ESR 从 34.3% 提升至 58.0%，证明了其有效性。