Keyframe-Guided Structured Rewards for Reinforcement Learning in Long-Horizon Laboratory Robotics

一眼看懂封面预览

论文提出一个关键帧引导的奖励生成框架，用于解决实验室自动化中长时域、高精度操作（如移液器尖端安装、液体转移）面临的奖励稀疏、多阶段结构约束及演…

Card 01 研究单位

研究单位

Card 02 论文概述

论文提出一个关键帧引导的奖励生成框架，用于解决实验室自动化中长时域、高精度操作（如移液器尖端安装、液体转移）面临的奖励稀疏、多阶段结构约束及演示数据不完美的挑战。
核心目标是通过自动从演示中提取关键帧并转化为阶段性的密集奖励信号，提升强化学习在长时域任务中的样本效率与收敛稳定性。
该方法旨在无需人工设计奖励函数或高质量专家演示的情况下，实现策略优化与生物实验流程内在逻辑的对齐。

Card 03 核心贡献

Card 04 方法描述

潜在动力学关键帧提取：分析演示序列中特征的速度与加速度，通过转折点挖掘和固定预算选择，自动提取代表关键操作节点（如定位、吸取、提升）的关键帧。
生成式扩散奖励系统：训练一个扩散模型，根据初始观测和任务指令生成潜在空间中的阶段目标序列。通过计算当前状态与目标序列在潜在空间的余弦相似度，跟踪任务进度并计算基于几何级数的阶段性奖励。
在线策略演化：基于Octo视觉-语言-动作模型，使用一致性策略进行高效推理。采用Hil-ConRFT框架进行训练，结合在线回放缓冲区和演示缓冲区的混合采样，并通过人机交互收集修正数据。

Card 05 数据集与资源

Card 06 评估与结果

- 方法在四个任务上平均成功率达到 82%，显著优于基线方法：HG-DAgger (42%)、Hil-ConRFT (47%) 和 Hil-SERL (0%)。

- 在最具挑战性的“精准液体转移”任务上，方法成功率达到 100%，而所有基线方法均近乎失败。

- 消融实验证明，关键帧提取机制能将“核心里程碑召回率”从 0.525 提升至 0.938，关键帧引导奖励对任务成功至关重要。