Prepare Before You Act: Learning From Humans to Rearrange Initial States

一眼看懂封面预览

研究如何让机器人像人类一样，在执行任务前先重组环境（rearrange initial states），以提高在分布外（out-of-dist…

Card 01 研究单位

研究单位

Virginia Tech - Department of Mechanical Engineering, Collaborative Robotics Lab (Collab), Blacksburg, VA
作者：Yinlong Dai, Andre Keyser, Dylan P. Losey
资助：NSF Grant #2337884

Card 02 论文概述

研究如何让机器人像人类一样，在执行任务前先重组环境（rearrange initial states），以提高在分布外（out-of-distribution）状态下的泛化能力
提出 ReSET（Restructuring States for Efficient policy Training）算法，使机器人能够在执行任务策略前先修改场景，将初始状态转化为更易处理的"锚定状态"（anchor states）
核心问题：传统模仿学习策略在遇到意外初始状态（如物体被遮挡、位置异常）时容易失败，通常需要大量训练数据才能解决

Card 03 核心贡献

Card 04 方法描述

评分网络（Scoring Network）：基于人类视频训练，预测场景评分C，决定是否需要重组环境或直接执行基础策略；使用时间衰减函数模拟人类重组过程的优先级
流生成网络（Flow Generation Network）：使用CoTracker3从人类视频中提取物体点流（point flows），通过时空Transformer架构（DINOv2编码器）预测重组场景所需的点流
约简策略（Reduction Policy）：将预测的点流转化为机器人可执行的动作原语（pick-and-place, push-and-pull, rotation三种类型），在任务无关的机器人play数据上训练
工作流程：评估当前观察→如果需要重组则执行约简策略→循环直到达到锚定状态→执行基础任务策略

Card 05 数据集与资源

实验平台：Franka Emika机械臂，GELLO控制器遥操作，双摄像头设置
任务设置：4个真实世界任务（Pick-and-place, Reveal-and-pick, Rotate-and-place, Multi-task）
训练数据：

- 20个专家机器人演示（每个任务）

- 20个动作无关人类视频

- 20分钟任务无关机器人play数据

Card 06 评估与结果

- ReSET在所有四个任务上成功率最高

- 在不同数据量下（20-100个演示），ReSET均优于Diffusion Policy

- 扩散策略需要至少70个专家演示才能达到与ReSET相当 performance

- 约简策略能够有效处理长时域任务（如reveal-and-pick中的多步重组）