返回列表 VLA / Vision-Language-Action 每日论文卡
Prepare Before You Act: Learning From Humans to Rearrange Initial States
研究如何让机器人像人类一样,在执行任务前先重组环境(rearrange initial states),以提高在分布外(out-of-dist…

论文详情

Prepare Before You Act: Learning From Humans to Rearrange Initial States

2025-09-22 · 原文 · 翻译 · 2509.18043

研究如何让机器人像人类一样,在执行任务前先重组环境(rearrange initial states),以提高在分布外(out-of-distribution)状态下的泛化能力 提出 ReSET(Restructuring States for Efficient policy Training)算法,使机器人能够在执行任务策略前先修改场景,将初始状态转化为更易处理的"锚定状态"(anchor states) 核心…

6 分钟读完 6 张阅读卡 Virginia Tech - Department of Mechanical Engineerin…
一眼看懂 封面预览

研究如何让机器人像人类一样,在执行任务前先重组环境(rearrange initial states),以提高在分布外(out-of-dist…

  • 研究如何让机器人像人类一样,在执行任务前先重组环境(rearrange initial states),以提高在分布外(out-of-dist…
  • 提出 ReSET(Restructuring States for Efficient policy Training)算法,使机器人能够在执…
  • 核心问题:传统模仿学习策略在遇到意外初始状态(如物体被遮挡、位置异常)时容易失败,通常需要大量训练数据才能解决
Card 01 研究单位

研究单位

  • Virginia Tech - Department of Mechanical Engineering, Collaborative Robotics Lab (Collab), Blacksburg, VA
  • 作者:Yinlong Dai, Andre Keyser, Dylan P. Losey
  • 资助:NSF Grant #2337884
Card 02 论文概述

论文概述

  • 研究如何让机器人像人类一样,在执行任务前先重组环境(rearrange initial states),以提高在分布外(out-of-distribution)状态下的泛化能力
  • 提出 ReSET(Restructuring States for Efficient policy Training)算法,使机器人能够在执行任务策略前先修改场景,将初始状态转化为更易处理的"锚定状态"(anchor states)
  • 核心问题:传统模仿学习策略在遇到意外初始状态(如物体被遮挡、位置异常)时容易失败,通常需要大量训练数据才能解决
Card 03 核心贡献

核心贡献

  • 理论贡献:证明学习"约简策略"(reduction policy)可以降低策略的泛化误差上界,并在相同数据量下实现更好的性能
  • 方法创新:提出基于流(flow-based)的约简策略,从动作无关的人类视频和任务无关的机器人play数据中学习重组环境的策略
  • 算法框架:ReSET包含三个关键组件——评分网络(决定何时重组)、流生成网络(预测物体运动)、约简策略(将预测转化为机器人动作)
  • 数据效率:实验表明ReSET只需约10分钟人工修正+20分钟机器人play数据,而扩散策略需要至少70个专家演示才能达到类似性能
Card 04 方法描述

方法描述

  • 评分网络(Scoring Network):基于人类视频训练,预测场景评分C,决定是否需要重组环境或直接执行基础策略;使用时间衰减函数模拟人类重组过程的优先级
  • 流生成网络(Flow Generation Network):使用CoTracker3从人类视频中提取物体点流(point flows),通过时空Transformer架构(DINOv2编码器)预测重组场景所需的点流
  • 约简策略(Reduction Policy):将预测的点流转化为机器人可执行的动作原语(pick-and-place, push-and-pull, rotation三种类型),在任务无关的机器人play数据上训练
  • 工作流程:评估当前观察→如果需要重组则执行约简策略→循环直到达到锚定状态→执行基础任务策略
Card 05 数据集与资源

数据集与资源

  • 实验平台:Franka Emika机械臂,GELLO控制器遥操作,双摄像头设置
  • 任务设置:4个真实世界任务(Pick-and-place, Reveal-and-pick, Rotate-and-place, Multi-task)
  • 训练数据

- 20个专家机器人演示(每个任务)

- 20个动作无关人类视频

- 20分钟任务无关机器人play数据

  • 测试场景:每个任务15个测试场景,约80%为分布外状态
Card 06 评估与结果

评估与结果

  • 评估指标:任务成功率
  • 对比基线:ReSET Naive, Diffusion Policy, Dynamics-DP, π₀ (VLA)
  • 主要结果

- ReSET在所有四个任务上成功率最高

- 在不同数据量下(20-100个演示),ReSET均优于Diffusion Policy

- 扩散策略需要至少70个专家演示才能达到与ReSET相当 performance

- 约简策略能够有效处理长时域任务(如reveal-and-pick中的多步重组)

  • 关键发现:基于流的约简策略比朴素匹配方法更灵活,能更好地适应物体位置的轻微变化