返回列表 VLA / Vision-Language-Action 每日论文卡
Move-Then-Operate: Behavioral Phasing for Human-Like Robotic Manipulation
Move-Then-Operate 是一种受人类运动策略启发的 Vision-Language-Action(VLA)框架,明确将机器人操作任…

论文详情

Move-Then-Operate: Behavioral Phasing for Human-Like Robotic Manipulation

2026-04-26 · 原文 · 翻译 · 2604.23620

Move-Then-Operate 是一种受人类运动策略启发的 Vision-Language-Action(VLA)框架,明确将机器人操作任务解耦为两个不同的行为阶段:move(移动) 阶段执行粗略的重定位,operate(操作) 阶段执行精细的接触密集型交互 核心问题:现有单片式策略(monolithic policies)将异质的运动模式混合学习,导致优化不稳定和梯度干扰,特别是在高精密操作任务中表现不佳 解…

6 分钟读完 6 张阅读卡 上海交通大学(Shanghai Jiao Tong University)- Haoming Xu…
一眼看懂 封面预览

Move-Then-Operate 是一种受人类运动策略启发的 Vision-Language-Action(VLA)框架,明确将机器人操作任…

  • Move-Then-Operate 是一种受人类运动策略启发的 Vision-Language-Action(VLA)框架,明确将机器人操作任…
  • 核心问题:现有单片式策略(monolithic policies)将异质的运动模式混合学习,导致优化不稳定和梯度干扰,特别是在高精密操作任务中…
  • 解决方案:采用双专家策略路由架构,通过可学习的相位选择器在不同阶段激活对应的专门专家,有效解决优化冲突并提升高精度控制的性能
Card 01 研究单位

研究单位

  • 上海交通大学(Shanghai Jiao Tong University)- Haoming Xu, Lei Lei, Jie Gu, Chu Tang, Jingmin Chen, Ruiqi Wang
Card 02 论文概述

论文概述

  • Move-Then-Operate 是一种受人类运动策略启发的 Vision-Language-Action(VLA)框架,明确将机器人操作任务解耦为两个不同的行为阶段:move(移动) 阶段执行粗略的重定位,operate(操作) 阶段执行精细的接触密集型交互
  • 核心问题:现有单片式策略(monolithic policies)将异质的运动模式混合学习,导致优化不稳定和梯度干扰,特别是在高精密操作任务中表现不佳
  • 解决方案:采用双专家策略路由架构,通过可学习的相位选择器在不同阶段激活对应的专门专家,有效解决优化冲突并提升高精度控制的性能
Card 03 核心贡献

核心贡献

  • 双专家 VLA 框架:提出 Move-Then-Operate 架构,通过结构化归纳偏置显式解耦长距离移动与接触丰富的精细操作,利用条件流匹配(Conditional Flow Matching)参数化两个专门的专家
  • 自动化相位标注 pipeline:开发基于多模态大语言模型(MLLM)的数据标注流程,结合子任务分解和上下文线索(如末端执行器速度)生成与人类操作模式对齐的高质量相位标签
  • 显著性能提升:在 RoboTwin2 基准上实现 68.9% 平均成功率,相比单片式 π₀ 基线提升 +24.1%,在接触密集型任务(如 Click Bell、Press Stapler)中提升尤为明显
  • 卓越的数据与训练效率:仅使用 1/10 的训练数据 即可匹配或超越基线模型性能;收敛速度提升 40%,在 60k 训练步数时已达到基线最终性能
Card 04 方法描述

方法描述

  • 双专家架构(Dual-Expert Architecture):模型由共享的 VLM 主干和两个独立的专家头(E_Move 和 E_Operate)组成,每个专家维护独立的参数集,专门学习对应阶段的动作分布
  • Chunk 级路由(Chunk-Level Router):采用块级路由器对整个动作块选择单一专家,确保时序一致性;路由器基于全局语义特征通过 MLP 预测相位分布
  • 监督路由学习:使用教师强制策略(teacher-forcing),根据真实相位标签掩码计算损失,确保只有对应专家的梯度被更新
  • 相位感知自动标注(Phase-Aware Auto-Labeling):利用 MLLM 将演示轨迹分层分割为子任务和相位序列,结合拓扑约束和自验证机制生成相位标签
Card 05 数据集与资源

数据集与资源

  • 基准数据集RoboTwin2 双臂机器人操作基准
  • 实验规模:8 个代表性任务,每个任务 50 条演示轨迹,共 50 个任务进行多任务预训练
  • 评估方式:每个任务 100 次试验的平均成功率
  • 训练资源:基于 π₀-base 检查点初始化,采用 LoRA 进行高效参数微调
Card 06 评估与结果

评估与结果

  • 主要结果:在 50 条演示/任务的约束数据预算下,模型达到 68.9% 平均成功率,显著超越 π₀ 基线的 44.75%(+24.1%)
  • 接触密集型任务表现:Click Bell 达 99%(提升 55%),Press Stapler 达 70%(提升 8%),Move Pillbottle pad 达 37%(提升 16%)
  • 数据效率对比:与使用 10× 更多数据训练的 π₀.5* 和 GO-1* 基线相比,在接触丰富任务中表现更优(如 Press Stapler 93% vs 80%)
  • 训练效率分析:在 60k 训练步数时已达到接近峰值的性能;任务特定微调在 5k-15k 步内快速收敛