Move-Then-Operate 是一种受人类运动策略启发的 Vision-Language-Action（VLA）框架，明确将机器人操作任…

论文详情

Move-Then-Operate: Behavioral Phasing for Human-Like Robotic Manipulation

2026-04-26 · 原文 · 翻译 · 2604.23620

Move-Then-Operate 是一种受人类运动策略启发的 Vision-Language-Action（VLA）框架，明确将机器人操作任务解耦为两个不同的行为阶段：move（移动）阶段执行粗略的重定位，operate（操作）阶段执行精细的接触密集型交互核心问题：现有单片式策略（monolithic policies）将异质的运动模式混合学习，导致优化不稳定和梯度干扰，特别是在高精密操作任务中表现不佳解…

6 分钟读完 6 张阅读卡上海交通大学（Shanghai Jiao Tong University）- Haoming Xu…

一眼看懂封面预览

Move-Then-Operate 是一种受人类运动策略启发的 Vision-Language-Action（VLA）框架，明确将机器人操作任…

Move-Then-Operate 是一种受人类运动策略启发的 Vision-Language-Action（VLA）框架，明确将机器人操作任…
核心问题：现有单片式策略（monolithic policies）将异质的运动模式混合学习，导致优化不稳定和梯度干扰，特别是在高精密操作任务中…
解决方案：采用双专家策略路由架构，通过可学习的相位选择器在不同阶段激活对应的专门专家，有效解决优化冲突并提升高精度控制的性能

Card 01 研究单位

研究单位

上海交通大学（Shanghai Jiao Tong University）- Haoming Xu, Lei Lei, Jie Gu, Chu Tang, Jingmin Chen, Ruiqi Wang

Card 02 论文概述

论文概述

Move-Then-Operate 是一种受人类运动策略启发的 Vision-Language-Action（VLA）框架，明确将机器人操作任务解耦为两个不同的行为阶段：move（移动） 阶段执行粗略的重定位，operate（操作） 阶段执行精细的接触密集型交互
核心问题：现有单片式策略（monolithic policies）将异质的运动模式混合学习，导致优化不稳定和梯度干扰，特别是在高精密操作任务中表现不佳
解决方案：采用双专家策略路由架构，通过可学习的相位选择器在不同阶段激活对应的专门专家，有效解决优化冲突并提升高精度控制的性能

Card 03 核心贡献

核心贡献

双专家 VLA 框架：提出 Move-Then-Operate 架构，通过结构化归纳偏置显式解耦长距离移动与接触丰富的精细操作，利用条件流匹配（Conditional Flow Matching）参数化两个专门的专家
自动化相位标注 pipeline：开发基于多模态大语言模型（MLLM）的数据标注流程，结合子任务分解和上下文线索（如末端执行器速度）生成与人类操作模式对齐的高质量相位标签
显著性能提升：在 RoboTwin2 基准上实现 68.9% 平均成功率，相比单片式 π₀ 基线提升 +24.1%，在接触密集型任务（如 Click Bell、Press Stapler）中提升尤为明显
卓越的数据与训练效率：仅使用 1/10 的训练数据 即可匹配或超越基线模型性能；收敛速度提升 40%，在 60k 训练步数时已达到基线最终性能

Card 04 方法描述

方法描述

双专家架构（Dual-Expert Architecture）：模型由共享的 VLM 主干和两个独立的专家头（E_Move 和 E_Operate）组成，每个专家维护独立的参数集，专门学习对应阶段的动作分布
Chunk 级路由（Chunk-Level Router）：采用块级路由器对整个动作块选择单一专家，确保时序一致性；路由器基于全局语义特征通过 MLP 预测相位分布
监督路由学习：使用教师强制策略（teacher-forcing），根据真实相位标签掩码计算损失，确保只有对应专家的梯度被更新
相位感知自动标注（Phase-Aware Auto-Labeling）：利用 MLLM 将演示轨迹分层分割为子任务和相位序列，结合拓扑约束和自验证机制生成相位标签

Card 05 数据集与资源

数据集与资源

基准数据集：RoboTwin2 双臂机器人操作基准
实验规模：8 个代表性任务，每个任务 50 条演示轨迹，共 50 个任务进行多任务预训练
评估方式：每个任务 100 次试验的平均成功率
训练资源：基于 π₀-base 检查点初始化，采用 LoRA 进行高效参数微调

Card 06 评估与结果

评估与结果

主要结果：在 50 条演示/任务的约束数据预算下，模型达到 68.9% 平均成功率，显著超越 π₀ 基线的 44.75%（+24.1%）
接触密集型任务表现：Click Bell 达 99%（提升 55%），Press Stapler 达 70%（提升 8%），Move Pillbottle pad 达 37%（提升 16%）
数据效率对比：与使用 10× 更多数据训练的 π₀.5* 和 GO-1* 基线相比，在接触丰富任务中表现更优（如 Press Stapler 93% vs 80%）
训练效率分析：在 60k 训练步数时已达到接近峰值的性能；任务特定微调在 5k-15k 步内快速收敛