一眼看懂
封面预览
论文针对现有 Vision-Language-Action (VLA) 模型在执行过程中无法动态响应用户意图变化(即任务切换)的问题,提出了…
- 论文针对现有 Vision-Language-Action (VLA) 模型在执行过程中无法动态响应用户意图变化(即任务切换)的问题,提出了…
- 该框架将任务切换建模为基于执行状态和指令上下文的行为调制问题,无需外部规划器或额外的切换专用数据即可实现平滑、反应式的任务切换。
- 模型通过分段专家演示轨迹并引入接触状态和行为模式等监督信号,使机器人能够在动态环境中根据新指令执行前进、回滚或推进操作。
Card 01
研究单位
研究单位
- Beijing Innovation Center of Humanoid Robotics
Card 02
论文概述
论文概述
- 论文针对现有 Vision-Language-Action (VLA) 模型在执行过程中无法动态响应用户意图变化(即任务切换)的问题,提出了 SwitchVLA 框架。
- 该框架将任务切换建模为基于执行状态和指令上下文的行为调制问题,无需外部规划器或额外的切换专用数据即可实现平滑、反应式的任务切换。
- 模型通过分段专家演示轨迹并引入接触状态和行为模式等监督信号,使机器人能够在动态环境中根据新指令执行前进、回滚或推进操作。
Card 03
核心贡献
核心贡献
- 提出了 SwitchVLA,一个统一的执行感知框架,能够在不依赖额外切换专用数据的情况下支持动态任务切换。
- 设计了一种多行为条件策略,能够在单一策略骨干中平滑地执行 forward(前进)、rollback(回滚)和 advance(推进)动作。
- 引入了基于接触状态和行为模式的监督信号,利用轨迹解析自动获取标签,引导模型适应动态执行。
- 在仿真和真实世界机器人操作任务中验证了方法的有效性,显著提升了任务切换的平滑度和指令遵循能力。
Card 04
方法描述
方法描述
- 模型架构包含 VLC Embedding Module 和 Conditional Execution Expert,前者融合多视角视觉、语言指令和接触线索,后者负责解码行为感知的动作。
- 关键技术创新在于定义了三种行为模式:forward(标准执行)、rollback(在接触状态下检测到意图不匹配时撤销先前动作)和 advance(无接触时跳转到新子任务)。
- 训练过程中使用流匹配损失优化动作序列,并使用分类损失监督接触状态和行为模式。
- 利用预训练的 VLM(如 GPT-4o)自动标注轨迹数据中的接触时间间隔,提供弱监督信号。
Card 05
数据集与资源
数据集与资源
- 仿真环境使用 LIBERO-Goal 基准进行评估。
- 真实世界实验使用 Franka 机械臂进行操作任务测试。
- 模型骨干基于 Florence 2 架构进行构建。
- 训练数据包含专家演示轨迹,并自动标注了接触状态和行为模式标签。
Card 06
评估与结果
评估与结果
- 评估环境包括 LIBERO-Goal 仿真任务和真实世界的 Franka 工作站任务。
- 评估协议包括成对切换评估(在执行早期、中期、晚期发送新指令)和长序列切换评估。
- 主要评估指标为任务切换的成功率和交互的自然度。
- 实验结果表明,SwitchVLA 在任务切换成功率、恢复有效性和指令遵循方面均优于现有的 VLA 基线模型。