返回列表 VLA / Vision-Language-Action 每日论文卡
Atomic Action Slicing: Planner-Aligned Options for Generalist VLA Agents
提出 Atomic Action Slicing (AAS) 方法,将长时程机器人演示分解为短时的、与规划器对齐的原子动作(options)…

论文详情

Atomic Action Slicing: Planner-Aligned Options for Generalist VLA Agents

2025-12-12 · 原文 · 翻译 · 2512.11584

提出 Atomic Action Slicing (AAS) 方法,将长时程机器人演示分解为短时的、与规划器对齐的原子动作(options),以改善通用视觉-语言-动作(VLA)智能体的泛化能力 解决当前VLA模型在分布外任务和新技能组合上表现退化的问题,通过提供具有符号预条件和后效应的可验证、可复用技能单元

6 分钟读完 6 张阅读卡 Sofia University 'St. Kliment Ohridski' (Sofia, Bul…
一眼看懂 封面预览

提出 Atomic Action Slicing (AAS) 方法,将长时程机器人演示分解为短时的、与规划器对齐的原子动作(options)…

  • 提出 Atomic Action Slicing (AAS) 方法,将长时程机器人演示分解为短时的、与规划器对齐的原子动作(options)…
  • 解决当前VLA模型在分布外任务和新技能组合上表现退化的问题,通过提供具有符号预条件和后效应的可验证、可复用技能单元
  • 方法贡献:提出三阶段AAS流水线(规划器引导发现、模式约束的LLM分割、验证与置信度分配),生成长时程演示的原子动作分割
Card 01 研究单位

研究单位

  • Sofia University 'St. Kliment Ohridski' (Sofia, Bulgaria)
  • Technical University of Sofia (Sofia, Bulgaria)
  • EEMCS, University of Twente (Twente, The Netherlands)
  • GATE Institute, Sofia University 'St. Kliment Ohridski' (Sofia, Bulgaria)
Card 02 论文概述

论文概述

  • 提出 Atomic Action Slicing (AAS) 方法,将长时程机器人演示分解为短时的、与规划器对齐的原子动作(options),以改善通用视觉-语言-动作(VLA)智能体的泛化能力
  • 解决当前VLA模型在分布外任务和新技能组合上表现退化的问题,通过提供具有符号预条件和后效应的可验证、可复用技能单元
Card 03 核心贡献

核心贡献

  • 方法贡献:提出三阶段AAS流水线(规划器引导发现、模式约束的LLM分割、验证与置信度分配),生成长时程演示的原子动作分割
  • 数据集贡献:构建 GATE-VLAP 数据集,包含2,124个经规划器对齐验证的原子片段,标注动作类型、时间跨度和置信度
  • 学习改进贡献:在原子片段上微调 CLIP-RT+ 策略,显著提升任务成功率(LIBERO-Goal: 94.2%→95.3%,LIBERO-Long: 83.8%→88.8%)
  • 规划-学习桥梁:建立符号规划器(STRIPS/HTN)与低层策略学习之间的接口,支持层次化训练和组合评估
Card 04 方法描述

方法描述

  • 三阶段流程:(I)Discovery:使用 AutoGPT+P 规划器从BDDL场景描述生成有序原子动作计划;(II)Schema-Constrained Segmentation:利用多模态VLM(Gemini 2.5 Pro/Flash)在关键帧上进行受约束的时间边界预测;(III)Validation:通过数量、顺序、持续时间三项检查验证片段,并分配置信度分数
  • 关键技术:模式约束保证片段连续性和覆盖性;关键帧抖动测试评估分割稳定性;置信度校准结合VLM内部信号、持续时间松弛和抖动一致性
Card 05 数据集与资源

数据集与资源

  • 数据集LIBERO 机器人操作基准(LIBERO-Goal: 434条演示,LIBERO-Long: 391条演示)
  • 处理后规模:2,124个原子片段(LIBERO-Goal: 758个,LIBERO-Long: 1,366个)
  • 分割模型Gemini 2.5 Pro(主要)和 Gemini 2.5 Flash(对比)
  • 下游策略CLIP-RT+ VLA模型
  • 数据发布GATE-VLAP 数据集已公开至 HuggingFace
Card 06 评估与结果

评估与结果

  • 评估基准LIBERO-Goal(短时目标条件任务)和 LIBERO-Long(长时多步任务)
  • 分割评估指标:序列准确率(SeqAcc)、编辑相似度(EditSim)、计数/顺序正确率(Cnt/Ord)、时间IoU(IoU_idx)、平均绝对误差(MAE_start/end/dur)、抖动稳定性(Stability@Jitter)
  • 关键分割结果Gemini 2.5 Pro 达到93%分割成功率,序列准确率≈1.0,Kendall's W > 0.91,显著优于Flash(74%成功率)
  • 策略微调结果CLIP-RT+AA(原子动作增强版)在LIBERO-Goal上达95.3%(+1.1%),在LIBERO-Long上达88.8%(+5.0%),超越最强基线约2个百分点