提出 Atomic Action Slicing (AAS) 方法，将长时程机器人演示分解为短时的、与规划器对齐的原子动作（options）…

论文详情

Atomic Action Slicing: Planner-Aligned Options for Generalist VLA Agents

2025-12-12 · 原文 · 翻译 · 2512.11584

提出 Atomic Action Slicing (AAS) 方法，将长时程机器人演示分解为短时的、与规划器对齐的原子动作（options），以改善通用视觉-语言-动作（VLA）智能体的泛化能力解决当前VLA模型在分布外任务和新技能组合上表现退化的问题，通过提供具有符号预条件和后效应的可验证、可复用技能单元

6 分钟读完 6 张阅读卡 Sofia University 'St. Kliment Ohridski' (Sofia, Bul…

一眼看懂封面预览

提出 Atomic Action Slicing (AAS) 方法，将长时程机器人演示分解为短时的、与规划器对齐的原子动作（options）…

提出 Atomic Action Slicing (AAS) 方法，将长时程机器人演示分解为短时的、与规划器对齐的原子动作（options）…
解决当前VLA模型在分布外任务和新技能组合上表现退化的问题，通过提供具有符号预条件和后效应的可验证、可复用技能单元
方法贡献：提出三阶段AAS流水线（规划器引导发现、模式约束的LLM分割、验证与置信度分配），生成长时程演示的原子动作分割

Card 01 研究单位

研究单位

Sofia University 'St. Kliment Ohridski' (Sofia, Bulgaria)
Technical University of Sofia (Sofia, Bulgaria)
EEMCS, University of Twente (Twente, The Netherlands)
GATE Institute, Sofia University 'St. Kliment Ohridski' (Sofia, Bulgaria)

Card 02 论文概述

论文概述

提出 Atomic Action Slicing (AAS) 方法，将长时程机器人演示分解为短时的、与规划器对齐的原子动作（options），以改善通用视觉-语言-动作（VLA）智能体的泛化能力
解决当前VLA模型在分布外任务和新技能组合上表现退化的问题，通过提供具有符号预条件和后效应的可验证、可复用技能单元

Card 03 核心贡献

核心贡献

方法贡献：提出三阶段AAS流水线（规划器引导发现、模式约束的LLM分割、验证与置信度分配），生成长时程演示的原子动作分割
数据集贡献：构建 GATE-VLAP 数据集，包含2,124个经规划器对齐验证的原子片段，标注动作类型、时间跨度和置信度
学习改进贡献：在原子片段上微调 CLIP-RT+ 策略，显著提升任务成功率（LIBERO-Goal: 94.2%→95.3%，LIBERO-Long: 83.8%→88.8%）
规划-学习桥梁：建立符号规划器（STRIPS/HTN）与低层策略学习之间的接口，支持层次化训练和组合评估

Card 04 方法描述

方法描述

三阶段流程：（I）Discovery：使用 AutoGPT+P 规划器从BDDL场景描述生成有序原子动作计划；（II）Schema-Constrained Segmentation：利用多模态VLM（Gemini 2.5 Pro/Flash）在关键帧上进行受约束的时间边界预测；（III）Validation：通过数量、顺序、持续时间三项检查验证片段，并分配置信度分数
关键技术：模式约束保证片段连续性和覆盖性；关键帧抖动测试评估分割稳定性；置信度校准结合VLM内部信号、持续时间松弛和抖动一致性

Card 05 数据集与资源

数据集与资源

数据集：LIBERO 机器人操作基准（LIBERO-Goal: 434条演示，LIBERO-Long: 391条演示）
处理后规模：2,124个原子片段（LIBERO-Goal: 758个，LIBERO-Long: 1,366个）
分割模型：Gemini 2.5 Pro（主要）和 Gemini 2.5 Flash（对比）
下游策略：CLIP-RT+ VLA模型
数据发布：GATE-VLAP 数据集已公开至 HuggingFace

Card 06 评估与结果

评估与结果

评估基准：LIBERO-Goal（短时目标条件任务）和 LIBERO-Long（长时多步任务）
分割评估指标：序列准确率（SeqAcc）、编辑相似度（EditSim）、计数/顺序正确率（Cnt/Ord）、时间IoU（IoU_idx）、平均绝对误差（MAE_start/end/dur）、抖动稳定性（Stability@Jitter）
关键分割结果：Gemini 2.5 Pro 达到93%分割成功率，序列准确率≈1.0，Kendall's W > 0.91，显著优于Flash（74%成功率）
策略微调结果：CLIP-RT+AA（原子动作增强版）在LIBERO-Goal上达95.3%（+1.1%），在LIBERO-Long上达88.8%（+5.0%），超越最强基线约2个百分点