一眼看懂
封面预览
提出 Atomic Action Slicing (AAS) 方法,将长时程机器人演示分解为短时的、与规划器对齐的原子动作(options)…
- 提出 Atomic Action Slicing (AAS) 方法,将长时程机器人演示分解为短时的、与规划器对齐的原子动作(options)…
- 解决当前VLA模型在分布外任务和新技能组合上表现退化的问题,通过提供具有符号预条件和后效应的可验证、可复用技能单元
- 方法贡献:提出三阶段AAS流水线(规划器引导发现、模式约束的LLM分割、验证与置信度分配),生成长时程演示的原子动作分割
Card 01
研究单位
研究单位
- Sofia University 'St. Kliment Ohridski' (Sofia, Bulgaria)
- Technical University of Sofia (Sofia, Bulgaria)
- EEMCS, University of Twente (Twente, The Netherlands)
- GATE Institute, Sofia University 'St. Kliment Ohridski' (Sofia, Bulgaria)
Card 02
论文概述
论文概述
- 提出 Atomic Action Slicing (AAS) 方法,将长时程机器人演示分解为短时的、与规划器对齐的原子动作(options),以改善通用视觉-语言-动作(VLA)智能体的泛化能力
- 解决当前VLA模型在分布外任务和新技能组合上表现退化的问题,通过提供具有符号预条件和后效应的可验证、可复用技能单元
Card 03
核心贡献
核心贡献
- 方法贡献:提出三阶段AAS流水线(规划器引导发现、模式约束的LLM分割、验证与置信度分配),生成长时程演示的原子动作分割
- 数据集贡献:构建 GATE-VLAP 数据集,包含2,124个经规划器对齐验证的原子片段,标注动作类型、时间跨度和置信度
- 学习改进贡献:在原子片段上微调 CLIP-RT+ 策略,显著提升任务成功率(LIBERO-Goal: 94.2%→95.3%,LIBERO-Long: 83.8%→88.8%)
- 规划-学习桥梁:建立符号规划器(STRIPS/HTN)与低层策略学习之间的接口,支持层次化训练和组合评估
Card 04
方法描述
方法描述
- 三阶段流程:(I)Discovery:使用 AutoGPT+P 规划器从BDDL场景描述生成有序原子动作计划;(II)Schema-Constrained Segmentation:利用多模态VLM(Gemini 2.5 Pro/Flash)在关键帧上进行受约束的时间边界预测;(III)Validation:通过数量、顺序、持续时间三项检查验证片段,并分配置信度分数
- 关键技术:模式约束保证片段连续性和覆盖性;关键帧抖动测试评估分割稳定性;置信度校准结合VLM内部信号、持续时间松弛和抖动一致性
Card 05
数据集与资源
数据集与资源
- 数据集:LIBERO 机器人操作基准(LIBERO-Goal: 434条演示,LIBERO-Long: 391条演示)
- 处理后规模:2,124个原子片段(LIBERO-Goal: 758个,LIBERO-Long: 1,366个)
- 分割模型:Gemini 2.5 Pro(主要)和 Gemini 2.5 Flash(对比)
- 下游策略:CLIP-RT+ VLA模型
- 数据发布:GATE-VLAP 数据集已公开至 HuggingFace
Card 06
评估与结果
评估与结果
- 评估基准:LIBERO-Goal(短时目标条件任务)和 LIBERO-Long(长时多步任务)
- 分割评估指标:序列准确率(SeqAcc)、编辑相似度(EditSim)、计数/顺序正确率(Cnt/Ord)、时间IoU(IoU_idx)、平均绝对误差(MAE_start/end/dur)、抖动稳定性(Stability@Jitter)
- 关键分割结果:Gemini 2.5 Pro 达到93%分割成功率,序列准确率≈1.0,Kendall's W > 0.91,显著优于Flash(74%成功率)
- 策略微调结果:CLIP-RT+AA(原子动作增强版)在LIBERO-Goal上达95.3%(+1.1%),在LIBERO-Long上达88.8%(+5.0%),超越最强基线约2个百分点