一眼看懂
封面预览
论文针对移动操作中存在的核心挑战:如何在保持多模态动作多样性的同时,实现高效的闭环控制并解决动作分块导致的漂移问题。
- 论文针对移动操作中存在的核心挑战:如何在保持多模态动作多样性的同时,实现高效的闭环控制并解决动作分块导致的漂移问题。
- 传统的 L1 回归策略在多模态分布下会产生“模式平均”,导致无效动作;而标准扩散策略虽然能建模多模态分布,但推理成本高且易在长序列执行中积累误…
- 提出了 AnchorVLA,一种基于锚点扩散的 VLA 策略,通过锚点引导和测试时残差修正,在低延迟推理下实现了稳定且多样的移动操作。
Card 01
研究单位
研究单位
- UQMM Lab, The University of Queensland (澳大利亚布里斯班)
- Robotics and Autonomous Systems Group, CSIRO (澳大利亚布里斯班)
Card 02
论文概述
论文概述
- 论文针对移动操作中存在的核心挑战:如何在保持多模态动作多样性的同时,实现高效的闭环控制并解决动作分块导致的漂移问题。
- 传统的 L1 回归策略在多模态分布下会产生“模式平均”,导致无效动作;而标准扩散策略虽然能建模多模态分布,但推理成本高且易在长序列执行中积累误差。
- 提出了 AnchorVLA,一种基于锚点扩散的 VLA 策略,通过锚点引导和测试时残差修正,在低延迟推理下实现了稳定且多样的移动操作。
Card 03
核心贡献
核心贡献
- 提出了 AnchorVLA 框架,首个将锚点截断扩散机制应用于机器人操作领域,有效解决了移动操作中的多模态与效率权衡问题。
- 设计了 Anchored Truncated Diffusion Action Head,利用轨迹词汇库作为先验锚点,大幅缩短去噪步数,降低推理延迟。
- 引入了 Residual Correction Module,一种测试时的自修正机制,通过预测高频微调整来缓解开环执行中的漂移,提升长时序任务的鲁棒性。
- 在 ManiSkill-HAB 基准测试中取得了 64.0% 的最高平均成功率,并在真实四足机器人平台上验证了算法的有效性。
Card 04
方法描述
方法描述
- 模型基于轻量级 VLA-Adapter 骨干网络(LoRA 微调的 VLM),用于提取视觉和语言特征。
- 构建了一个“轨迹词汇库”,通过聚类专家演示生成代表性锚点轨迹;扩散过程不从纯噪声开始,而是围绕选定的锚点进行截断去噪。
- 设计了一个锚点评分头,评估生成的轨迹与当前上下文的匹配度,选择最优轨迹执行。
- 引入轻量级残差修正模块,在执行动作序列时预测状态相关的微调整($\Delta a$),修正累积的运动学误差。
Card 05
数据集与资源
数据集与资源
- 使用 ManiSkill-HAB 仿真基准数据集,包含 SetTable 场景下的 6 种任务(Pick, Place, Open, Close)。
- 真实世界数据通过 Meta Quest 3 VR 设备遥操作采集,部署在 Unitree Go2 Edu 四足机器人(配备 SO101 机械臂)上。
- 模型骨干参数量约 726M,残差修正模块仅增加 57K 参数。
- 训练数据包含每个任务 1000 条成功的专家轨迹。
Card 06
评估与结果
评估与结果
- 评估环境为 ManiSkill-HAB 仿真平台和真实四足移动机械臂系统。
- 主要评估指标为任务成功率。
- AnchorVLA 在 H=2 设置下达到 64.0% 的平均成功率,显著超越最强基线 AC-DiT (55.6%) 和 RDT (42.9%)。
- 在长序列执行 (H=5) 设置下,成功率维持在 61.5%,计算成本降低约 80%,推理频率提升至 89.8 Hz。
- 真实世界实验表明,该方法在四足机器人底盘振动和漂移干扰下仍能保持稳定的操作性能。