CorridorVLA: Explicit Spatial Constraints for Generative Action Heads via Sparse Anchors

一眼看懂封面预览

提出 CorridorVLA，一种通过稀疏空间锚点（sparse spatial anchors）为生成式动作头（generative act…

Card 01 研究单位

研究单位

Card 02 论文概述

提出 CorridorVLA，一种通过稀疏空间锚点（sparse spatial anchors）为生成式动作头（generative action heads）施加显式空间约束的VLA方法
解决现有VLA模型中空间指导通常隐式编码在视觉或潜在特征中、缺乏直接可解释约束的问题
核心思想：预测稀疏的未来关键空间位置增量（如末端执行器Δ位置），并在训练目标中定义容忍区域（corridor）来引导流匹配动作生成

Card 03 核心贡献

提出 CorridorVLA 框架，将稀疏空间锚点作为动作对齐的物理线索，通过容忍区域目标约束动作生成
建立文本式物理线索与流匹配动作头之间的显式损失空间耦合，补充现有视觉/潜在空间线索的隐式编码方式
在 LIBERO 和 LIBERO-Plus 基准上取得一致提升，SmolVLA-Corr提升4.45%，GR00T-Corr达到83.21%成功率
设计噪声感知加权策略，使空间约束在流匹配的不同噪声阶段可靠生效
验证方法可跨骨干网络迁移，在SmolVLA和GR00T上均有效

Card 04 方法描述

- 在扩展动作空间上训练流匹配（Flow Matching）动作专家

- 走廊缓冲（Corridor Buffer）：定义容忍区域，惩罚超出区域的轨迹

- 区域内一致性（In-corridor Consistency）：对进入容忍区域的轨迹进行渐进式精修

- 噪声感知加权：使用w(t)=1-t加权，在噪声较低阶段（t→0）强调空间约束

Card 05 数据集与资源

Card 06 评估与结果

- SmolVLA-Base：86.5%

- SmolVLA-Corr：90.95%（+4.45%）

- SmolVLA-Base：45.37%

- SmolVLA-Corr：57.74%（+12.4%）

- GR00T-Base：75.23%

- GR00T-Corr：83.21%（+7.98%）

- 缓冲损失和一致性损失均必要，联合使用最佳

- 几何感知锚点选择（RDP+DP）优于均匀采样

- 预测Δ位置优于预测绝对位置

- 双向注意力机制优于因果掩码