返回列表 VLA / Vision-Language-Action 每日论文卡
CorridorVLA: Explicit Spatial Constraints for Generative Action Heads via Sparse Anchors
提出 CorridorVLA,一种通过稀疏空间锚点(sparse spatial anchors)为生成式动作头(generative act…

论文详情

CorridorVLA: Explicit Spatial Constraints for Generative Action Heads via Sparse Anchors

2026-04-23 · 原文 · 翻译 · 2604.21241

提出 CorridorVLA,一种通过稀疏空间锚点(sparse spatial anchors)为生成式动作头(generative action heads)施加显式空间约束的VLA方法 解决现有VLA模型中空间指导通常隐式编码在视觉或潜在特征中、缺乏直接可解释约束的问题 核心思想:预测稀疏的未来关键空间位置增量(如末端执行器Δ位置),并在训练目标中定义容忍区域(corridor)来引导流匹配动作生成

5 分钟读完 6 张阅读卡 深圳大学 计算机与软件学院
一眼看懂 封面预览

提出 CorridorVLA,一种通过稀疏空间锚点(sparse spatial anchors)为生成式动作头(generative act…

  • 提出 CorridorVLA,一种通过稀疏空间锚点(sparse spatial anchors)为生成式动作头(generative act…
  • 解决现有VLA模型中空间指导通常隐式编码在视觉或潜在特征中、缺乏直接可解释约束的问题
  • 核心思想:预测稀疏的未来关键空间位置增量(如末端执行器Δ位置),并在训练目标中定义容忍区域(corridor)来引导流匹配动作生成
Card 01 研究单位

研究单位

  • 深圳大学 计算机与软件学院
  • 国家大数据系统计算技术国家工程实验室
Card 02 论文概述

论文概述

  • 提出 CorridorVLA,一种通过稀疏空间锚点(sparse spatial anchors)为生成式动作头(generative action heads)施加显式空间约束的VLA方法
  • 解决现有VLA模型中空间指导通常隐式编码在视觉或潜在特征中、缺乏直接可解释约束的问题
  • 核心思想:预测稀疏的未来关键空间位置增量(如末端执行器Δ位置),并在训练目标中定义容忍区域(corridor)来引导流匹配动作生成
Card 03 核心贡献

核心贡献

  • 提出 CorridorVLA 框架,将稀疏空间锚点作为动作对齐的物理线索,通过容忍区域目标约束动作生成
  • 建立文本式物理线索与流匹配动作头之间的显式损失空间耦合,补充现有视觉/潜在空间线索的隐式编码方式
  • LIBEROLIBERO-Plus 基准上取得一致提升,SmolVLA-Corr提升4.45%,GR00T-Corr达到83.21%成功率
  • 设计噪声感知加权策略,使空间约束在流匹配的不同噪声阶段可靠生效
  • 验证方法可跨骨干网络迁移,在SmolVLA和GR00T上均有效
Card 04 方法描述

方法描述

  • 稀疏关键位置预测:使用可学习锚点槽(learnable anchor slots)预测K个时间间隔的末端执行器3D Δ位置增量
  • 动作监督对齐:将动作输出扩展为"extra-A"形式,包含原始动作和对应Δ位置,使动作头监督与骨干预测共享空间量
  • 流匹配与轨迹感知耦合

- 在扩展动作空间上训练流匹配(Flow Matching)动作专家

- 走廊缓冲(Corridor Buffer):定义容忍区域,惩罚超出区域的轨迹

- 区域内一致性(In-corridor Consistency):对进入容忍区域的轨迹进行渐进式精修

- 噪声感知加权:使用w(t)=1-t加权,在噪声较低阶段(t→0)强调空间约束

Card 05 数据集与资源

数据集与资源

  • 数据集LIBERO(4-in-1任务)、LIBERO-Plus(更具挑战性的鲁棒性基准)
  • 基线模型SmolVLA(0.45B参数,基于LeRobot框架)、GR00T(基于StarVLA实现)
  • 锚点数量:K=3(默认),仅需增加3个预测token
  • 图像分辨率:LIBERO为512×512,LIBERO-Plus为256×256
  • 锚点选择算法:Ramer-Douglas-Peucker (RDP)算法 + 动态规划最小化最大误差
Card 06 评估与结果

评估与结果

  • 评估指标:任务成功率(Success Rate, %)
  • LIBERO基准结果

- SmolVLA-Base:86.5%

- SmolVLA-Corr90.95%(+4.45%)

  • LIBERO-Plus基准结果

- SmolVLA-Base:45.37%

- SmolVLA-Corr57.74%(+12.4%)

- GR00T-Base:75.23%

- GR00T-Corr83.21%(+7.98%)

  • 消融实验关键发现

- 缓冲损失和一致性损失均必要,联合使用最佳

- 几何感知锚点选择(RDP+DP)优于均匀采样

- 预测Δ位置优于预测绝对位置

- 双向注意力机制优于因果掩码