一眼看懂
封面预览
提出 CorridorVLA,一种通过稀疏空间锚点(sparse spatial anchors)为生成式动作头(generative act…
- 提出 CorridorVLA,一种通过稀疏空间锚点(sparse spatial anchors)为生成式动作头(generative act…
- 解决现有VLA模型中空间指导通常隐式编码在视觉或潜在特征中、缺乏直接可解释约束的问题
- 核心思想:预测稀疏的未来关键空间位置增量(如末端执行器Δ位置),并在训练目标中定义容忍区域(corridor)来引导流匹配动作生成
Card 01
研究单位
研究单位
- 深圳大学 计算机与软件学院
- 国家大数据系统计算技术国家工程实验室
Card 02
论文概述
论文概述
- 提出 CorridorVLA,一种通过稀疏空间锚点(sparse spatial anchors)为生成式动作头(generative action heads)施加显式空间约束的VLA方法
- 解决现有VLA模型中空间指导通常隐式编码在视觉或潜在特征中、缺乏直接可解释约束的问题
- 核心思想:预测稀疏的未来关键空间位置增量(如末端执行器Δ位置),并在训练目标中定义容忍区域(corridor)来引导流匹配动作生成
Card 03
核心贡献
核心贡献
- 提出 CorridorVLA 框架,将稀疏空间锚点作为动作对齐的物理线索,通过容忍区域目标约束动作生成
- 建立文本式物理线索与流匹配动作头之间的显式损失空间耦合,补充现有视觉/潜在空间线索的隐式编码方式
- 在 LIBERO 和 LIBERO-Plus 基准上取得一致提升,SmolVLA-Corr提升4.45%,GR00T-Corr达到83.21%成功率
- 设计噪声感知加权策略,使空间约束在流匹配的不同噪声阶段可靠生效
- 验证方法可跨骨干网络迁移,在SmolVLA和GR00T上均有效
Card 04
方法描述
方法描述
- 稀疏关键位置预测:使用可学习锚点槽(learnable anchor slots)预测K个时间间隔的末端执行器3D Δ位置增量
- 动作监督对齐:将动作输出扩展为"extra-A"形式,包含原始动作和对应Δ位置,使动作头监督与骨干预测共享空间量
- 流匹配与轨迹感知耦合:
- 在扩展动作空间上训练流匹配(Flow Matching)动作专家
- 走廊缓冲(Corridor Buffer):定义容忍区域,惩罚超出区域的轨迹
- 区域内一致性(In-corridor Consistency):对进入容忍区域的轨迹进行渐进式精修
- 噪声感知加权:使用w(t)=1-t加权,在噪声较低阶段(t→0)强调空间约束
Card 05
数据集与资源
数据集与资源
- 数据集:LIBERO(4-in-1任务)、LIBERO-Plus(更具挑战性的鲁棒性基准)
- 基线模型:SmolVLA(0.45B参数,基于LeRobot框架)、GR00T(基于StarVLA实现)
- 锚点数量:K=3(默认),仅需增加3个预测token
- 图像分辨率:LIBERO为512×512,LIBERO-Plus为256×256
- 锚点选择算法:Ramer-Douglas-Peucker (RDP)算法 + 动态规划最小化最大误差
Card 06
评估与结果
评估与结果
- 评估指标:任务成功率(Success Rate, %)
- LIBERO基准结果:
- SmolVLA-Base:86.5%
- SmolVLA-Corr:90.95%(+4.45%)
- LIBERO-Plus基准结果:
- SmolVLA-Base:45.37%
- SmolVLA-Corr:57.74%(+12.4%)
- GR00T-Base:75.23%
- GR00T-Corr:83.21%(+7.98%)
- 消融实验关键发现:
- 缓冲损失和一致性损失均必要,联合使用最佳
- 几何感知锚点选择(RDP+DP)优于均匀采样
- 预测Δ位置优于预测绝对位置
- 双向注意力机制优于因果掩码