返回列表 VLA / Vision-Language-Action 每日论文卡
IVRA: Improving Visual-Token Relations for Robot Action Policy with Training-Free Hint-Based Guidance
解决 VLA(视觉-语言-动作)模型将图像块展平为 1D 令牌序列后,削弱 2D 空间线索的问题

论文详情

IVRA: Improving Visual-Token Relations for Robot Action Policy with Training-Free Hint-Based Guidance

2026-01-22 · 原文 · 翻译 · 2601.16207

解决 VLA(视觉-语言-动作)模型将图像块展平为 1D 令牌序列后,削弱 2D 空间线索的问题 提出 IVRA,一种无需训练的推理时方法,通过注入来自视觉编码器的亲和力提示来恢复空间结构 在多种 VLA 架构(LLaRA、OpenVLA、FLOWER)和多个基准(VIMA、LIBERO)及真实机器人任务上验证有效性

5 分钟读完 6 张阅读卡 Stony Brook University: Jongwoo Park, Kanchana Rana…
一眼看懂 封面预览

解决 VLA(视觉-语言-动作)模型将图像块展平为 1D 令牌序列后,削弱 2D 空间线索的问题

  • 解决 VLA(视觉-语言-动作)模型将图像块展平为 1D 令牌序列后,削弱 2D 空间线索的问题
  • 提出 IVRA,一种无需训练的推理时方法,通过注入来自视觉编码器的亲和力提示来恢复空间结构
  • 在多种 VLA 架构(LLaRA、OpenVLA、FLOWER)和多个基准(VIMA、LIBERO)及真实机器人任务上验证有效性
Card 01 研究单位

研究单位

  • Stony Brook University: Jongwoo Park, Kanchana Ranasinghe, Cristina Mata, Yoo Sung Jang, Michael S Ryoo
  • ETRI: Jinhyeok Jang
Card 02 论文概述

论文概述

  • 解决 VLA(视觉-语言-动作)模型将图像块展平为 1D 令牌序列后,削弱 2D 空间线索的问题
  • 提出 IVRA,一种无需训练的推理时方法,通过注入来自视觉编码器的亲和力提示来恢复空间结构
  • 在多种 VLA 架构(LLaRA、OpenVLA、FLOWER)和多个基准(VIMA、LIBERO)及真实机器人任务上验证有效性
Card 03 核心贡献

核心贡献

  • 提出无需训练的 IVRA 方法,通过将编码器派生的亲和力提示注入 LLM 的中间层来重新加权展平的视觉令牌
  • 从冻结的视觉编码器中提取亲和力图,保留 2D 空间布局信息作为补丁级连接先验
  • 引入亲和力引导的视觉令牌池化,通过相似补丁的特征增强来恢复局部空间一致性
  • 展示方法在 2D(VIMA)和 3D(LIBERO)操作任务及真实机器人场景中的广泛适用性
Card 04 方法描述

方法描述

  • 亲和力图提取:从视觉编码器中间层提取补丁特征,计算补丁间的余弦相似度作为亲和力矩阵 A
  • 亲和力引导的令牌池化:在 LLM 的选定层(如第 20 层)之前,对每个视觉令牌进行加权平均池化,使用归一化亲和力权重
  • 令牌混合:通过凸组合将池化令牌与原始令牌混合,混合系数 λ=0.3 达到最佳平衡
  • 集成方式:在推理时将池化步骤集成到 LLM 的选定层,不修改任何模型参数
Card 05 数据集与资源

数据集与资源

  • VIMA 基准:2D 图像操作任务,包含 Novel Task、Novel Object、Object Combination、Object Place 四个任务
  • LIBERO 基准:3D 具身操作任务,包含 Goal、Object、Spatial、Long 等子集
  • 真实机器人实验:四种任务类型(T1-T4),测试目标选择、颜色匹配、混乱定位、相对高度理解
  • 模型:LLaRA(12% 数据)、OpenVLA、FLOWER
  • 训练数据:LLaRA 使用 80k 轨迹(约 12%),inBC-8k 模型仅使用 1.2% VIMA 训练数据
Card 06 评估与结果

评估与结果

  • VIMA(2D):LLaRA+IVRA 在低数据量(12%)下平均成功率提升 +4.2%,超越使用 100% 数据的 VIMA
  • LIBERO(3D):OpenVLA+IVRA 从 76.5% 提升至 77.6%(+1.1%);FLOWER+IVRA 从 96.3% 提升至 97.1%(+0.8%),在接近饱和的准确率下仍持续改进
  • 真实机器人:T1 提升 +10%,T2-T4 提升 +20%~30%,验证零样本泛化能力
  • 复杂度:仅增加 3% 延迟(2.00s→2.06s),不引入额外参数(15.8GB)
  • 消融实验:最优配置为单层(第 20 层)、P0 位置注入、λ=0.3