解决 VLA（视觉-语言-动作）模型将图像块展平为 1D 令牌序列后，削弱 2D 空间线索的问题

论文详情

IVRA: Improving Visual-Token Relations for Robot Action Policy with Training-Free Hint-Based Guidance

2026-01-22 · 原文 · 翻译 · 2601.16207

解决 VLA（视觉-语言-动作）模型将图像块展平为 1D 令牌序列后，削弱 2D 空间线索的问题提出 IVRA，一种无需训练的推理时方法，通过注入来自视觉编码器的亲和力提示来恢复空间结构在多种 VLA 架构（LLaRA、OpenVLA、FLOWER）和多个基准（VIMA、LIBERO）及真实机器人任务上验证有效性

5 分钟读完 6 张阅读卡 Stony Brook University: Jongwoo Park, Kanchana Rana…

一眼看懂封面预览

解决 VLA（视觉-语言-动作）模型将图像块展平为 1D 令牌序列后，削弱 2D 空间线索的问题

解决 VLA（视觉-语言-动作）模型将图像块展平为 1D 令牌序列后，削弱 2D 空间线索的问题
提出 IVRA，一种无需训练的推理时方法，通过注入来自视觉编码器的亲和力提示来恢复空间结构
在多种 VLA 架构（LLaRA、OpenVLA、FLOWER）和多个基准（VIMA、LIBERO）及真实机器人任务上验证有效性

Card 01 研究单位

研究单位

Stony Brook University: Jongwoo Park, Kanchana Ranasinghe, Cristina Mata, Yoo Sung Jang, Michael S Ryoo
ETRI: Jinhyeok Jang

Card 02 论文概述

论文概述

解决 VLA（视觉-语言-动作）模型将图像块展平为 1D 令牌序列后，削弱 2D 空间线索的问题
提出 IVRA，一种无需训练的推理时方法，通过注入来自视觉编码器的亲和力提示来恢复空间结构
在多种 VLA 架构（LLaRA、OpenVLA、FLOWER）和多个基准（VIMA、LIBERO）及真实机器人任务上验证有效性

Card 03 核心贡献

核心贡献

提出无需训练的 IVRA 方法，通过将编码器派生的亲和力提示注入 LLM 的中间层来重新加权展平的视觉令牌
从冻结的视觉编码器中提取亲和力图，保留 2D 空间布局信息作为补丁级连接先验
引入亲和力引导的视觉令牌池化，通过相似补丁的特征增强来恢复局部空间一致性
展示方法在 2D（VIMA）和 3D（LIBERO）操作任务及真实机器人场景中的广泛适用性

Card 04 方法描述

方法描述

亲和力图提取：从视觉编码器中间层提取补丁特征，计算补丁间的余弦相似度作为亲和力矩阵 A
亲和力引导的令牌池化：在 LLM 的选定层（如第 20 层）之前，对每个视觉令牌进行加权平均池化，使用归一化亲和力权重
令牌混合：通过凸组合将池化令牌与原始令牌混合，混合系数 λ=0.3 达到最佳平衡
集成方式：在推理时将池化步骤集成到 LLM 的选定层，不修改任何模型参数

Card 05 数据集与资源

数据集与资源

VIMA 基准：2D 图像操作任务，包含 Novel Task、Novel Object、Object Combination、Object Place 四个任务
LIBERO 基准：3D 具身操作任务，包含 Goal、Object、Spatial、Long 等子集
真实机器人实验：四种任务类型（T1-T4），测试目标选择、颜色匹配、混乱定位、相对高度理解
模型：LLaRA（12% 数据）、OpenVLA、FLOWER
训练数据：LLaRA 使用 80k 轨迹（约 12%），inBC-8k 模型仅使用 1.2% VIMA 训练数据

Card 06 评估与结果

评估与结果

VIMA（2D）：LLaRA+IVRA 在低数据量（12%）下平均成功率提升 +4.2%，超越使用 100% 数据的 VIMA
LIBERO（3D）：OpenVLA+IVRA 从 76.5% 提升至 77.6%（+1.1%）；FLOWER+IVRA 从 96.3% 提升至 97.1%（+0.8%），在接近饱和的准确率下仍持续改进
真实机器人：T1 提升 +10%，T2-T4 提升 +20%~30%，验证零样本泛化能力
复杂度：仅增加 3% 延迟（2.00s→2.06s），不引入额外参数（15.8GB）
消融实验：最优配置为单层（第 20 层）、P0 位置注入、λ=0.3