研究目标: 解决视觉语言动作（VLA）模型中本体感知（proprioception）仅作为后期 conditioning 信号的问题，使机器人…

论文详情

Think Proprioceptively: Embodied Visual Reasoning for VLA Manipulation

2026-02-06 · 原文 · 翻译 · 2602.06575

研究目标: 解决视觉语言动作（VLA）模型中本体感知（proprioception）仅作为后期 conditioning 信号的问题，使机器人状态能够塑造指令理解并影响整个策略中的视觉 token 注意力核心方法: 提出 ThinkProprio，将本体感知转换为 VLM 嵌入空间中的文本 token，与任务指令在输入端融合，实现早期融合，让具身状态参与后续的视觉推理和 token 选择关键成果: 在 CALV…

6 分钟读完 6 张阅读卡论文作者: Fangyuan Wang, Peng Zhou, Jiaming Qi, Shipeng…

一眼看懂封面预览

研究目标: 解决视觉语言动作（VLA）模型中本体感知（proprioception）仅作为后期 conditioning 信号的问题，使机器人…

研究目标: 解决视觉语言动作（VLA）模型中本体感知（proprioception）仅作为后期 conditioning 信号的问题，使机器人…
核心方法: 提出 ThinkProprio，将本体感知转换为 VLM 嵌入空间中的文本 token，与任务指令在输入端融合，实现早期融合，让具…
关键成果: 在 CALVIN 和 LIBERO 基准上匹配或超越最强基线，同时将端到端推理延迟降低超过 58%

Card 01 研究单位

研究单位

论文作者: Fangyuan Wang, Peng Zhou, Jiaming Qi, Shipeng Lyu, David Navarro-Alarcon, Guodong Guo
机构: 根据论文页眉信息，arXiv ID 为 2602.06575，具体机构信息在原文 HTML 中未完整显示

Card 02 论文概述

论文概述

研究目标: 解决视觉语言动作（VLA）模型中本体感知（proprioception）仅作为后期 conditioning 信号的问题，使机器人状态能够塑造指令理解并影响整个策略中的视觉 token 注意力
核心方法: 提出 ThinkProprio，将本体感知转换为 VLM 嵌入空间中的文本 token，与任务指令在输入端融合，实现早期融合，让具身状态参与后续的视觉推理和 token 选择
关键成果: 在 CALVIN 和 LIBERO 基准上匹配或超越最强基线，同时将端到端推理延迟降低超过 58%

Card 03 核心贡献

核心贡献

贡献点 1: 提出将本体感知离散化为文本 token 并置入 VLM 嵌入空间的编码方法，利用预训练 token 嵌入表
贡献点 2: 提出物理接地 token 选择（Physically Grounded Token Selection），使用指令和本体感知联合指导视觉 token 保留
贡献点 3: 发现保留约 15% 的视觉 token 即可匹配使用完整 token 集的性能
贡献点 4: 在 CALVIN ABC→D 上将平均完成链长从 4.44 提升到 4.55，在 LH-5 达到 82.1% 成功率
贡献点 5: 显著降低推理延迟（从 52ms 降至 22ms）和计算成本

Card 04 方法描述

方法描述

本体感知编码: 对连续状态值进行均匀分箱（256 个 bins），映射到 VLM 词汇表的最后 B 个 token ID，从 token 嵌入表中获取嵌入
物理接地 token 选择: 使用指令 token 和本体感知 token 作为引导，通过跨模态注意力生成查询，计算视觉 token 的相关性分数，采用基于 Gumbel 噪声的投票选择机制和直通估计器（STE）进行可微训练
全局上下文 token: 保留一个全局上下文 token 以保持粗粒度场景信息
动作生成: 使用 Flow Matching 训练动作头，通过交叉注意力 Conditioning 在 VLM 特征上，并使用全局 AdaLN 风格调制注入扩散时间信号

Card 05 数据集与资源

数据集与资源

数据集: CALVIN（ABC→D 分割）、LIBERO（ Spatial/Object/Goal/Long 四个套件）
模型规模: 基于 Florence-2-Large 作为 VLM 主干，动作头为 DiT（hidden dimension 1024，18 层，16 头注意力）
训练资源: 50k 训练步，AdamW 优化器，学习率 2×10⁻⁵，权重衰减 0.05（transformer 部分），余弦学习率调度
推理配置: bfloat16，每时间步处理 2 个相机视图，diffusion 动作头采样 4 步
GPU: RTX 4090

Card 06 评估与结果

评估与结果

CALVIN ABC→D: ThinkProprio 达到 Avg. Len. 4.55（最优），LH-5 成功率 82.1%，比 FLOWER（4.44）提升 2.5%
LIBERO: 平均成功率 97.3%（仅次于 LightVLA 的 97.4%），LIBERO-Long 达到 95.2%（最优）
推理效率: 平均保留 15/100（CALVIN）和 6/34（LIBERO）个视觉 token，延迟 22ms（CALVIN）/ 23.8ms（LIBERO），比 FLOWER 降低 58%
VRAM: 1899 MB（CALVIN），比 OpenVLA（14574 MB）显著降低