返回列表 VLA / Vision-Language-Action 每日论文卡
ROI-Driven Foveated Attention for Unified Egocentric Representations in Vision-Language-Action Systems
论文旨在解决视觉-语言-动作(VLA)模型中数据收集成本高、跨具身对齐困难、以及互联网规模视觉数据向机器人控制迁移效果差的问题。

论文详情

ROI-Driven Foveated Attention for Unified Egocentric Representations in Vision-Language-Action Systems

2026-03-21 · 原文 · 翻译 · 2603.20668

论文旨在解决视觉-语言-动作(VLA)模型中数据收集成本高、跨具身对齐困难、以及互联网规模视觉数据向机器人控制迁移效果差的问题。 核心目标是通过工程化方法,引入一种自我中心、几何奠基的数据表示,以实现可扩展的数据收集和跨具身学习。 主要贡献是提出一个ROI驱动的工程工作流,利用单一外部相机,通过机器人正向运动学(FK)投影生成运动对齐的、以手为中心的感兴趣区域,从而减少传感器和校准负担。

4 分钟读完 6 张阅读卡 Xinhai Sun (第一作者),所属机构上标为1和2,但具体单位在提供的HTML片段中未明确列出(…
一眼看懂 封面预览

论文旨在解决视觉-语言-动作(VLA)模型中数据收集成本高、跨具身对齐困难、以及互联网规模视觉数据向机器人控制迁移效果差的问题。

  • 论文旨在解决视觉-语言-动作(VLA)模型中数据收集成本高、跨具身对齐困难、以及互联网规模视觉数据向机器人控制迁移效果差的问题。
  • 核心目标是通过工程化方法,引入一种自我中心、几何奠基的数据表示,以实现可扩展的数据收集和跨具身学习。
  • 主要贡献是提出一个ROI驱动的工程工作流,利用单一外部相机,通过机器人正向运动学(FK)投影生成运动对齐的、以手为中心的感兴趣区域,从而减少传…
Card 01 研究单位

研究单位

  • Xinhai Sun (第一作者),所属机构上标为1和2,但具体单位在提供的HTML片段中未明确列出(可能因HTML被截断或机构信息位于文档其他部分)。
  • 其他作者:Xiang ShiMenglin ZouWenlong Huang
Card 02 论文概述

论文概述

  • 论文旨在解决视觉-语言-动作(VLA)模型中数据收集成本高、跨具身对齐困难、以及互联网规模视觉数据向机器人控制迁移效果差的问题。
  • 核心目标是通过工程化方法,引入一种自我中心、几何奠基的数据表示,以实现可扩展的数据收集和跨具身学习。
  • 主要贡献是提出一个ROI驱动的工程工作流,利用单一外部相机,通过机器人正向运动学(FK)投影生成运动对齐的、以手为中心的感兴趣区域,从而减少传感器和校准负担。
Card 03 核心贡献

核心贡献

  • 提出了一个确定性的FK到ROI管道,用于自我中心感知对齐,该管道具有明确的坐标约定和具身感知的中心偏移,生成的ROI具有可重现性。
  • 定义了一套元数据和治理模式,将ROI相关产物(如校准参数、投影元数据)视为一等数据产品,以支持可重现的数据再生、验证和跨团队互操作。
  • 提供了一个无需原生ROI数据流支持的无原生ROI评估协议,允许从已记录的机器人状态和校准元数据中离线重建ROI视图,降低了对新传感器设备的依赖和采纳成本。
Card 04 方法描述

方法描述

  • 核心方法是将机器人末端执行器位姿通过正向运动学(FK) 计算出来,并利用校准好的相机内外参投影到图像平面,生成以手为中心的ROI裁剪区域。
  • 关键创新点包括:引入具身感知的内向中心偏移以聚焦操作关键区域;采用确定性的边界处理和零填充确保输入尺寸一致;将ROI作为独立的高分辨率输入与全局视图融合,在视觉Transformer(ViT) 中形成对操作区域的结构性注意力强制
  • 该方法不需要额外的腕部相机或多视角系统,从而降低了硬件成本和校准维护复杂度。
Card 05 数据集与资源

数据集与资源

  • 讨论了相关数据集,如 Open X-EmbodimentDROIDEgo4DEPIC-KITCHENS,但未在文中指明其实验使用的具体数据集、模型规模或训练资源(如GPU/TPU)。
  • 强调其ROI管道可应用于异构机器人数据,实现数据复用。
Card 06 评估与结果

评估与结果

  • 论文提供了评估协议而非新的基准测试结果,因为其重点在于工作流设计和数据治理。
  • 提出了三大类评估指标:工程指标(如数据入库时间、传感器数量)、几何ROI质量指标(如覆盖度、时间抖动、帧内比率)和学习代理指标(如数据效率、动作稳定性)。
  • 提供了多种手中心数据收集策略(如单外相机、腕部相机、多视角)的定性比较表,突显了其方法在降低校准和同步成本方面的优势。