论文旨在解决视觉-语言-动作（VLA）模型中数据收集成本高、跨具身对齐困难、以及互联网规模视觉数据向机器人控制迁移效果差的问题。

论文详情

ROI-Driven Foveated Attention for Unified Egocentric Representations in Vision-Language-Action Systems

2026-03-21 · 原文 · 翻译 · 2603.20668

论文旨在解决视觉-语言-动作（VLA）模型中数据收集成本高、跨具身对齐困难、以及互联网规模视觉数据向机器人控制迁移效果差的问题。核心目标是通过工程化方法，引入一种自我中心、几何奠基的数据表示，以实现可扩展的数据收集和跨具身学习。主要贡献是提出一个ROI驱动的工程工作流，利用单一外部相机，通过机器人正向运动学（FK）投影生成运动对齐的、以手为中心的感兴趣区域，从而减少传感器和校准负担。

4 分钟读完 6 张阅读卡 Xinhai Sun (第一作者)，所属机构上标为1和2，但具体单位在提供的HTML片段中未明确列出（…

一眼看懂封面预览

论文旨在解决视觉-语言-动作（VLA）模型中数据收集成本高、跨具身对齐困难、以及互联网规模视觉数据向机器人控制迁移效果差的问题。

论文旨在解决视觉-语言-动作（VLA）模型中数据收集成本高、跨具身对齐困难、以及互联网规模视觉数据向机器人控制迁移效果差的问题。
核心目标是通过工程化方法，引入一种自我中心、几何奠基的数据表示，以实现可扩展的数据收集和跨具身学习。
主要贡献是提出一个ROI驱动的工程工作流，利用单一外部相机，通过机器人正向运动学（FK）投影生成运动对齐的、以手为中心的感兴趣区域，从而减少传…

Card 01 研究单位

研究单位

Xinhai Sun (第一作者)，所属机构上标为1和2，但具体单位在提供的HTML片段中未明确列出（可能因HTML被截断或机构信息位于文档其他部分）。
其他作者：Xiang Shi、Menglin Zou、Wenlong Huang。

Card 02 论文概述

论文概述

论文旨在解决视觉-语言-动作（VLA）模型中数据收集成本高、跨具身对齐困难、以及互联网规模视觉数据向机器人控制迁移效果差的问题。
核心目标是通过工程化方法，引入一种自我中心、几何奠基的数据表示，以实现可扩展的数据收集和跨具身学习。
主要贡献是提出一个ROI驱动的工程工作流，利用单一外部相机，通过机器人正向运动学（FK）投影生成运动对齐的、以手为中心的感兴趣区域，从而减少传感器和校准负担。

Card 03 核心贡献

核心贡献

提出了一个确定性的FK到ROI管道，用于自我中心感知对齐，该管道具有明确的坐标约定和具身感知的中心偏移，生成的ROI具有可重现性。
定义了一套元数据和治理模式，将ROI相关产物（如校准参数、投影元数据）视为一等数据产品，以支持可重现的数据再生、验证和跨团队互操作。
提供了一个无需原生ROI数据流支持的无原生ROI评估协议，允许从已记录的机器人状态和校准元数据中离线重建ROI视图，降低了对新传感器设备的依赖和采纳成本。

Card 04 方法描述

方法描述

核心方法是将机器人末端执行器位姿通过正向运动学（FK） 计算出来，并利用校准好的相机内外参投影到图像平面，生成以手为中心的ROI裁剪区域。
关键创新点包括：引入具身感知的内向中心偏移以聚焦操作关键区域；采用确定性的边界处理和零填充确保输入尺寸一致；将ROI作为独立的高分辨率输入与全局视图融合，在视觉Transformer（ViT） 中形成对操作区域的结构性注意力强制。
该方法不需要额外的腕部相机或多视角系统，从而降低了硬件成本和校准维护复杂度。

Card 05 数据集与资源

数据集与资源

讨论了相关数据集，如 Open X-Embodiment、DROID、Ego4D 和 EPIC-KITCHENS，但未在文中指明其实验使用的具体数据集、模型规模或训练资源（如GPU/TPU）。
强调其ROI管道可应用于异构机器人数据，实现数据复用。

Card 06 评估与结果

评估与结果

论文提供了评估协议而非新的基准测试结果，因为其重点在于工作流设计和数据治理。
提出了三大类评估指标：工程指标（如数据入库时间、传感器数量）、几何ROI质量指标（如覆盖度、时间抖动、帧内比率）和学习代理指标（如数据效率、动作稳定性）。
提供了多种手中心数据收集策略（如单外相机、腕部相机、多视角）的定性比较表，突显了其方法在降低校准和同步成本方面的优势。