返回列表 VLA / Vision-Language-Action 每日论文卡
Embodied Image Compression
首次提出Embodied Image Compression(具身图像压缩)科学问题,针对具身智能体在真实世界环境中运行时面临的通信带宽限制

论文详情

Embodied Image Compression

2025-12-12 · 原文 · 翻译 · 2512.11612

首次提出Embodied Image Compression(具身图像压缩)科学问题,针对具身智能体在真实世界环境中运行时面临的通信带宽限制 建立标准化基准EmbodiedComp,用于在闭环设置下超低比特率条件的系统评估,解决现有图像压缩方法无法直接应用于具身AI的问题

5 分钟读完 6 张阅读卡 Shanghai Jiao Tong University (上海交通大学)
一眼看懂 封面预览

首次提出Embodied Image Compression(具身图像压缩)科学问题,针对具身智能体在真实世界环境中运行时面临的通信带宽限制

  • 首次提出Embodied Image Compression(具身图像压缩)科学问题,针对具身智能体在真实世界环境中运行时面临的通信带宽限制
  • 建立标准化基准EmbodiedComp,用于在闭环设置下超低比特率条件的系统评估,解决现有图像压缩方法无法直接应用于具身AI的问题
  • 发布首个专为具身操作任务设计的基准数据集EmbodiedComp,包含100个标准化测试序列和2000条操作轨迹
Card 01 研究单位

研究单位

  • Shanghai Jiao Tong University (上海交通大学)
  • Shanghai AI Lab (上海人工智能实验室)
  • Nanyang Technological University (南洋理工大学)
Card 02 论文概述

论文概述

  • 首次提出Embodied Image Compression(具身图像压缩)科学问题,针对具身智能体在真实世界环境中运行时面临的通信带宽限制
  • 建立标准化基准EmbodiedComp,用于在闭环设置下超低比特率条件的系统评估,解决现有图像压缩方法无法直接应用于具身AI的问题
Card 03 核心贡献

核心贡献

  • 发布首个专为具身操作任务设计的基准数据集EmbodiedComp,包含100个标准化测试序列和2000条操作轨迹
  • 建立RVS-bitrate关系理论模型,揭示机器人视觉系统(RVS)在轻度压缩下表现稳健,但在临界比特率以下会突然崩溃的特性
  • 在仿真和真实世界环境中验证10种先进图像编解码器,证明现有Vision-Language-Action模型(VLAs)在压缩图像输入下无法可靠执行操作任务
  • 发现HVS/MVS/RVS三类视觉系统存在显著差异,RVS与比特率相关性最弱,需要专门设计的压缩算法
Card 04 方法描述

方法描述

  • 构建闭环评估范式:Sample→Compression→Action→State Change→Resample,压缩失真与VLA动作相互因果影响
  • 基于Robosuite+MuJoCo仿真环境,采用6-DoF UR5e机械臂和Robotiq-85夹爪,控制频率10Hz
  • 使用三种代表性VLA作为下游验证器:Pi-0.5(最高精度)、OpenVLA(最高流行度)、Pi0-Fast(最快推理延迟)
  • 定义两个核心评估指标:Success Rate (SR) 任务成功率和 Step 达到成功所需的迭代步数
Card 05 数据集与资源

数据集与资源

  • EmbodiedComp数据集:仿真和真实世界自采集数据,训练集2000条静态专家轨迹,测试集100个交互场景
  • 物体类别:常见物品(Bottle, Can, Cube)、食物(Bread, Capsule, Cereal, Lemon, Milk)、工具(Hammer, Nut round, Nut square)
  • 目标比特率范围:[0.015, 0.03, 0.06, 0.1] bpp,对应NB-IoT协议下的真实通信约束
  • 训练资源:4× NVIDIA H200 NVL 141GB GPU,LoRA微调25,000 epochs;推理使用NVIDIA GeForce RTX 5090 32GB GPU
Card 06 评估与结果

评估与结果

  • 评估10种编解码器:像素级(HEVC, JPEG, VVC, WEBP)、经典端到端(Bmshj, Cheng, Mbt)、最新端到端(DCAE, LichPCM, RWKV)
  • 关键发现:RVS在0.10-0.06 bpp保持稳健(<5%性能下降),在0.04 bpp附近出现拐点,0.02 bpp时急剧崩溃至不可用
  • 编解码器排名反转现象:最新学习型编解码器在HVS/MVS上领先,但在RVS上表现不如传统学习型编解码器(如Cheng),存在过拟合到HVS/MVS先验的问题
  • 真实世界验证:UR5机械臂+Robotiq 2F-140夹爪,17类物体765次执行,仿真到真实(Sim2Real)趋势一致