返回列表 VLA / Vision-Language-Action 每日论文卡

CronusVLA: Towards Efficient and Robust Manipulation via Multi-Frame Vision-Language-Action Modeling

论文详情

CronusVLA: Towards Efficient and Robust Manipulation via Multi-Frame Vision-Language-Action Modeling

2025-06-24 · 原文 · 翻译 · 2506.19816

论文提出了 CronusVLA,一个统一的框架,旨在将单帧视觉-语言-动作(VLA)模型扩展到多帧范式,以解决现有模型无法利用时序信息的问题。 研究旨在解决直接将多帧图像输入 VLA 主干网络带来的计算开销大和推理延迟高的问题,通过多帧建模提高机器人操作的性能和鲁棒性。 论文还引入了 SimplerEnv-OR 基准测试,用于量化评估模型在观测扰动下的鲁棒性。

5 分钟读完 6 张阅读卡 提供的 HTML 片段中未包含具体的作者及所属研究单位信息(HTML 文本在标题后直接进入摘要部分)。
一眼看懂 封面预览

论文提出了 CronusVLA,一个统一的框架,旨在将单帧视觉-语言-动作(VLA)模型扩展到多帧范式,以解决现有模型无法利用时序信息的问题。

  • 论文提出了 CronusVLA,一个统一的框架,旨在将单帧视觉-语言-动作(VLA)模型扩展到多帧范式,以解决现有模型无法利用时序信息的问题。
  • 研究旨在解决直接将多帧图像输入 VLA 主干网络带来的计算开销大和推理延迟高的问题,通过多帧建模提高机器人操作的性能和鲁棒性。
  • 论文还引入了 SimplerEnv-OR 基准测试,用于量化评估模型在观测扰动下的鲁棒性。
Card 01 研究单位

研究单位

  • 提供的 HTML 片段中未包含具体的作者及所属研究单位信息(HTML 文本在标题后直接进入摘要部分)。
Card 02 论文概述

论文概述

  • 论文提出了 CronusVLA,一个统一的框架,旨在将单帧视觉-语言-动作(VLA)模型扩展到多帧范式,以解决现有模型无法利用时序信息的问题。
  • 研究旨在解决直接将多帧图像输入 VLA 主干网络带来的计算开销大和推理延迟高的问题,通过多帧建模提高机器人操作的性能和鲁棒性。
  • 论文还引入了 SimplerEnv-OR 基准测试,用于量化评估模型在观测扰动下的鲁棒性。
Card 03 核心贡献

核心贡献

  • 提出了 CronusVLA 框架,包含单帧预训练和多帧后训练两个阶段,实现了高效的多帧建模。
  • 提出了 Feature Chunking(特征切片)和 Multi-frame Regularization(多帧正则化)技术,在聚合历史信息的同时保持了高效的推理速度。
  • 构建了 SimplerEnv-OR 基准测试,包含 24 种观测扰动类型和 120 个严重程度等级,填补了 VLA 模型鲁棒性评估的空白。
  • 在模拟环境和真实机器人实验中取得了领先的性能和优越的鲁棒性。
Card 04 方法描述

方法描述

  • 方法分为两个阶段:Single-frame Pretraining(单帧预训练)在大规模数据集上通过自回归预测离散动作 Token 建立基础;Multi-frame Post-training(多帧后训练)将预测目标从离散 Token 转换为可学习特征。
  • 引入 Feature Chunking 机制,通过队列维护历史特征,避免了重复计算,实现了快速推理。
  • 设计了基于 DiT 的 Cross-frame Decoder(跨帧解码器),包含特征调制器来平衡当前帧和历史帧的信息,用于预测动作序列。
  • 提出了 Multi-frame Regularization,通过停止梯度传播来解耦主干网络与多帧建模,保留单帧感知能力并促进收敛。
Card 05 数据集与资源

数据集与资源

  • 预训练数据集:OXE (Open X-Embodiment) 数据集。
  • 后训练数据集:Bridge-v2Fractal 数据集,包含约 148k episodes 和 5M clips。
  • 模型规模:CronusVLA 7B(基于 Llama 2)和 CronusVLA 0.5B(基于 Qwen2.5)。
  • 视觉编码器:Dinov2SigLip
  • 训练资源:A100 GPUs。
Card 06 评估与结果

评估与结果

  • 评估基准:SimplerEnvLIBERO 以及新提出的 SimplerEnv-OR
  • SimplerEnv 上达到 70.9% 的平均成功率,达到最先进水平。
  • LIBERO 基准上,相比 OpenVLA 提升了 26.8%,平均成功率达到 97.0%
  • SimplerEnv-OR 鲁棒性测试中获得了最高的 R-Score,在时空扰动下表现出最强的鲁棒性。
  • 真实世界实验(Franka 机器人)显示,在长序列任务和遮挡干扰下,该方法显著优于 OpenVLADP3