CronusVLA: Towards Efficient and Robust Manipulation via Multi-Frame Vision-Language-Action Modeling

论文详情

CronusVLA: Towards Efficient and Robust Manipulation via Multi-Frame Vision-Language-Action Modeling

2025-06-24 · 原文 · 翻译 · 2506.19816

论文提出了 CronusVLA，一个统一的框架，旨在将单帧视觉-语言-动作（VLA）模型扩展到多帧范式，以解决现有模型无法利用时序信息的问题。研究旨在解决直接将多帧图像输入 VLA 主干网络带来的计算开销大和推理延迟高的问题，通过多帧建模提高机器人操作的性能和鲁棒性。论文还引入了 SimplerEnv-OR 基准测试，用于量化评估模型在观测扰动下的鲁棒性。

5 分钟读完 6 张阅读卡提供的 HTML 片段中未包含具体的作者及所属研究单位信息（HTML 文本在标题后直接进入摘要部分）。

一眼看懂封面预览

论文提出了 CronusVLA，一个统一的框架，旨在将单帧视觉-语言-动作（VLA）模型扩展到多帧范式，以解决现有模型无法利用时序信息的问题。

论文提出了 CronusVLA，一个统一的框架，旨在将单帧视觉-语言-动作（VLA）模型扩展到多帧范式，以解决现有模型无法利用时序信息的问题。
研究旨在解决直接将多帧图像输入 VLA 主干网络带来的计算开销大和推理延迟高的问题，通过多帧建模提高机器人操作的性能和鲁棒性。
论文还引入了 SimplerEnv-OR 基准测试，用于量化评估模型在观测扰动下的鲁棒性。

Card 01 研究单位

研究单位

提供的 HTML 片段中未包含具体的作者及所属研究单位信息（HTML 文本在标题后直接进入摘要部分）。

Card 02 论文概述

论文概述

论文提出了 CronusVLA，一个统一的框架，旨在将单帧视觉-语言-动作（VLA）模型扩展到多帧范式，以解决现有模型无法利用时序信息的问题。
研究旨在解决直接将多帧图像输入 VLA 主干网络带来的计算开销大和推理延迟高的问题，通过多帧建模提高机器人操作的性能和鲁棒性。
论文还引入了 SimplerEnv-OR 基准测试，用于量化评估模型在观测扰动下的鲁棒性。

Card 03 核心贡献

核心贡献

提出了 CronusVLA 框架，包含单帧预训练和多帧后训练两个阶段，实现了高效的多帧建模。
提出了 Feature Chunking（特征切片）和 Multi-frame Regularization（多帧正则化）技术，在聚合历史信息的同时保持了高效的推理速度。
构建了 SimplerEnv-OR 基准测试，包含 24 种观测扰动类型和 120 个严重程度等级，填补了 VLA 模型鲁棒性评估的空白。
在模拟环境和真实机器人实验中取得了领先的性能和优越的鲁棒性。

Card 04 方法描述

方法描述

方法分为两个阶段：Single-frame Pretraining（单帧预训练）在大规模数据集上通过自回归预测离散动作 Token 建立基础；Multi-frame Post-training（多帧后训练）将预测目标从离散 Token 转换为可学习特征。
引入 Feature Chunking 机制，通过队列维护历史特征，避免了重复计算，实现了快速推理。
设计了基于 DiT 的 Cross-frame Decoder（跨帧解码器），包含特征调制器来平衡当前帧和历史帧的信息，用于预测动作序列。
提出了 Multi-frame Regularization，通过停止梯度传播来解耦主干网络与多帧建模，保留单帧感知能力并促进收敛。

Card 05 数据集与资源

数据集与资源

预训练数据集：OXE (Open X-Embodiment) 数据集。
后训练数据集：Bridge-v2 和 Fractal 数据集，包含约 148k episodes 和 5M clips。
模型规模：CronusVLA 7B（基于 Llama 2）和 CronusVLA 0.5B（基于 Qwen2.5）。
视觉编码器：Dinov2 和 SigLip。
训练资源：A100 GPUs。

Card 06 评估与结果

评估与结果

评估基准：SimplerEnv、LIBERO 以及新提出的 SimplerEnv-OR。
在 SimplerEnv 上达到 70.9% 的平均成功率，达到最先进水平。
在 LIBERO 基准上，相比 OpenVLA 提升了 26.8%，平均成功率达到 97.0%。
在 SimplerEnv-OR 鲁棒性测试中获得了最高的 R-Score，在时空扰动下表现出最强的鲁棒性。
真实世界实验（Franka 机器人）显示，在长序列任务和遮挡干扰下，该方法显著优于 OpenVLA 和 DP3。