一眼看懂
封面预览
论文提出了 CronusVLA,一个统一的框架,旨在将单帧视觉-语言-动作(VLA)模型扩展到多帧范式,以解决现有模型无法利用时序信息的问题。
- 论文提出了 CronusVLA,一个统一的框架,旨在将单帧视觉-语言-动作(VLA)模型扩展到多帧范式,以解决现有模型无法利用时序信息的问题。
- 研究旨在解决直接将多帧图像输入 VLA 主干网络带来的计算开销大和推理延迟高的问题,通过多帧建模提高机器人操作的性能和鲁棒性。
- 论文还引入了 SimplerEnv-OR 基准测试,用于量化评估模型在观测扰动下的鲁棒性。
Card 01
研究单位
研究单位
- 提供的 HTML 片段中未包含具体的作者及所属研究单位信息(HTML 文本在标题后直接进入摘要部分)。
Card 02
论文概述
论文概述
- 论文提出了 CronusVLA,一个统一的框架,旨在将单帧视觉-语言-动作(VLA)模型扩展到多帧范式,以解决现有模型无法利用时序信息的问题。
- 研究旨在解决直接将多帧图像输入 VLA 主干网络带来的计算开销大和推理延迟高的问题,通过多帧建模提高机器人操作的性能和鲁棒性。
- 论文还引入了 SimplerEnv-OR 基准测试,用于量化评估模型在观测扰动下的鲁棒性。
Card 03
核心贡献
核心贡献
- 提出了 CronusVLA 框架,包含单帧预训练和多帧后训练两个阶段,实现了高效的多帧建模。
- 提出了 Feature Chunking(特征切片)和 Multi-frame Regularization(多帧正则化)技术,在聚合历史信息的同时保持了高效的推理速度。
- 构建了 SimplerEnv-OR 基准测试,包含 24 种观测扰动类型和 120 个严重程度等级,填补了 VLA 模型鲁棒性评估的空白。
- 在模拟环境和真实机器人实验中取得了领先的性能和优越的鲁棒性。
Card 04
方法描述
方法描述
- 方法分为两个阶段:Single-frame Pretraining(单帧预训练)在大规模数据集上通过自回归预测离散动作 Token 建立基础;Multi-frame Post-training(多帧后训练)将预测目标从离散 Token 转换为可学习特征。
- 引入 Feature Chunking 机制,通过队列维护历史特征,避免了重复计算,实现了快速推理。
- 设计了基于 DiT 的 Cross-frame Decoder(跨帧解码器),包含特征调制器来平衡当前帧和历史帧的信息,用于预测动作序列。
- 提出了 Multi-frame Regularization,通过停止梯度传播来解耦主干网络与多帧建模,保留单帧感知能力并促进收敛。
Card 05
数据集与资源
数据集与资源
- 预训练数据集:OXE (Open X-Embodiment) 数据集。
- 后训练数据集:Bridge-v2 和 Fractal 数据集,包含约 148k episodes 和 5M clips。
- 模型规模:CronusVLA 7B(基于 Llama 2)和 CronusVLA 0.5B(基于 Qwen2.5)。
- 视觉编码器:Dinov2 和 SigLip。
- 训练资源:A100 GPUs。
Card 06
评估与结果
评估与结果
- 评估基准:SimplerEnv、LIBERO 以及新提出的 SimplerEnv-OR。
- 在 SimplerEnv 上达到 70.9% 的平均成功率,达到最先进水平。
- 在 LIBERO 基准上,相比 OpenVLA 提升了 26.8%,平均成功率达到 97.0%。
- 在 SimplerEnv-OR 鲁棒性测试中获得了最高的 R-Score,在时空扰动下表现出最强的鲁棒性。
- 真实世界实验(Franka 机器人)显示,在长序列任务和遮挡干扰下,该方法显著优于 OpenVLA 和 DP3。