一眼看懂
封面预览
提出了 StreamVLA,一种双系统架构,旨在解耦高层规划与低层控制,解决现有视觉-语言-动作(VLA)模型中推理与控制纠缠导致的计算冗余问…
- 提出了 StreamVLA,一种双系统架构,旨在解耦高层规划与低层控制,解决现有视觉-语言-动作(VLA)模型中推理与控制纠缠导致的计算冗余问…
- 引入 “Lock-and-Gated” 机制,利用生成的视觉完成状态作为门控信号,仅在检测到子任务转换时触发昂贵的推理过程。
- 实现了在保持高性能的同时显著降低推理延迟,打破了推理深度与执行速度之间的权衡瓶颈。
Card 01
研究单位
研究单位
- Tsinghua University
- Technical University of Munich (TUM)
Card 02
论文概述
论文概述
- 提出了 StreamVLA,一种双系统架构,旨在解耦高层规划与低层控制,解决现有视觉-语言-动作(VLA)模型中推理与控制纠缠导致的计算冗余问题。
- 引入 “Lock-and-Gated” 机制,利用生成的视觉完成状态作为门控信号,仅在检测到子任务转换时触发昂贵的推理过程。
- 实现了在保持高性能的同时显著降低推理延迟,打破了推理深度与执行速度之间的权衡瓶颈。
Card 03
核心贡献
核心贡献
- 提出了统一的双系统架构 StreamVLA,在单一参数高效的主干网络中实现了规划与控制的无缝集成。
- 设计了首个基于预视的门控机制,利用 想象的子任务完成状态 作为终止信号,智能调节计算资源的分配。
- 在 LIBERO 基准测试上取得了 98.5% 的最新性能,并在真实世界部署中实现了 48% 的延迟降低。
Card 04
方法描述
方法描述
- 模型基于 π0.5 架构,包含一个共享的 Transformer 主干网络和混合头设计。
- System 2(慢思考):包含用于生成文本子任务的 Sub-task Head 和用于生成视觉目标状态的 Imagination Head(基于 Infinity 架构)。
- System 1(快行动):包含一个 Flow Matching Action Expert,用于生成连续的电机控制轨迹。
- 引入轻量级的 Gating Module,通过计算当前观测与锁定目标之间的差异分数,在“跳过模式”和“全推理模式”之间动态切换。
Card 05
数据集与资源
数据集与资源
- 仿真基准:LIBERO(长视界推理)和 RoboTwin 2.0(动态控制与域随机化)。
- 真实世界数据:使用 6-DoF AgileX Piper 机械臂收集的自有数据集。
- 数据标注:LIBERO 和真实数据采用半自动流水线(使用 Qwen3-VL-Plus);RoboTwin 使用程序化标注。
- 训练资源:在 24 NVIDIA A800 GPUs 上进行训练,模型规模为 3B 参数。
Card 06
评估与结果
评估与结果
- 评估环境:LIBERO 仿真基准、RoboTwin 2.0 仿真基准以及真实世界机器人操作任务。
- 主要指标:任务成功率(%)和平均推理延迟。
- 关键结果:在 LIBERO 基准上达到 98.5% 的平均成功率;在 RoboTwin-Hard 设置下达到 37.2% 的成功率,显著优于基线模型。
- 效率结果:相比全推理基线,平均延迟降低了 48%(从 244ms 降至 128ms),并在 72% 的时间步中跳过了冗余推理。