返回列表 VLA / Vision-Language-Action 每日论文卡
StreamVLA: Breaking the Reason-Act Cycle via Completion-State Gating
提出了 StreamVLA,一种双系统架构,旨在解耦高层规划与低层控制,解决现有视觉-语言-动作(VLA)模型中推理与控制纠缠导致的计算冗余问…

论文详情

StreamVLA: Breaking the Reason-Act Cycle via Completion-State Gating

2026-02-01 · 原文 · 翻译 · 2602.01100

提出了 StreamVLA,一种双系统架构,旨在解耦高层规划与低层控制,解决现有视觉-语言-动作(VLA)模型中推理与控制纠缠导致的计算冗余问题。 引入 “Lock-and-Gated” 机制,利用生成的视觉完成状态作为门控信号,仅在检测到子任务转换时触发昂贵的推理过程。 实现了在保持高性能的同时显著降低推理延迟,打破了推理深度与执行速度之间的权衡瓶颈。

4 分钟读完 6 张阅读卡 Tsinghua University
一眼看懂 封面预览

提出了 StreamVLA,一种双系统架构,旨在解耦高层规划与低层控制,解决现有视觉-语言-动作(VLA)模型中推理与控制纠缠导致的计算冗余问…

  • 提出了 StreamVLA,一种双系统架构,旨在解耦高层规划与低层控制,解决现有视觉-语言-动作(VLA)模型中推理与控制纠缠导致的计算冗余问…
  • 引入 “Lock-and-Gated” 机制,利用生成的视觉完成状态作为门控信号,仅在检测到子任务转换时触发昂贵的推理过程。
  • 实现了在保持高性能的同时显著降低推理延迟,打破了推理深度与执行速度之间的权衡瓶颈。
Card 01 研究单位

研究单位

  • Tsinghua University
  • Technical University of Munich (TUM)
Card 02 论文概述

论文概述

  • 提出了 StreamVLA,一种双系统架构,旨在解耦高层规划与低层控制,解决现有视觉-语言-动作(VLA)模型中推理与控制纠缠导致的计算冗余问题。
  • 引入 “Lock-and-Gated” 机制,利用生成的视觉完成状态作为门控信号,仅在检测到子任务转换时触发昂贵的推理过程。
  • 实现了在保持高性能的同时显著降低推理延迟,打破了推理深度与执行速度之间的权衡瓶颈。
Card 03 核心贡献

核心贡献

  • 提出了统一的双系统架构 StreamVLA,在单一参数高效的主干网络中实现了规划与控制的无缝集成。
  • 设计了首个基于预视的门控机制,利用 想象的子任务完成状态 作为终止信号,智能调节计算资源的分配。
  • LIBERO 基准测试上取得了 98.5% 的最新性能,并在真实世界部署中实现了 48% 的延迟降低。
Card 04 方法描述

方法描述

  • 模型基于 π0.5 架构,包含一个共享的 Transformer 主干网络和混合头设计。
  • System 2(慢思考):包含用于生成文本子任务的 Sub-task Head 和用于生成视觉目标状态的 Imagination Head(基于 Infinity 架构)。
  • System 1(快行动):包含一个 Flow Matching Action Expert,用于生成连续的电机控制轨迹。
  • 引入轻量级的 Gating Module,通过计算当前观测与锁定目标之间的差异分数,在“跳过模式”和“全推理模式”之间动态切换。
Card 05 数据集与资源

数据集与资源

  • 仿真基准:LIBERO(长视界推理)和 RoboTwin 2.0(动态控制与域随机化)。
  • 真实世界数据:使用 6-DoF AgileX Piper 机械臂收集的自有数据集。
  • 数据标注:LIBERO 和真实数据采用半自动流水线(使用 Qwen3-VL-Plus);RoboTwin 使用程序化标注。
  • 训练资源:在 24 NVIDIA A800 GPUs 上进行训练,模型规模为 3B 参数。
Card 06 评估与结果

评估与结果

  • 评估环境:LIBERO 仿真基准、RoboTwin 2.0 仿真基准以及真实世界机器人操作任务。
  • 主要指标:任务成功率(%)和平均推理延迟。
  • 关键结果:在 LIBERO 基准上达到 98.5% 的平均成功率;在 RoboTwin-Hard 设置下达到 37.2% 的成功率,显著优于基线模型。
  • 效率结果:相比全推理基线,平均延迟降低了 48%(从 244ms 降至 128ms),并在 72% 的时间步中跳过了冗余推理。