提出了 StreamVLA，一种双系统架构，旨在解耦高层规划与低层控制，解决现有视觉-语言-动作（VLA）模型中推理与控制纠缠导致的计算冗余问…

论文详情

StreamVLA: Breaking the Reason-Act Cycle via Completion-State Gating

2026-02-01 · 原文 · 翻译 · 2602.01100

提出了 StreamVLA，一种双系统架构，旨在解耦高层规划与低层控制，解决现有视觉-语言-动作（VLA）模型中推理与控制纠缠导致的计算冗余问题。引入 “Lock-and-Gated” 机制，利用生成的视觉完成状态作为门控信号，仅在检测到子任务转换时触发昂贵的推理过程。实现了在保持高性能的同时显著降低推理延迟，打破了推理深度与执行速度之间的权衡瓶颈。

4 分钟读完 6 张阅读卡 Tsinghua University

一眼看懂封面预览

提出了 StreamVLA，一种双系统架构，旨在解耦高层规划与低层控制，解决现有视觉-语言-动作（VLA）模型中推理与控制纠缠导致的计算冗余问…

提出了 StreamVLA，一种双系统架构，旨在解耦高层规划与低层控制，解决现有视觉-语言-动作（VLA）模型中推理与控制纠缠导致的计算冗余问…
引入 “Lock-and-Gated” 机制，利用生成的视觉完成状态作为门控信号，仅在检测到子任务转换时触发昂贵的推理过程。
实现了在保持高性能的同时显著降低推理延迟，打破了推理深度与执行速度之间的权衡瓶颈。

Card 01 研究单位

研究单位

Tsinghua University
Technical University of Munich (TUM)

Card 02 论文概述

论文概述

提出了 StreamVLA，一种双系统架构，旨在解耦高层规划与低层控制，解决现有视觉-语言-动作（VLA）模型中推理与控制纠缠导致的计算冗余问题。
引入 “Lock-and-Gated” 机制，利用生成的视觉完成状态作为门控信号，仅在检测到子任务转换时触发昂贵的推理过程。
实现了在保持高性能的同时显著降低推理延迟，打破了推理深度与执行速度之间的权衡瓶颈。

Card 03 核心贡献

核心贡献

提出了统一的双系统架构 StreamVLA，在单一参数高效的主干网络中实现了规划与控制的无缝集成。
设计了首个基于预视的门控机制，利用 想象的子任务完成状态 作为终止信号，智能调节计算资源的分配。
在 LIBERO 基准测试上取得了 98.5% 的最新性能，并在真实世界部署中实现了 48% 的延迟降低。

Card 04 方法描述

方法描述

模型基于 π0.5 架构，包含一个共享的 Transformer 主干网络和混合头设计。
System 2（慢思考）：包含用于生成文本子任务的 Sub-task Head 和用于生成视觉目标状态的 Imagination Head（基于 Infinity 架构）。
System 1（快行动）：包含一个 Flow Matching Action Expert，用于生成连续的电机控制轨迹。
引入轻量级的 Gating Module，通过计算当前观测与锁定目标之间的差异分数，在“跳过模式”和“全推理模式”之间动态切换。

Card 05 数据集与资源

数据集与资源

仿真基准：LIBERO（长视界推理）和 RoboTwin 2.0（动态控制与域随机化）。
真实世界数据：使用 6-DoF AgileX Piper 机械臂收集的自有数据集。
数据标注：LIBERO 和真实数据采用半自动流水线（使用 Qwen3-VL-Plus）；RoboTwin 使用程序化标注。
训练资源：在 24 NVIDIA A800 GPUs 上进行训练，模型规模为 3B 参数。

Card 06 评估与结果

评估与结果

评估环境：LIBERO 仿真基准、RoboTwin 2.0 仿真基准以及真实世界机器人操作任务。
主要指标：任务成功率（%）和平均推理延迟。
关键结果：在 LIBERO 基准上达到 98.5% 的平均成功率；在 RoboTwin-Hard 设置下达到 37.2% 的成功率，显著优于基线模型。
效率结果：相比全推理基线，平均延迟降低了 48%（从 244ms 降至 128ms），并在 72% 的时间步中跳过了冗余推理。