针对 Vision-Language-Action (VLA) 模型在长序列上下文处理受限和推理效率低的问题，提出了 SD-VLA 框架。

论文详情

Efficient Long-Horizon Vision-Language-Action Models via Static-Dynamic Disentanglement

2026-02-03 · 原文 · 翻译 · 2602.03983

针对 Vision-Language-Action (VLA) 模型在长序列上下文处理受限和推理效率低的问题，提出了 SD-VLA 框架。该框架基于视觉信息在时间步中大部分保持静态（如背景）的观察，将视觉输入解耦为静态和动态令牌。通过仅保留一份静态令牌并复用其键值缓存，显著减少了上下文长度并提升了推理速度。

4 分钟读完 6 张阅读卡论文作者为 Weikang Qiu、Tinglin Huang 和 Rex Ying（原文 HTML…

一眼看懂封面预览

针对 Vision-Language-Action (VLA) 模型在长序列上下文处理受限和推理效率低的问题，提出了 SD-VLA 框架。

针对 Vision-Language-Action (VLA) 模型在长序列上下文处理受限和推理效率低的问题，提出了 SD-VLA 框架。
该框架基于视觉信息在时间步中大部分保持静态（如背景）的观察，将视觉输入解耦为静态和动态令牌。
通过仅保留一份静态令牌并复用其键值缓存，显著减少了上下文长度并提升了推理速度。

Card 01 研究单位

研究单位

论文作者为 Weikang Qiu、Tinglin Huang 和 Rex Ying（原文 HTML 中未明确列出具体所属机构名称）。

Card 02 论文概述

论文概述

针对 Vision-Language-Action (VLA) 模型在长序列上下文处理受限和推理效率低的问题，提出了 SD-VLA 框架。
该框架基于视觉信息在时间步中大部分保持静态（如背景）的观察，将视觉输入解耦为静态和动态令牌。
通过仅保留一份静态令牌并复用其键值缓存，显著减少了上下文长度并提升了推理速度。

Card 03 核心贡献

核心贡献

提出了 SD-VLA 框架，通过将图像令牌解耦为动态令牌和多级静态令牌，实现了长序列记忆整合和高效推理。
引入了一个可训练的 recache gate，自适应地决定何时刷新缓存或复用之前的缓存表示，在最小化延迟的同时优化性能。
发布了新基准 LIBERO-Memory，用于更有效地评估 VLA 模型对长序列时间依赖关系的建模能力。

Card 04 方法描述

方法描述

将视觉令牌显式解耦为 静态令牌（Static tokens）和 动态令牌（Dynamic tokens），并引入多级静态令牌以捕捉不同时间尺度的持久信息。
在处理多帧观测时，只保留一份静态令牌，并将动态令牌与语言指令拼接，从而在不扩展上下文窗口的情况下引入历史信息。
使用 Gumbel-softmax 技巧训练 recache gate，实现端到端的二元决策，判断是否需要重新计算静态令牌。
训练目标包含标准任务损失、用于静态令牌时序一致性的 InfoNCE 对比损失 以及用于门控机制的 正则化损失。

Card 05 数据集与资源

数据集与资源

训练数据集：Open X-Embodiment (OXE)（用于 SimplerEnv 实验）、LIBERO 数据集。
评估基准：新提出的 LIBERO-Memory、SimplerEnv、LIBERO。
基础模型：基于 CogAct（用于 SimplerEnv 和 LIBERO-Memory）和 OpenVLA-OFT（用于 LIBERO）进行微调和评估。
仿真环境：使用 Robosuite 生成 LIBERO-Memory 数据。

Card 06 评估与结果

评估与结果

在 LIBERO-Memory 基准上，模型成功率比基线绝对提升了 39.8%，证明了其在时间依赖建模上的优越性。
在 SimplerEnv 基准上，成功率提升了 3.9%，推理延迟降低，实现了 2.26x 的加速。
在 LIBERO 基准上，成功率提升了 0.7%，并实现了 1.70x 的推理加速。
消融实验验证了对比学习目标、多级缓存设计和可学习门控机制的有效性。