返回列表 VLA / Vision-Language-Action 每日论文卡
SemanticVLA: Semantic-Aligned Sparsification and Enhancement for Efficient Robotic Manipulation
提出一种名为 SemanticVLA 的新型视觉-语言-动作模型框架,旨在实现高效且可解释的机器人操作。

论文详情

SemanticVLA: Semantic-Aligned Sparsification and Enhancement for Efficient Robotic Manipulation

2025-11-13 · 原文 · 翻译 · 2511.10518

提出一种名为 SemanticVLA 的新型视觉-语言-动作模型框架,旨在实现高效且可解释的机器人操作。 解决现有VLA模型在部署中面临的两个核心瓶颈:感知冗余(处理无关视觉输入效率低)和 指令-视觉对齐浅层化(阻碍动作的语义基础)。 通过语义对齐的稀疏化与增强技术,在降低计算成本的同时提升任务性能与推理能力。

5 分钟读完 6 张阅读卡 论文作者包括 Wei Li, Renshan Zhang, Rui Shao, Zhijian Fan…
一眼看懂 封面预览

提出一种名为 SemanticVLA 的新型视觉-语言-动作模型框架,旨在实现高效且可解释的机器人操作。

  • 提出一种名为 SemanticVLA 的新型视觉-语言-动作模型框架,旨在实现高效且可解释的机器人操作。
  • 解决现有VLA模型在部署中面临的两个核心瓶颈:感知冗余(处理无关视觉输入效率低)和 指令-视觉对齐浅层化(阻碍动作的语义基础)。
  • 通过语义对齐的稀疏化与增强技术,在降低计算成本的同时提升任务性能与推理能力。
Card 01 研究单位

研究单位

  • 论文作者包括 Wei Li, Renshan Zhang, Rui Shao, Zhijian Fang, Kaiwen Zhou, Zhuotao Tian, Liqiang Nie,但原文中未明确列出其所属的具体研究机构名称。
Card 02 论文概述

论文概述

  • 提出一种名为 SemanticVLA 的新型视觉-语言-动作模型框架,旨在实现高效且可解释的机器人操作。
  • 解决现有VLA模型在部署中面临的两个核心瓶颈:感知冗余(处理无关视觉输入效率低)和 指令-视觉对齐浅层化(阻碍动作的语义基础)。
  • 通过语义对齐的稀疏化与增强技术,在降低计算成本的同时提升任务性能与推理能力。
Card 03 核心贡献

核心贡献

  • 提出 SD-Pruner (语义引导双视觉修剪器),通过 ID-PrunerSA-Pruner 分别对 SigLIPDINOv2 编码器进行指令感知与几何感知的联合修剪,大幅剪除冗余感知信息。
  • 设计 SH-Fuser (语义互补层次融合器),通过双流融合机制,整合来自 SigLIPDINOv2 的密集块特征与稀疏语义标记,增强指令语义与空间结构的对齐。
  • 引入 SA-Coupler (语义条件化动作耦合器),将感知表示映射到语义动作类型,替代传统观测到自由度的映射,实现更高效、可解释的行为建模。
  • 在仿真和真实世界任务中进行了广泛实验,证明了模型在性能与效率上均达到SOTA水平。
Card 04 方法描述

方法描述

  • 模型采用双视觉编码器架构:SigLIP 用于指令感知编码,DINOv2 用于空间感知编码。
  • ID-Pruner 计算指令-图像跨模态相似性,通过视觉到语言映射和语言到视觉过滤两条路径,提取全局动作线索和局部语义锚点,生成稀疏视觉标记。
  • SA-Pruner 利用聚合标记和 FiLM 层对 DINOv2 的空间特征进行指令调制与聚合,产生几何丰富且任务相关的稀疏标记。
  • SH-Fuser 包含 Dense-Fuser(跨编码器块交换块级信息)和 Sparse-Fuser(合并修剪后的显著标记),实现层次化融合。
  • SA-Coupler 将每个未来动作表示为平移、旋转和夹持三个独立的标记,并通过专用预测头直接回归连续运动参数,实现并行解码。
Card 05 数据集与资源

数据集与资源

  • 仿真实验使用 LIBERO 基准,包含 Spatial、Object、Goal、Long 四个任务套件,每个套件500个人工遥操作演示。
  • 真实世界实验在 AgileX Cobot Magic 平台上进行,涵盖物体放置、抽屉操作、T恤折叠等长视野任务。
  • 模型以 OpenVLA 为骨干,采用 LoRA 微调。实验在 8× A800 (80GB) GPU 上进行。
Card 06 评估与结果

评估与结果

  • LIBERO 基准上,SemanticVLA 取得 97.7% 的总体成功率,排名第一,显著超越基线模型。
  • 效率方面,相比 OpenVLA,训练成本降低 3.0倍,推理延迟降低 2.7倍,视觉输入标记减少至 1/16 或 1/8,动作表示标记减少至 3/7
  • 在真实世界长视野任务中,SemanticVLA 的成功率达到 77.8%,比最佳基线 OpenVLA-OFT 高出 22.2%
  • 消融实验验证了各组件的有效性,并表明在8倍稀疏化率下取得了性能与效率的最佳平衡。