ActDistill: General Action-Guided Self-Derived Distillation for Efficient Vision-Language-Action Models

一眼看懂封面预览

论文针对 Vision-Language-Action (VLA) 模型在实际部署中面临的计算开销大和推理延迟高的问题，提出了 ActDist…

Card 01 研究单位

研究单位

Card 02 论文概述

论文针对 Vision-Language-Action (VLA) 模型在实际部署中面临的计算开销大和推理延迟高的问题，提出了 ActDistill 框架。
旨在通过 动作引导的自蒸馏 方法，将大规模 VLA 教师模型的能力迁移到轻量级学生模型上，实现高效的具身智能推理。
解决了现有方法忽视视觉-语言到动作的渐进式转换过程，导致关键动作信息丢失和语义不连续的问题。

Card 03 核心贡献

Card 04 方法描述

教师模型处理：采用图结构封装技术，将中间层特征构建为动态关系图，通过注意力池化生成结构化语义嵌入（Semantic Capsules），并使用辅助损失函数对其进行动作预测监督。
学生模型构建：设计了一个包含 动态路由器 的轻量级副本，路由器根据输入的视觉和语言嵌入计算层级门控分数，决定执行或跳过特定层。
蒸馏训练：结合语义对齐损失、动作一致性损失和负载均衡损失，引导学生模型重建教师的层级控制推理过程，同时学习路由策略。
推理过程：推理时仅保留学生模型和路由器，根据阈值选择性执行关键层，大幅降低计算成本。

Card 05 数据集与资源

训练数据集：使用 Open X-Embodiment 数据集中的 Berkeley Bridge 子集进行训练。
评估基准：在 LIBERO（包含 Spatial, Object, Goal, Long 四个任务套件）和 SIMPLER（包含 Visual Matching 和 Variant Aggregation 场景）基准上进行评估。
硬件资源：使用 4 张 NVIDIA RTX 5090 GPU 进行训练，耗时约 8 小时。

Card 06 评估与结果

- 在 LIBERO 基准上，平均成功率为 73.95%（教师模型为 74.95%），实现了 1.59倍 加速，计算量降至 49.50%。

- 在 SIMPLER 基准的 Visual Matching 场景中，平均成功率为 74.08%，实现了 1.67倍 加速，计算量降至 42.30%。

- 相比 VLA-Cache、EfficientVLA、MoLe-VLA 等现有方法，ActDistill 在保持相近精度的同时实现了更高的加速比和更低的计算消耗。