Decoupled Action Expert: Confining Task Knowledge to the Conditioning Pathway

一眼看懂封面预览

研究 Vision-Language-Action (VLA) 模型中动作专家的过度参数化问题：当前 diffusion/flow-match…

Card 01 研究单位

研究单位

Australian Institute for Machine Learning, University of Adelaide, SA, Australia
作者：Jian Zhou, Sihao Lin, Shuai Fu, Zerui Li, Gengze Zhou, Qi Wu

Card 02 论文概述

研究 Vision-Language-Action (VLA) 模型中动作专家的过度参数化问题：当前 diffusion/flow-matching 动作生成模型使用高达数亿参数的架构（如 244M U-Net、~300M flow-matching 网络、甚至 1B+ 参数），但生成的只是低维度的动作序列（160 个值），存在严重的输出复杂度与模型容量不匹配问题
提出 核心假设：任务特定知识可以完全限制在条件化路径（conditioning pathway）中，动作主干网络可以是任务无关的（task-agnostic）
解决 数据稀缺问题：机器人演示数据比图像或语言模型训练数据小几个数量级，亟需识别哪些组件真正需要特定任务演示

Card 03 核心贡献

提出 Decoupled Action Expert（解耦动作专家）两阶段训练方法：第一阶段在无观察的关节位置到末端执行器姿态的运动学数据上预训练，第二阶段冻结主干网络仅训练条件化路径
证明 5M 参数的 MLP 可以匹配或超越 244M 参数的 U-Net：参数减少 51 倍，性能反而提升（MimicGen: 65.9% vs 63.6%；LIBERO: 84.7% vs 79.3%）
通过消融实验表明 Stage 1 条件化类型对下游性能几乎无影响：主干网络学习的是通用轨迹结构，而非任务特定模式
展示 冻结主干网络可直接从外部无观察运动学数据集（DROID）迁移，标准端到端训练无法利用此类数据源

Card 04 方法描述

Stage 1（无观察预训练）：利用确定性的正向运动学映射（关节位置 q → 末端执行器姿态 p），训练主干网络 G_θ 和条件化网络 F_ψ 对末端执行器姿态动作序列进行去噪
Stage 2（任务特定适配）：冻结预训练的主干网络 G_θ̄，仅初始化并训练新的观察编码器 Φ_φ' 和条件化网络 F_ψ'
DP-MLP 轻量级主干：用 L 个残差 FiLM-MLP 块替换 244M U-Net，每个块包含层归一化、两个线性层和 FiLM 调制，合计约 5M 参数
关键设计：使用 FiLM（Feature-wise Linear Modulation）条件化机制，将所有任务特定计算保留在外部条件化路径中，使主干网络保持任务无关性

Card 05 数据集与资源

MimicGen：8 个任务，每个任务 1000 条演示，包含粗操作、细粒度操作和多步操作
LIBERO：4 个任务套件（Spatial, Object, Goal, Long），每个任务套件 10 个任务，每个任务 50 条演示
观察编码器：MimicGen 使用 ResNet-18，LIBERO 使用 ImageNet 预训练的 ResNet-50 + DistilBERT 语言嵌入
动作空间：10 维（3 位置 + 6 旋转 + 1 夹爪），预测 horizon 为 16 步
外部预训练数据：DROID 数据集约 76,000 条 Franka 真实世界操作轨迹

Card 06 评估与结果

- DP-C 正常训练：63.6% ± 1.8%

- DP-C 解耦训练：62.2% ± 2.3%（仅下降 1.4%）

- DP-MLP 正常训练：65.9% ± 0.7%（超越 DP-C）

- DP-MLP 解耦训练：61.2% ± 0.5%

- DP-C 正常训练：79.3% ± 0.6%

- DP-C 解耦训练：76.8% ± 0.9%（下降 2.5%）

- DP-MLP 正常训练：84.7% ± 0.5%（显著超越 DP-C）

- DP-MLP 解耦训练：84.2% ± 0.9%（几乎无下降）

条件化机制消融：使用 cross-attention 的 DP-T 在解耦后性能崩溃（MimicGen 60.4% → 19.4%，LIBERO 76.4% → 5.9%），证明只有 FiLM 等调制型条件化机制支持解耦