Embedding Morphology into Transformers for Cross-Robot Policy Learning - VLA / Vision-Language-Action 每日论文卡

一眼看懂封面预览

本文旨在解决跨机器人策略学习的核心挑战，即训练一个单一策略使其能在多种机器人形态（如不同关节结构、自由度）上表现良好。

Card 01 研究单位

研究单位

Kei Suzuki, Jing Liu, Ye Wang, Chiori Hori, Matthew Brand, Diego Romeres, Toshiaki Koike-Akino（原文未明确列出作者所属机构，根据作者姓名与合作模式推断可能涉及多个研究机构）

Card 02 论文概述

本文旨在解决 跨机器人策略学习 的核心挑战，即训练一个单一策略使其能在多种机器人形态（如不同关节结构、自由度）上表现良好。
当前主流的 视觉-语言-动作（VLA）模型（如 π0.5）通常是形态不可知的，必须从观测中隐式学习运动学结构，这限制了其在单一形态内的性能和跨形态的泛化能力。
论文提出一种 形态感知的Transformer策略，通过显式注入机器人形态信息来提升策略的鲁棒性和泛化能力。

Card 03 核心贡献

提出三种将机器人形态嵌入 VLA 策略的机制：运动学令牌、拓扑感知注意力偏置 和 关节属性条件化。
设计了一种 关节层面的动作表示，将动作序列在关节维度分解并通过时间分块压缩，为形态嵌入提供了清晰的接口。
在 单一形态 和 多形态 学习设置下，所提方法在多个基准测试（DROID、Unitree G1 Dex1、SO101）上持续优于基准 π0.5 VLA模型，验证了方法的有效性。

Card 04 方法描述

运动学令牌：将时间序列动作按关节分解，并将时间步长分块压缩，形成每个关节的紧凑表示，作为策略的额外上下文。
拓扑感知注意力：在自注意力机制中引入基于运动学图（节点为关节，边为物理连接）的偏置。提出了 Mix-Mask 方法，交替使用拓扑约束的局部注意力和全局注意力，以平衡局部消息传递与全局协调。
关节属性条件化：使用 FiLM（特征线性调制） 层，根据每个关节的描述符（如关节类型、轴向、运动范围、摩擦系数等）来调节运动学令牌的嵌入，注入超越连接关系的语义信息。

Card 05 数据集与资源

使用数据集：DROID (Franka Panda机械臂数据集)、Unitree G1 Dex1 仿真数据集、SO101 数据集（来自LeRobot）。
模型基于 π0.5 VLA基座模型。微调方式包括 AP-FT（约450M可训练参数）和 Full-FT（约3.5B可训练参数）。
训练资源：原文未明确说明具体GPU/TPU资源消耗。

Card 06 评估与结果

- 在 DROID 单形态评估中，完整模型（KT + Mix-Mask + FiLM）的平均成功率（47.4%）显著高于基准 π0.5 模型（19.7%）。

- 在 Unitree G1 Dex1 单形态评估中，完整模型同样取得了最佳成功率（28.0%）。

- 在 DROID + SO101 多形态联合训练中，提出的方法在训练全程均优于基准模型，显示了更好的跨形态学习效率。