研究目标：解决 VLA（视觉-语言-动作）模型在机器人微调过程中出现的灾难性遗忘问题，期望利用预训练 VLM 的通用语义能力来增强具身智能的性…

论文详情

TwinBrainVLA: Unleashing the Potential of Generalist VLMs for Embodied Tasks via Asymmetric Mixture-of-Transformers

2026-01-20 · 原文 · 翻译 · 2601.14133

研究目标：解决 VLA（视觉-语言-动作）模型在机器人微调过程中出现的灾难性遗忘问题，期望利用预训练 VLM 的通用语义能力来增强具身智能的性能。核心问题：标准 VLA 训练会破坏 VLM 预训练的特征空间，导致模型丧失通用的视觉理解能力，这与 VLA 范式的初衷相悖。提出方法：TwinBrainVLA，一种非对称双流架构，通过冻结的"左脑"（通用模型）和可训练的"右脑"（专用模型）协同工作，结合非对称混合 T…

5 分钟读完 6 张阅读卡 HIT (哈尔滨工业大学)

一眼看懂封面预览

研究目标：解决 VLA（视觉-语言-动作）模型在机器人微调过程中出现的灾难性遗忘问题，期望利用预训练 VLM 的通用语义能力来增强具身智能的性…

研究目标：解决 VLA（视觉-语言-动作）模型在机器人微调过程中出现的灾难性遗忘问题，期望利用预训练 VLM 的通用语义能力来增强具身智能的性…
核心问题：标准 VLA 训练会破坏 VLM 预训练的特征空间，导致模型丧失通用的视觉理解能力，这与 VLA 范式的初衷相悖。
提出方法：TwinBrainVLA，一种非对称双流架构，通过冻结的"左脑"（通用模型）和可训练的"右脑"（专用模型）协同工作，结合非对称混合…

Card 01 研究单位

研究单位

HIT (哈尔滨工业大学)
ZGCA (中关村 Academy)
ZGCI
HUST (华中科技大学)
HKUST(GZ) (香港科技大学(广州))
BUAA (北京航空航天大学)
ECNU (华东师范大学)
CASIA (中国科学院自动化研究所)
DeepCybo

Card 02 论文概述

论文概述

研究目标：解决 VLA（视觉-语言-动作）模型在机器人微调过程中出现的灾难性遗忘问题，期望利用预训练 VLM 的通用语义能力来增强具身智能的性能。
核心问题：标准 VLA 训练会破坏 VLM 预训练的特征空间，导致模型丧失通用的视觉理解能力，这与 VLA 范式的初衷相悖。
提出方法：TwinBrainVLA，一种非对称双流架构，通过冻结的"左脑"（通用模型）和可训练的"右脑"（专用模型）协同工作，结合非对称混合 Transformer（AsyMoT）机制，使右脑能够动态查询左脑的语义知识。

Card 03 核心贡献

核心贡献

定量分析了 VLA 训练对 VLM 通用能力造成的灾难性遗忘现象
提出 TwinBrainVLA 架构，从结构上解耦语义理解与具身控制
引入 AsyMoT（非对称混合 Transformer）机制，实现左右脑之间的高效信息交互
在 SimplerEnv、RoboCasa、LIBERO 基准及真实机器人实验中验证了方法的有效性

Card 04 方法描述

方法描述

非对称双 VLM 主干：左脑（冻结）保留预训练的通用视觉语言能力；右脑（可训练）专注于处理本体感觉状态和生成动作
AsyMoT 机制：右脑通过因果自注意力动态查询左脑的 Key-Value 对，实现语义知识的迁移而不发生遗忘
动作专家：使用 Flow-Matching 扩散模型（DiT）基于右脑的表示生成连续动作轨迹
训练策略：仅使用机器人动作损失进行训练，左脑参数完全冻结

Card 05 数据集与资源

数据集与资源

训练数据：Open X-Embodiment (OXE) 数据集的子集，包括 Bridge-V2、Fractal 等
评估基准：SimplerEnv、RoboCasa (GR1 Tabletop)、LIBERO
模型规模：基于 Qwen2.5-VL-3B-Instruct 和 Qwen3-VL-4B-Instruct 构建
训练资源：16 × NVIDIA H100 GPUs

Card 06 评估与结果

评估与结果

SimplerEnv (OOD)：TwinBrainVLA + Qwen3-VL-4B 达到 64.5% 平均成功率，超越最强基线 Isaac-GR00T-N1.6 (57.1%) +7.4%
RoboCasa：达到 54.6% 平均成功率，超越 Isaac-GR00T-N1.6 (47.6%) +7.0%
LIBERO：达到 97.6% 平均成功率
真实机器人实验：在域内、域外和长程任务中均表现优异，域外泛化达到 15/30 成功率
消融实验：验证了冻结策略和 AsyMoT 交互频率的重要性