论文提出了 HY-Embodied-0.5 系列，这是一组专为真实世界具身智能体设计的基础模型。

论文详情

HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents

2026-04-08 · 原文 · 翻译 · 2604.07430

论文提出了 HY-Embodied-0.5 系列，这是一组专为真实世界具身智能体设计的基础模型。旨在弥合通用视觉语言模型（VLM）与具身智能需求之间的差距，解决精细视觉感知和具身推理/规划问题。发布了两个主要版本：面向边缘部署的高效模型 MoT-2B 和面向复杂推理的强力模型 MoE-A32B。

4 分钟读完 6 张阅读卡腾讯 Robotics X 实验室

一眼看懂封面预览

论文提出了 HY-Embodied-0.5 系列，这是一组专为真实世界具身智能体设计的基础模型。

论文提出了 HY-Embodied-0.5 系列，这是一组专为真实世界具身智能体设计的基础模型。
旨在弥合通用视觉语言模型（VLM）与具身智能需求之间的差距，解决精细视觉感知和具身推理/规划问题。
发布了两个主要版本：面向边缘部署的高效模型 MoT-2B 和面向复杂推理的强力模型 MoE-A32B。

Card 01 研究单位

研究单位

腾讯 Robotics X 实验室
HY Vision Team（混元视觉团队）

Card 02 论文概述

论文概述

论文提出了 HY-Embodied-0.5 系列，这是一组专为真实世界具身智能体设计的基础模型。
旨在弥合通用视觉语言模型（VLM）与具身智能需求之间的差距，解决精细视觉感知和具身推理/规划问题。
发布了两个主要版本：面向边缘部署的高效模型 MoT-2B 和面向复杂推理的强力模型 MoE-A32B。

Card 03 核心贡献

核心贡献

引入 Mixture-of-Transformers (MoT) 架构，实现模态自适应计算，解耦视觉和语言参数以增强视觉建模能力。
设计 Visual Latent Tokens（视觉潜在 Token）连接视觉与语言模态，提升感知表征能力。
提出迭代式自演化后训练范式，结合强化学习（RL）和拒绝采样微调（RFT）提升深层推理能力。
采用 Large-to-Small On-Policy Distillation（在策略蒸馏），将大模型的能力高效迁移至边缘小模型。

Card 04 方法描述

方法描述

视觉编码器采用 HY-ViT 2.0，支持原生分辨率输入，通过知识蒸馏优化以适配边缘设备（400M 参数）。
MoT 架构为视觉分支设计了独立的双向注意力机制和 FFN 层，避免重度视觉训练削弱语言能力。
在视觉输入序列末尾附加可学习的视觉潜在 Token，并使用全局特征监督辅助训练。
强化学习阶段设计了任务感知奖励机制，涵盖定位、回归、轨迹和文本推理四类任务。

Card 05 数据集与资源

数据集与资源

预训练数据量超过 600B tokens，包含通用理解和具身/感知数据。
中期训练使用约 25M 高质量样本，涵盖 Omni-Detection（62M）、深度估计（36M）、分割（5M）等数据。
模型规模：MoT-2B（激活 2B/总参数 4B），MoE-A32B（激活 32B/总参数 407B）。

Card 06 评估与结果

评估与结果

在涵盖视觉感知、空间推理和具身理解的 22 个基准 上进行了全面评估。
MoT-2B 模型在 16/22 基准上取得最佳表现，平均分 58.0%，超越参数量更大的 Qwen3-VL-4B 和 RoboBrain2.5-4B。
MoE-A32B 模型平均分达到 67.0%，超越了前沿模型 Gemini 3.0 Pro（63.6%）和 Seed 2.0（66.2%）。