HMVLA: Hyperbolic Multimodal Fusion for Vision-Language-Action Models - VLA / Vision-Language-Action 每日论文卡

一眼看懂封面预览

论文提出 HMVLA（Hyperbolic Multimodal Fusion for Vision-Language-Action），一个利…

Card 01 研究单位

研究单位

根据论文致谢部分，该研究由以下机构支持：中国国家自然科学基金委员会（Grant No. 62277011）、中国国家重点研发计划（Grant No. GG-2024-01-02）、重庆市MEITC项目（Grant No. YJX-2025001001009）以及广东省人工智能与数字经济（深圳）实验室开放研究基金（Grant No. GML-KF-24-18）

Card 02 论文概述

论文提出 HMVLA（Hyperbolic Multimodal Fusion for Vision-Language-Action），一个利用双曲空间表示和稀疏门控专家混合机制增强视觉-语言语义对齐的 VLA 框架
旨在解决现有 VLA 模型直接微调预训练 VLM 时未能充分处理 VLA 领域语义对齐挑战的问题，特别是保留图像-文本数据中的层次结构
通过将多模态特征嵌入双曲空间，更有效地建模图像-文本数据中的层次关系，同时引入 MoE 机制增强多模态融合效果

Card 03 核心贡献

Card 04 方法描述

双曲语义对齐：基于 Lorentz 模型的双曲几何，将视觉和语言特征映射到双曲空间（超平面），利用指数和对数映射实现切空间与流形间的转换，并引入 entailment 损失约束层次依赖关系
Soft MoE 多模态融合：用稀疏门控的专家混合模块替换 Q-Former 的前馈层，每个 token 通过门控网络计算权重后加权求和多个专家的输出，同时加入负载均衡损失确保专家平衡使用
使用 Dita 作为骨干网络，总损失函数结合对比损失、entailment 损失和任务损失

Card 05 数据集与资源

Card 06 评估与结果

- HMVLA 在 Spatial、Object、Goal、LONG 四个子集上分别达到 90%、96%、89%、69%

- 平均准确率 86%，超越所有基线方法（最佳基线 Dita 为 82%）

- 消融实验验证了双曲空间、MoE 模块和 FiLM 条件机制各自对性能提升的贡献