Information-Theoretic Constraints for Continual Vision-Language-Action Alignment

一眼看懂封面预览

研究 Vision-Language-Action (VLA) 模型在持续学习中的灾难性遗忘问题，发现跨模态信息结构的退化是性能下降的根本原因

Card 01 研究单位

研究单位

Card 02 论文概述

研究 Vision-Language-Action (VLA) 模型在持续学习中的灾难性遗忘问题，发现跨模态信息结构的退化是性能下降的根本原因
提出 Info-VLA 框架，通过两个互补约束保持跨模态信息结构：Replay Anchor Contrastive Learning 和 Cross-Modal Mutual Information Maximization
在 LIBERO 基准上验证了方法的有效性，显著优于现有持续学习 baseline，在任务保留和适应效率上达到新 SOTA

Card 03 核心贡献

Card 04 方法描述

Replay Anchor Contrastive Learning: 从冻结的教师模型提取历史样本的视觉嵌入作为锚点，学生模型通过对比损失使相同轨迹的表示靠近锚点，同时与不同任务表示分离
Cross-Modal Mutual Information Maximization: 通过最大化教师和学生模型视觉-语言潜在表示间的互信息，保持跨模态依赖结构；引入边际一致性正则化防止退化解
整体目标: L = L_CL + λ₁L_RAC + λ₂L_CMI，其中 L_CL 是 flow-matching 动作预测损失
采用 π₀.5 作为预训练基础模型，仅更新动作头参数，保持多模态主干网冻结

Card 05 数据集与资源

Card 06 评估与结果

- LIBERO-Long B5-5N1: Info-VLA 达到 AA 78.7%，显著优于 ER 的 72.0%

- LIBERO-Goal B0-5N1: Info-VLA 达到 AA 73.3%，优于 ER 的 67.2%

- 在旧任务保留上提升约 6-9%，NBT 接近 0 或为负值（存在任务间正迁移）