返回列表 VLA / Vision-Language-Action 每日论文卡
AdaPower: Specializing World Foundation Models for Predictive Manipulation
AdaPower 是一个轻量级适配框架,用于将通用世界基础模型(WFM)转换为专用世界模型(SWM),解决生成真实感与控制精度之间的差距问题

论文详情

AdaPower: Specializing World Foundation Models for Predictive Manipulation

2025-12-03 · 原文 · 翻译 · 2512.03538

AdaPower 是一个轻量级适配框架,用于将通用世界基础模型(WFM)转换为专用世界模型(SWM),解决生成真实感与控制精度之间的差距问题 论文提出两个核心创新组件:时空测试时训练(TS-TTT) 和 记忆持久性(MP) 模块,分别解决测试时分布偏移和长视野一致性问题 在 LIBERO 基准测试中,AdaPower 在不重训练策略的情况下将任务成功率提升超过 41%,同时保持计算效率

5 分钟读完 6 张阅读卡 国防科技大学 (National University of Defense Technology)
一眼看懂 封面预览

AdaPower 是一个轻量级适配框架,用于将通用世界基础模型(WFM)转换为专用世界模型(SWM),解决生成真实感与控制精度之间的差距问题

  • AdaPower 是一个轻量级适配框架,用于将通用世界基础模型(WFM)转换为专用世界模型(SWM),解决生成真实感与控制精度之间的差距问题
  • 论文提出两个核心创新组件:时空测试时训练(TS-TTT) 和 记忆持久性(MP) 模块,分别解决测试时分布偏移和长视野一致性问题
  • 在 LIBERO 基准测试中,AdaPower 在不重训练策略的情况下将任务成功率提升超过 41%,同时保持计算效率
Card 01 研究单位

研究单位

  • 国防科技大学 (National University of Defense Technology)
  • 北京大学 (Peking University)
  • 深圳大学 (Shenzhen University)
Card 02 论文概述

论文概述

  • AdaPower 是一个轻量级适配框架,用于将通用世界基础模型(WFM)转换为专用世界模型(SWM),解决生成真实感与控制精度之间的差距问题
  • 论文提出两个核心创新组件:时空测试时训练(TS-TTT)记忆持久性(MP) 模块,分别解决测试时分布偏移和长视野一致性问题
  • LIBERO 基准测试中,AdaPower 在不重训练策略的情况下将任务成功率提升超过 41%,同时保持计算效率
Card 03 核心贡献

核心贡献

  • 提出 AdaPower 框架,高效地将世界基础模型适配为专用世界模型,建立利用互联网规模视频先验进行机器人操作的新范式
  • 设计 TS-TTT 和 MP 模块,有效解决测试时适配和长视野一致性的核心挑战
  • 开发协同 MPC 系统,为预训练 VLA 赋予强大的零样本泛化能力,显著提升性能并弥合通用世界知识与专用机器人控制之间的差距
Card 04 方法描述

方法描述

  • 基础模型:使用 Cosmos-Predict2-2B 作为世界基础模型,基于 Diffusion Transformer (DiT) 架构
  • TS-TTT 模块:扩展传统 TTT 到时空维度,对 4D 视频特征进行低秩自监督学习,包含时空分支和通道分支
  • MP 模块:使用 DINOv2 提取历史帧的对象中心特征,通过交叉注意力融合到 DiT 特征中,保持长期一致性
  • 动作编码器:用动作编码器替换原始文本编码器,实现动作条件预测
  • MPC 部署:预训练 VLA 作为高级规划器生成候选动作序列,专用世界模型作为动态预测器进行 rollout 评估
  • 参数效率:新增约 150M 参数(不到基础模型的 10%),每 7 个 DiT 块插入一次
Card 05 数据集与资源

数据集与资源

  • 训练数据:LIBERO-90 数据集的 2000 条轨迹
  • 训练配置:10000 次迭代,AdamW 优化器,学习率 1e-3(TS-TTT)和 1e-4(其他组件)
  • 评估任务:10 个未见过的操作任务,每个任务执行 20 次
  • 基座 VLA 模型:CogACT 和 π₀
  • 真实机器人:Franka Research 3 机械臂(7 自由度)
Card 06 评估与结果

评估与结果

  • 模拟环境:在 LIBERO 10 个任务上达到 41.5% 平均成功率
  • 对比其他适配器:VACE (20.5%)、LoRA (23.5%)、SFT (32.5%)
  • 消融实验

- 仅 TS-TTT:40.0%

- 仅 MP:38.0%

- 两者结合:41.5%

  • 跨策略评估:CogACT + AdaPower 提升 41%,π₀ + AdaPower 提升 27%
  • 真实世界实验:在 5 个物理任务上平均成功率提升超过 30%