AdaPower 是一个轻量级适配框架，用于将通用世界基础模型（WFM）转换为专用世界模型（SWM），解决生成真实感与控制精度之间的差距问题

论文详情

AdaPower: Specializing World Foundation Models for Predictive Manipulation

2025-12-03 · 原文 · 翻译 · 2512.03538

AdaPower 是一个轻量级适配框架，用于将通用世界基础模型（WFM）转换为专用世界模型（SWM），解决生成真实感与控制精度之间的差距问题论文提出两个核心创新组件：时空测试时训练（TS-TTT）和记忆持久性（MP）模块，分别解决测试时分布偏移和长视野一致性问题在 LIBERO 基准测试中，AdaPower 在不重训练策略的情况下将任务成功率提升超过 41%，同时保持计算效率

5 分钟读完 6 张阅读卡国防科技大学 (National University of Defense Technology)

一眼看懂封面预览

AdaPower 是一个轻量级适配框架，用于将通用世界基础模型（WFM）转换为专用世界模型（SWM），解决生成真实感与控制精度之间的差距问题

AdaPower 是一个轻量级适配框架，用于将通用世界基础模型（WFM）转换为专用世界模型（SWM），解决生成真实感与控制精度之间的差距问题
论文提出两个核心创新组件：时空测试时训练（TS-TTT）和记忆持久性（MP）模块，分别解决测试时分布偏移和长视野一致性问题
在 LIBERO 基准测试中，AdaPower 在不重训练策略的情况下将任务成功率提升超过 41%，同时保持计算效率

Card 01 研究单位

研究单位

国防科技大学 (National University of Defense Technology)
北京大学 (Peking University)
深圳大学 (Shenzhen University)

Card 02 论文概述

论文概述

AdaPower 是一个轻量级适配框架，用于将通用世界基础模型（WFM）转换为专用世界模型（SWM），解决生成真实感与控制精度之间的差距问题
论文提出两个核心创新组件：时空测试时训练（TS-TTT） 和 记忆持久性（MP） 模块，分别解决测试时分布偏移和长视野一致性问题
在 LIBERO 基准测试中，AdaPower 在不重训练策略的情况下将任务成功率提升超过 41%，同时保持计算效率

Card 03 核心贡献

核心贡献

提出 AdaPower 框架，高效地将世界基础模型适配为专用世界模型，建立利用互联网规模视频先验进行机器人操作的新范式
设计 TS-TTT 和 MP 模块，有效解决测试时适配和长视野一致性的核心挑战
开发协同 MPC 系统，为预训练 VLA 赋予强大的零样本泛化能力，显著提升性能并弥合通用世界知识与专用机器人控制之间的差距

Card 04 方法描述

方法描述

基础模型：使用 Cosmos-Predict2-2B 作为世界基础模型，基于 Diffusion Transformer (DiT) 架构
TS-TTT 模块：扩展传统 TTT 到时空维度，对 4D 视频特征进行低秩自监督学习，包含时空分支和通道分支
MP 模块：使用 DINOv2 提取历史帧的对象中心特征，通过交叉注意力融合到 DiT 特征中，保持长期一致性
动作编码器：用动作编码器替换原始文本编码器，实现动作条件预测
MPC 部署：预训练 VLA 作为高级规划器生成候选动作序列，专用世界模型作为动态预测器进行 rollout 评估
参数效率：新增约 150M 参数（不到基础模型的 10%），每 7 个 DiT 块插入一次

Card 05 数据集与资源

数据集与资源

训练数据：LIBERO-90 数据集的 2000 条轨迹
训练配置：10000 次迭代，AdamW 优化器，学习率 1e-3（TS-TTT）和 1e-4（其他组件）
评估任务：10 个未见过的操作任务，每个任务执行 20 次
基座 VLA 模型：CogACT 和 π₀
真实机器人：Franka Research 3 机械臂（7 自由度）

Card 06 评估与结果

评估与结果

模拟环境：在 LIBERO 10 个任务上达到 41.5% 平均成功率
对比其他适配器：VACE (20.5%)、LoRA (23.5%)、SFT (32.5%)
消融实验：

- 仅 TS-TTT：40.0%

- 仅 MP：38.0%

- 两者结合：41.5%

跨策略评估：CogACT + AdaPower 提升 41%，π₀ + AdaPower 提升 27%
真实世界实验：在 5 个物理任务上平均成功率提升超过 30%