提出 EBT-Policy，一种基于能量模型（Energy-Based Models）的隐式策略学习方法，用于机器人视觉运动控制

论文详情

EBT-Policy: Energy Unlocks Emergent Physical Reasoning Capabilities

2025-10-31 · 原文 · 翻译 · 2510.27545

提出 EBT-Policy，一种基于能量模型（Energy-Based Models）的隐式策略学习方法，用于机器人视觉运动控制旨在解决 Diffusion Policy 存在的高计算成本、暴露偏差（exposure bias）和推理不稳定问题核心创新是利用 Energy-Based Transformers (EBTs) 学习能量景观，通过能量最小化而非去噪过程生成动作展现出独特的涌现能力：无需显式训练即可…

5 分钟读完 6 张阅读卡 ZhiCheng AI: Travis Davies, Yiqi Huang, Huxian Liu…

一眼看懂封面预览

提出 EBT-Policy，一种基于能量模型（Energy-Based Models）的隐式策略学习方法，用于机器人视觉运动控制

提出 EBT-Policy，一种基于能量模型（Energy-Based Models）的隐式策略学习方法，用于机器人视觉运动控制
旨在解决 Diffusion Policy 存在的高计算成本、暴露偏差（exposure bias）和推理不稳定问题
核心创新是利用 Energy-Based Transformers (EBTs) 学习能量景观，通过能量最小化而非去噪过程生成动作

Card 01 研究单位

研究单位

ZhiCheng AI: Travis Davies, Yiqi Huang, Huxian Liu, Luhui Hu
UIUC (伊利诺伊大学厄巴纳-香槟分校): Alexi Gladstone, Heng Ji
清华大学: Yunxin Liu
北京大学: Xiang Chen

Card 02 论文概述

论文概述

提出 EBT-Policy，一种基于能量模型（Energy-Based Models）的隐式策略学习方法，用于机器人视觉运动控制
旨在解决 Diffusion Policy 存在的高计算成本、暴露偏差（exposure bias）和推理不稳定问题
核心创新是利用 Energy-Based Transformers (EBTs) 学习能量景观，通过能量最小化而非去噪过程生成动作
展现出独特的涌现能力：无需显式训练即可从失败动作序列中恢复重试

Card 03 核心贡献

核心贡献

提出 EBT-Policy 架构，在模拟和真实机器人任务中一致优于 Diffusion Policy
推理效率提升 50 倍：仅需 2 步推理即可达到高成功率，而 Diffusion Policy 需要 100 步
涌现重试行为：首次在纯行为克隆中观察到无需训练数据支持的自主重试能力
通过标量能量实现不确定性感知推理，根据任务难度动态分配计算资源
更好的分布外鲁棒性：能量函数作为内置验证器，对环境变化更不敏感

Card 04 方法描述

方法描述

能量函数学习：将动作轨迹映射到标量能量，低能量表示与观察和指令一致的动作序列
Langevin 动力学采样：通过梯度下降和噪声注入进行迭代能量最小化
训练稳定性技术：

- 能量缩放步长（energy-scaled step sizes）

- 预采样归一化（Pre-Sample Normalization）

- 梯度裁剪（gradient clipping, norm ≤ 1.0）

- Nesterov 加速梯度

动态推理：根据能量梯度范数自适应决定推理步数，高能量区域（低置信度）分配更多计算

Card 05 数据集与资源

数据集与资源

模拟数据集：robomimic 基准测试

- Lift、Can、Square、Tool Hang 四个任务

真实世界任务：

- FoldTowel（叠毛巾）

- PlacePan（放置平底锅）

- PickAndPlace（抓取放置）

模型规模：

- EBT-Policy-S：约 3000 万参数（模拟实验）

- EBT-Policy-R：约 1 亿参数（真实世界实验）

视觉编码器：ResNet-18（模拟）、DINOv3-S（真实世界）
语言编码器：T5-S（真实世界）

Card 06 评估与结果

评估与结果

模拟任务成功率：

- EBT-Policy-S 在所有四个任务上超过 Diffusion Policy

- Square 任务：98% vs 92%（DP 100步）

- Tool Hang 任务：68% vs 44%（DP 100步）

真实世界任务：

- FoldTowel：86% vs 10%（DP）

- PlacePan：75% vs 65%（DP）

- PickAndPlace：92% vs 90%（DP）

训练效率：EBT-Policy 在 30 个 epoch 达到 100% 成功率，Diffusion Policy 需要 90 个 epoch
涌现行为验证：Tool Hang 任务中，EBT-Policy 在钩子旋转到新配置时能自主调整策略并完成任务