一眼看懂
封面预览
提出 EBT-Policy,一种基于能量模型(Energy-Based Models)的隐式策略学习方法,用于机器人视觉运动控制
- 提出 EBT-Policy,一种基于能量模型(Energy-Based Models)的隐式策略学习方法,用于机器人视觉运动控制
- 旨在解决 Diffusion Policy 存在的高计算成本、暴露偏差(exposure bias)和推理不稳定问题
- 核心创新是利用 Energy-Based Transformers (EBTs) 学习能量景观,通过能量最小化而非去噪过程生成动作
Card 01
研究单位
研究单位
- ZhiCheng AI: Travis Davies, Yiqi Huang, Huxian Liu, Luhui Hu
- UIUC (伊利诺伊大学厄巴纳-香槟分校): Alexi Gladstone, Heng Ji
- 清华大学: Yunxin Liu
- 北京大学: Xiang Chen
Card 02
论文概述
论文概述
- 提出 EBT-Policy,一种基于能量模型(Energy-Based Models)的隐式策略学习方法,用于机器人视觉运动控制
- 旨在解决 Diffusion Policy 存在的高计算成本、暴露偏差(exposure bias)和推理不稳定问题
- 核心创新是利用 Energy-Based Transformers (EBTs) 学习能量景观,通过能量最小化而非去噪过程生成动作
- 展现出独特的涌现能力:无需显式训练即可从失败动作序列中恢复重试
Card 03
核心贡献
核心贡献
- 提出 EBT-Policy 架构,在模拟和真实机器人任务中一致优于 Diffusion Policy
- 推理效率提升 50 倍:仅需 2 步推理即可达到高成功率,而 Diffusion Policy 需要 100 步
- 涌现重试行为:首次在纯行为克隆中观察到无需训练数据支持的自主重试能力
- 通过标量能量实现不确定性感知推理,根据任务难度动态分配计算资源
- 更好的分布外鲁棒性:能量函数作为内置验证器,对环境变化更不敏感
Card 04
方法描述
方法描述
- 能量函数学习:将动作轨迹映射到标量能量,低能量表示与观察和指令一致的动作序列
- Langevin 动力学采样:通过梯度下降和噪声注入进行迭代能量最小化
- 训练稳定性技术:
- 能量缩放步长(energy-scaled step sizes)
- 预采样归一化(Pre-Sample Normalization)
- 梯度裁剪(gradient clipping, norm ≤ 1.0)
- Nesterov 加速梯度
- 动态推理:根据能量梯度范数自适应决定推理步数,高能量区域(低置信度)分配更多计算
Card 05
数据集与资源
数据集与资源
- 模拟数据集:robomimic 基准测试
- Lift、Can、Square、Tool Hang 四个任务
- 真实世界任务:
- FoldTowel(叠毛巾)
- PlacePan(放置平底锅)
- PickAndPlace(抓取放置)
- 模型规模:
- EBT-Policy-S:约 3000 万参数(模拟实验)
- EBT-Policy-R:约 1 亿参数(真实世界实验)
- 视觉编码器:ResNet-18(模拟)、DINOv3-S(真实世界)
- 语言编码器:T5-S(真实世界)
Card 06
评估与结果
评估与结果
- 模拟任务成功率:
- EBT-Policy-S 在所有四个任务上超过 Diffusion Policy
- Square 任务:98% vs 92%(DP 100步)
- Tool Hang 任务:68% vs 44%(DP 100步)
- 真实世界任务:
- FoldTowel:86% vs 10%(DP)
- PlacePan:75% vs 65%(DP)
- PickAndPlace:92% vs 90%(DP)
- 训练效率:EBT-Policy 在 30 个 epoch 达到 100% 成功率,Diffusion Policy 需要 90 个 epoch
- 涌现行为验证:Tool Hang 任务中,EBT-Policy 在钩子旋转到新配置时能自主调整策略并完成任务