返回列表 VLA / Vision-Language-Action 每日论文卡
EBT-Policy: Energy Unlocks Emergent Physical Reasoning Capabilities
提出 EBT-Policy,一种基于能量模型(Energy-Based Models)的隐式策略学习方法,用于机器人视觉运动控制

论文详情

EBT-Policy: Energy Unlocks Emergent Physical Reasoning Capabilities

2025-10-31 · 原文 · 翻译 · 2510.27545

提出 EBT-Policy,一种基于能量模型(Energy-Based Models)的隐式策略学习方法,用于机器人视觉运动控制 旨在解决 Diffusion Policy 存在的高计算成本、暴露偏差(exposure bias)和推理不稳定问题 核心创新是利用 Energy-Based Transformers (EBTs) 学习能量景观,通过能量最小化而非去噪过程生成动作 展现出独特的涌现能力:无需显式训练即可…

5 分钟读完 6 张阅读卡 ZhiCheng AI: Travis Davies, Yiqi Huang, Huxian Liu…
一眼看懂 封面预览

提出 EBT-Policy,一种基于能量模型(Energy-Based Models)的隐式策略学习方法,用于机器人视觉运动控制

  • 提出 EBT-Policy,一种基于能量模型(Energy-Based Models)的隐式策略学习方法,用于机器人视觉运动控制
  • 旨在解决 Diffusion Policy 存在的高计算成本、暴露偏差(exposure bias)和推理不稳定问题
  • 核心创新是利用 Energy-Based Transformers (EBTs) 学习能量景观,通过能量最小化而非去噪过程生成动作
Card 01 研究单位

研究单位

  • ZhiCheng AI: Travis Davies, Yiqi Huang, Huxian Liu, Luhui Hu
  • UIUC (伊利诺伊大学厄巴纳-香槟分校): Alexi Gladstone, Heng Ji
  • 清华大学: Yunxin Liu
  • 北京大学: Xiang Chen
Card 02 论文概述

论文概述

  • 提出 EBT-Policy,一种基于能量模型(Energy-Based Models)的隐式策略学习方法,用于机器人视觉运动控制
  • 旨在解决 Diffusion Policy 存在的高计算成本、暴露偏差(exposure bias)和推理不稳定问题
  • 核心创新是利用 Energy-Based Transformers (EBTs) 学习能量景观,通过能量最小化而非去噪过程生成动作
  • 展现出独特的涌现能力:无需显式训练即可从失败动作序列中恢复重试
Card 03 核心贡献

核心贡献

  • 提出 EBT-Policy 架构,在模拟和真实机器人任务中一致优于 Diffusion Policy
  • 推理效率提升 50 倍:仅需 2 步推理即可达到高成功率,而 Diffusion Policy 需要 100 步
  • 涌现重试行为:首次在纯行为克隆中观察到无需训练数据支持的自主重试能力
  • 通过标量能量实现不确定性感知推理,根据任务难度动态分配计算资源
  • 更好的分布外鲁棒性:能量函数作为内置验证器,对环境变化更不敏感
Card 04 方法描述

方法描述

  • 能量函数学习:将动作轨迹映射到标量能量,低能量表示与观察和指令一致的动作序列
  • Langevin 动力学采样:通过梯度下降和噪声注入进行迭代能量最小化
  • 训练稳定性技术

- 能量缩放步长(energy-scaled step sizes)

- 预采样归一化(Pre-Sample Normalization)

- 梯度裁剪(gradient clipping, norm ≤ 1.0)

- Nesterov 加速梯度

  • 动态推理:根据能量梯度范数自适应决定推理步数,高能量区域(低置信度)分配更多计算
Card 05 数据集与资源

数据集与资源

  • 模拟数据集:robomimic 基准测试

- Lift、Can、Square、Tool Hang 四个任务

  • 真实世界任务

- FoldTowel(叠毛巾)

- PlacePan(放置平底锅)

- PickAndPlace(抓取放置)

  • 模型规模

- EBT-Policy-S:约 3000 万参数(模拟实验)

- EBT-Policy-R:约 1 亿参数(真实世界实验)

  • 视觉编码器:ResNet-18(模拟)、DINOv3-S(真实世界)
  • 语言编码器:T5-S(真实世界)
Card 06 评估与结果

评估与结果

  • 模拟任务成功率

- EBT-Policy-S 在所有四个任务上超过 Diffusion Policy

- Square 任务:98% vs 92%(DP 100步)

- Tool Hang 任务:68% vs 44%(DP 100步)

  • 真实世界任务

- FoldTowel:86% vs 10%(DP)

- PlacePan:75% vs 65%(DP)

- PickAndPlace:92% vs 90%(DP)

  • 训练效率:EBT-Policy 在 30 个 epoch 达到 100% 成功率,Diffusion Policy 需要 90 个 epoch
  • 涌现行为验证:Tool Hang 任务中,EBT-Policy 在钩子旋转到新配置时能自主调整策略并完成任务