返回列表 VLA / Vision-Language-Action 每日论文卡
Off-Policy Actor-Critic with Sigmoid-Bounded Entropy for Real-World Robot Learning
提出 SigEnt-SAC,一种从零开始学习的离策略 Actor-Critic 方法,仅需一条专家轨迹即可实现高效学习

论文详情

Off-Policy Actor-Critic with Sigmoid-Bounded Entropy for Real-World Robot Learning

2026-01-22 · 原文 · 翻译 · 2601.15761

提出 SigEnt-SAC,一种从零开始学习的离策略 Actor-Critic 方法,仅需一条专家轨迹即可实现高效学习 解决真实世界机器人强化学习的三大核心挑战:样本效率低、稀疏奖励和视觉观测噪声 核心设计:使用 Sigmoid 有界熵机制防止负熵驱动的优化走向分布外(OOD)动作,并减少 Q 函数振荡

5 分钟读完 6 张阅读卡 武汉大学 (Wuhan University)
一眼看懂 封面预览

提出 SigEnt-SAC,一种从零开始学习的离策略 Actor-Critic 方法,仅需一条专家轨迹即可实现高效学习

  • 提出 SigEnt-SAC,一种从零开始学习的离策略 Actor-Critic 方法,仅需一条专家轨迹即可实现高效学习
  • 解决真实世界机器人强化学习的三大核心挑战:样本效率低、稀疏奖励和视觉观测噪声
  • 核心设计:使用 Sigmoid 有界熵机制防止负熵驱动的优化走向分布外(OOD)动作,并减少 Q 函数振荡
Card 01 研究单位

研究单位

  • 武汉大学 (Wuhan University)

- Xiefeng Wu, Mingyu Hu, Shu Zhang

Card 02 论文概述

论文概述

  • 提出 SigEnt-SAC,一种从零开始学习的离策略 Actor-Critic 方法,仅需一条专家轨迹即可实现高效学习
  • 解决真实世界机器人强化学习的三大核心挑战:样本效率低稀疏奖励视觉观测噪声
  • 核心设计:使用 Sigmoid 有界熵机制防止负熵驱动的优化走向分布外(OOD)动作,并减少 Q 函数振荡
Card 03 核心贡献

核心贡献

  • 单次演示高效性:在 one-shot 设置下,比现有离线到在线基线方法更快达到 100% 任务成功率
  • 单目视觉控制:支持仅从单目 egocentric 相机流进行控制,在动态环境中仍能稳定收敛
  • 跨构型泛化能力:在不同物理构型的机器人上验证成功,包括人形机器人、四足机器人和自主移动机器人
  • 创新性 Sigmoid 有界熵:通过 sigmoid 函数将每维惊异度映射为有界、正范围的熵信号,消除策略过度优化
  • 门控行为克隆(GBC):仅对偏离专家样本显著的动作进行惩罚,稳定策略优化并减少无效探索
Card 04 方法描述

方法描述

  • Sigmoid-Bounded Entropy:对 tanh 压缩的高斯策略,将每维负对数密度(惊异度)通过 sigmoid 函数变换为有界熵贡献:$h_i(s_i)=h_{max} \cdot \sigma(\frac{s_i - m}{t})$
  • Gated Behavior Cloning:引入基于偏差的门控机制,仅当策略均值动作与专家动作偏差超过阈值 $\varepsilon$ 时激活行为克隆损失
  • 保守 Q 学习正则化:添加 CQL 风格正则化项,抑制采样 OOD 动作上的虚假高 Q 值
  • 算法框架:在标准 SAC 基础上整合有界熵和门控行为克隆,使用双 Q 网络和目标网络
Card 05 数据集与资源

数据集与资源

  • 模拟数据集:D4RL Adroit 和 Kitchen 基准测试
  • 真实机器人任务

- Push-Cube(机械臂操作)

- Ball-to-goal(轮式机器人)

- Slalom(四足机器 Unitree Go2)

- Slalom(人形机器人 Unitree G1)

  • 观测方式:单目灰度图像,纯视觉观测,无全局状态估计
  • 演示数据:每任务仅需一条成功轨迹
  • 模型参数量:约 0.091M 参数
  • 训练开销:3.13 ms/update(与其他方法可比)
Card 06 评估与结果

评估与结果

  • 模拟环境评估

- 在 one-shot 设置下比其他基线更快达到 100% 成功率

- 对噪声演示(50%丢弃、动作噪声、状态噪声)具有更强的鲁棒性

  • 真实世界评估(4 个任务,10 次评估):

- Push-Cube:100% 成功率

- Ball-Driving:100% 成功率

- Slalom (Go2):100% 成功率

- Slalom (G1):100% 成功率

- 相比基线 BC(30 次演示)和 VLM 零样本具有显著优势

  • 性能提升:学到的策略比演示平均减少 40.9% 任务完成时间(Ball-to-goal 任务减少 88.46%)
  • 超参数敏感性:GBC 权重 $\lambda$ 和门控阈值 $\varepsilon$ 存在较宽的稳定区间,易于调优