提出 SigEnt-SAC，一种从零开始学习的离策略 Actor-Critic 方法，仅需一条专家轨迹即可实现高效学习

论文详情

Off-Policy Actor-Critic with Sigmoid-Bounded Entropy for Real-World Robot Learning

2026-01-22 · 原文 · 翻译 · 2601.15761

提出 SigEnt-SAC，一种从零开始学习的离策略 Actor-Critic 方法，仅需一条专家轨迹即可实现高效学习解决真实世界机器人强化学习的三大核心挑战：样本效率低、稀疏奖励和视觉观测噪声核心设计：使用 Sigmoid 有界熵机制防止负熵驱动的优化走向分布外（OOD）动作，并减少 Q 函数振荡

5 分钟读完 6 张阅读卡武汉大学 (Wuhan University)

一眼看懂封面预览

提出 SigEnt-SAC，一种从零开始学习的离策略 Actor-Critic 方法，仅需一条专家轨迹即可实现高效学习

提出 SigEnt-SAC，一种从零开始学习的离策略 Actor-Critic 方法，仅需一条专家轨迹即可实现高效学习
解决真实世界机器人强化学习的三大核心挑战：样本效率低、稀疏奖励和视觉观测噪声
核心设计：使用 Sigmoid 有界熵机制防止负熵驱动的优化走向分布外（OOD）动作，并减少 Q 函数振荡

Card 01 研究单位

研究单位

武汉大学 (Wuhan University)

- Xiefeng Wu, Mingyu Hu, Shu Zhang

Card 02 论文概述

论文概述

提出 SigEnt-SAC，一种从零开始学习的离策略 Actor-Critic 方法，仅需一条专家轨迹即可实现高效学习
解决真实世界机器人强化学习的三大核心挑战：样本效率低、稀疏奖励和视觉观测噪声
核心设计：使用 Sigmoid 有界熵机制防止负熵驱动的优化走向分布外（OOD）动作，并减少 Q 函数振荡

Card 03 核心贡献

核心贡献

单次演示高效性：在 one-shot 设置下，比现有离线到在线基线方法更快达到 100% 任务成功率
单目视觉控制：支持仅从单目 egocentric 相机流进行控制，在动态环境中仍能稳定收敛
跨构型泛化能力：在不同物理构型的机器人上验证成功，包括人形机器人、四足机器人和自主移动机器人
创新性 Sigmoid 有界熵：通过 sigmoid 函数将每维惊异度映射为有界、正范围的熵信号，消除策略过度优化
门控行为克隆（GBC）：仅对偏离专家样本显著的动作进行惩罚，稳定策略优化并减少无效探索

Card 04 方法描述

方法描述

Sigmoid-Bounded Entropy：对 tanh 压缩的高斯策略，将每维负对数密度（惊异度）通过 sigmoid 函数变换为有界熵贡献：$h_i(s_i)=h_{max} \cdot \sigma(\frac{s_i - m}{t})$
Gated Behavior Cloning：引入基于偏差的门控机制，仅当策略均值动作与专家动作偏差超过阈值 $\varepsilon$ 时激活行为克隆损失
保守 Q 学习正则化：添加 CQL 风格正则化项，抑制采样 OOD 动作上的虚假高 Q 值
算法框架：在标准 SAC 基础上整合有界熵和门控行为克隆，使用双 Q 网络和目标网络

Card 05 数据集与资源

数据集与资源

模拟数据集：D4RL Adroit 和 Kitchen 基准测试
真实机器人任务：

- Push-Cube（机械臂操作）

- Ball-to-goal（轮式机器人）

- Slalom（四足机器 Unitree Go2）

- Slalom（人形机器人 Unitree G1）

观测方式：单目灰度图像，纯视觉观测，无全局状态估计
演示数据：每任务仅需一条成功轨迹
模型参数量：约 0.091M 参数
训练开销：3.13 ms/update（与其他方法可比）

Card 06 评估与结果

评估与结果

模拟环境评估：

- 在 one-shot 设置下比其他基线更快达到 100% 成功率

- 对噪声演示（50%丢弃、动作噪声、状态噪声）具有更强的鲁棒性

真实世界评估（4 个任务，10 次评估）：

- Push-Cube：100% 成功率

- Ball-Driving：100% 成功率

- Slalom (Go2)：100% 成功率

- Slalom (G1)：100% 成功率

- 相比基线 BC（30 次演示）和 VLM 零样本具有显著优势

性能提升：学到的策略比演示平均减少 40.9% 任务完成时间（Ball-to-goal 任务减少 88.46%）
超参数敏感性：GBC 权重 $\lambda$ 和门控阈值 $\varepsilon$ 存在较宽的稳定区间，易于调优