DEAS: DEtached value learning with Action Sequence for Scalable Offline RL

一眼看懂封面预览

DEAS 是一种离线强化学习框架，利用动作序列（action sequence）进行价值学习，以应对复杂的长程决策任务

Card 01 研究单位

研究单位

Card 02 论文概述

Card 03 核心贡献

提出 DEAS (DEtached value learning with Action Sequence)：一种利用动作序列的离线 RL 方法，采用分离式价值学习避免价值过度估计
在 OGBench 的 30 个多样化任务场景中显著优于现有基线方法
展示了 DEAS 可用于增强大规模 Vision-Language-Action (VLA) 模型的性能，在 RoboCasa Kitchen 和真实机器人操作任务上取得优异结果

Card 04 方法描述

选项框架（Options Framework）：将 H 步动作序列建模为单一决策单元，诱导半马尔可夫决策过程（SMDP），实现有效的规划视界缩减
分离式价值学习（Detached Value Learning）：借鉴 IQL 方法，将评论家训练与演员解耦，使用分类损失训练价值网络，偏向离线数据集中的高回报动作
分布强化学习（Distributional RL）：将评论家和价值网络建模为离散分布，增强多步返回累积偏差下的稳定性
双折扣因子：γ₁ 用于选项内（intra-option）奖励，γ₂ 用于选项间（inter-option）奖励，缓解价值爆炸或崩溃问题

Card 05 数据集与资源

OGBench：6 个操作环境（scene-play、cube-double-play、puzzle-3x3、cube-triple-play、puzzle-4x4、cube-quadruple-play），每个环境 5 个子任务
RoboCasa Kitchen：4 个具有挑战性的操作任务
真实机器人实验：Franka Emika Research 3 机械臂
使用 GR00T N1.5 VLA 模型进行微调实验

Card 06 评估与结果

- 在 puzzle-3x3-play 任务上：DEAS 达到 91% 成功率，显著领先于 FQL (44%)、n-step FQL (36%)、QC-FQL (62%)

- 在 scene-play 任务上：DEAS 达到 76%，领先于 FQL (50%)、n-step FQL (36%)、QC-FQL (73%)

- 在 cube-triple-play 任务上：DEAS 达到 82%，大幅领先于其他方法

- 消融实验验证了动作序列长度、网络规模、训练目标和双折扣因子的有效性