返回列表 VLA / Vision-Language-Action 每日论文卡
DEAS: DEtached value learning with Action Sequence for Scalable Offline RL
DEAS 是一种离线强化学习框架,利用动作序列(action sequence)进行价值学习,以应对复杂的长程决策任务

论文详情

DEAS: DEtached value learning with Action Sequence for Scalable Offline RL

2025-10-09 · 原文 · 翻译 · 2510.07730

DEAS 是一种离线强化学习框架,利用动作序列(action sequence)进行价值学习,以应对复杂的长程决策任务 该方法解决了在离线 RL 中使用动作序列时出现的价值过度估计问题,通过解耦价值学习与策略更新来保持训练稳定性 方法可与大型视觉-语言-动作模型(VLAs)结合,在模拟和真实机器人任务上显著提升性能

5 分钟读完 6 张阅读卡 KAIST (韩国科学技术院)
一眼看懂 封面预览

DEAS 是一种离线强化学习框架,利用动作序列(action sequence)进行价值学习,以应对复杂的长程决策任务

  • DEAS 是一种离线强化学习框架,利用动作序列(action sequence)进行价值学习,以应对复杂的长程决策任务
  • 该方法解决了在离线 RL 中使用动作序列时出现的价值过度估计问题,通过解耦价值学习与策略更新来保持训练稳定性
  • 方法可与大型视觉-语言-动作模型(VLAs)结合,在模拟和真实机器人任务上显著提升性能
Card 01 研究单位

研究单位

  • KAIST (韩国科学技术院)
  • UC Berkeley (加州大学伯克利分校)
  • University of Texas at Austin (德克萨斯大学奥斯汀分校)
  • NVIDIA (英伟达)
Card 02 论文概述

论文概述

  • DEAS 是一种离线强化学习框架,利用动作序列(action sequence)进行价值学习,以应对复杂的长程决策任务
  • 该方法解决了在离线 RL 中使用动作序列时出现的价值过度估计问题,通过解耦价值学习与策略更新来保持训练稳定性
  • 方法可与大型视觉-语言-动作模型(VLAs)结合,在模拟和真实机器人任务上显著提升性能
Card 03 核心贡献

核心贡献

  • 提出 DEAS (DEtached value learning with Action Sequence):一种利用动作序列的离线 RL 方法,采用分离式价值学习避免价值过度估计
  • OGBench 的 30 个多样化任务场景中显著优于现有基线方法
  • 展示了 DEAS 可用于增强大规模 Vision-Language-Action (VLA) 模型的性能,在 RoboCasa Kitchen 和真实机器人操作任务上取得优异结果
Card 04 方法描述

方法描述

  • 选项框架(Options Framework):将 H 步动作序列建模为单一决策单元,诱导半马尔可夫决策过程(SMDP),实现有效的规划视界缩减
  • 分离式价值学习(Detached Value Learning):借鉴 IQL 方法,将评论家训练与演员解耦,使用分类损失训练价值网络,偏向离线数据集中的高回报动作
  • 分布强化学习(Distributional RL):将评论家和价值网络建模为离散分布,增强多步返回累积偏差下的稳定性
  • 双折扣因子:γ₁ 用于选项内(intra-option)奖励,γ₂ 用于选项间(inter-option)奖励,缓解价值爆炸或崩溃问题
Card 05 数据集与资源

数据集与资源

  • OGBench:6 个操作环境(scene-play、cube-double-play、puzzle-3x3、cube-triple-play、puzzle-4x4、cube-quadruple-play),每个环境 5 个子任务
  • RoboCasa Kitchen:4 个具有挑战性的操作任务
  • 真实机器人实验:Franka Emika Research 3 机械臂
  • 使用 GR00T N1.5 VLA 模型进行微调实验
Card 06 评估与结果

评估与结果

  • 评估基准:OGBench 离线 RL 基准测试
  • 主要指标:成功率(%)
  • 关键结果

- 在 puzzle-3x3-play 任务上:DEAS 达到 91% 成功率,显著领先于 FQL (44%)、n-step FQL (36%)、QC-FQL (62%)

- 在 scene-play 任务上:DEAS 达到 76%,领先于 FQL (50%)、n-step FQL (36%)、QC-FQL (73%)

- 在 cube-triple-play 任务上:DEAS 达到 82%,大幅领先于其他方法

- 消融实验验证了动作序列长度、网络规模、训练目标和双折扣因子的有效性