返回列表 VLA / Vision-Language-Action 每日论文卡
Sample-Efficient Robot Skill Learning for Construction Tasks: Benchmarking Hierarchical Reinforcement Learning and Vision-Language-Action VLA Model
系统比较了两种前沿的建筑机器人技能学习方法:分层强化学习(Hierarchical Reinforcement Learning, HRL)…

论文详情

Sample-Efficient Robot Skill Learning for Construction Tasks: Benchmarking Hierarchical Reinforcement Learning and Vision-Language-Action VLA Model

2025-12-16 · 原文 · 翻译 · 2512.14031

系统比较了两种前沿的建筑机器人技能学习方法:分层强化学习(Hierarchical Reinforcement Learning, HRL) 与 视觉-语言-动作模型(Vision-Language-Action, VLA) 针对建筑行业劳动力短缺背景,评估两种方法在样本效率、泛化能力和实际部署工作量方面的差异 解决建筑机器人长时程、复杂材料搬运与安装任务中的高效编程问题

5 分钟读完 6 张阅读卡 Stony Brook University (Department of Civil Enginee…
一眼看懂 封面预览

系统比较了两种前沿的建筑机器人技能学习方法:分层强化学习(Hierarchical Reinforcement Learning, HRL)…

  • 系统比较了两种前沿的建筑机器人技能学习方法:分层强化学习(Hierarchical Reinforcement Learning, HRL)…
  • 针对建筑行业劳动力短缺背景,评估两种方法在样本效率、泛化能力和实际部署工作量方面的差异
  • 解决建筑机器人长时程、复杂材料搬运与安装任务中的高效编程问题
Card 01 研究单位

研究单位

  • Stony Brook University (Department of Civil Engineering)
  • Virginia Tech (Department of Civil and Environmental Engineering, Department of Electrical and Computer Engineering)
Card 02 论文概述

论文概述

  • 系统比较了两种前沿的建筑机器人技能学习方法:分层强化学习(Hierarchical Reinforcement Learning, HRL)视觉-语言-动作模型(Vision-Language-Action, VLA)
  • 针对建筑行业劳动力短缺背景,评估两种方法在样本效率、泛化能力和实际部署工作量方面的差异
  • 解决建筑机器人长时程、复杂材料搬运与安装任务中的高效编程问题
Card 03 核心贡献

核心贡献

  • 开发了两种轻量级遥操作数据收集界面:基于滑块的关节控制接口(用于HRL)和基于键盘的末端执行器控制接口(用于VLA)
  • 构建了MuJoCo仿真环境下的可复用材料安装任务模板,支持跨构型多场景数据集
  • 提出三阶段评估框架:MLP vs. DQN基线选择、三种VLA模型(π₀π₀.₅OpenVLA)比较、以及HRL与VLA的最终基准测试
  • 首次系统验证了VLA模型在建筑任务中的少样本(few-shot)迁移能力,π₀.₅在地面场景达到100%拾取成功率
Card 04 方法描述

方法描述

  • HRL方法:采用DQN作为基线,结合力/力矩信号、关节状态和物体状态作为观测,通过时序差分损失训练;设计分层结构包含MLP子目标发现网络和两个分别针对拾取与安装任务的Q网络
  • VLA方法:基于预训练视觉-语言模型(PaLI-Gemma-3B用于π₀/π₀.₅,Prismatic-7B用于OpenVLA),使用LoRA参数高效微调;控制头采用流匹配(flow matching)生成连续动作块,支持50步高频控制
  • 关键创新:对比了多视图连续控制(π₀/π₀.₅)与单视图离散动作(OpenVLA)两种架构范式
Card 05 数据集与资源

数据集与资源

  • 数据集:自建Cross-Embodiment Multi-Scene Dataset,包含桌面场景(Franka Panda)100条演示和地面场景(UR5e)200条演示
  • 模型规模:π₀/π₀.₅约3.3B参数,OpenVLA约7.5B参数;DQN为三层全连接网络
  • 训练资源:使用AdamW优化器,DQN学习率5×10⁻⁴;VLA采用参数高效微调仅训练控制头和LoRA适配器
Card 06 评估与结果

评估与结果

  • 评估环境:基于MuJoCo物理仿真器,构建双场景测试平台(桌面级Franka Panda + 地面级UR5e)
  • 主要指标:拾取成功率、放置成功率、对齐成功率、样本效率、计算开销
  • 关键结果

- DQN与MLP在100条演示下均达100%拾取成功率,但MLP存在明显过拟合,DQN被选为更鲁棒基线

- π₀在桌面场景达60%拾取成功率,π₀.₅在地面场景达100%拾取成功率、96%放置成功率、80%对齐成功率

- OpenVLA因单视图输入和离散动作限制,在所有场景中成功率为0%

- VLA展现出更强的泛化能力和少样本迁移优势,而DQN需要额外噪声注入调优才能达到同等鲁棒性