Sample-Efficient Robot Skill Learning for Construction Tasks: Benchmarking Hierarchical Reinforcement Learning and Vision-Language-Action VLA Model

一眼看懂封面预览

系统比较了两种前沿的建筑机器人技能学习方法：分层强化学习（Hierarchical Reinforcement Learning, HRL）…

Card 01 研究单位

研究单位

Stony Brook University (Department of Civil Engineering)
Virginia Tech (Department of Civil and Environmental Engineering, Department of Electrical and Computer Engineering)

Card 02 论文概述

系统比较了两种前沿的建筑机器人技能学习方法：分层强化学习（Hierarchical Reinforcement Learning, HRL） 与 视觉-语言-动作模型（Vision-Language-Action, VLA）
针对建筑行业劳动力短缺背景，评估两种方法在样本效率、泛化能力和实际部署工作量方面的差异
解决建筑机器人长时程、复杂材料搬运与安装任务中的高效编程问题

Card 03 核心贡献

Card 04 方法描述

HRL方法：采用DQN作为基线，结合力/力矩信号、关节状态和物体状态作为观测，通过时序差分损失训练；设计分层结构包含MLP子目标发现网络和两个分别针对拾取与安装任务的Q网络
VLA方法：基于预训练视觉-语言模型（PaLI-Gemma-3B用于π₀/π₀.₅，Prismatic-7B用于OpenVLA），使用LoRA参数高效微调；控制头采用流匹配（flow matching）生成连续动作块，支持50步高频控制
关键创新：对比了多视图连续控制（π₀/π₀.₅）与单视图离散动作（OpenVLA）两种架构范式

Card 05 数据集与资源

数据集：自建Cross-Embodiment Multi-Scene Dataset，包含桌面场景（Franka Panda）100条演示和地面场景（UR5e）200条演示
模型规模：π₀/π₀.₅约3.3B参数，OpenVLA约7.5B参数；DQN为三层全连接网络
训练资源：使用AdamW优化器，DQN学习率5×10⁻⁴；VLA采用参数高效微调仅训练控制头和LoRA适配器

Card 06 评估与结果

- DQN与MLP在100条演示下均达100%拾取成功率，但MLP存在明显过拟合，DQN被选为更鲁棒基线

- π₀在桌面场景达60%拾取成功率，π₀.₅在地面场景达100%拾取成功率、96%放置成功率、80%对齐成功率

- OpenVLA因单视图输入和离散动作限制，在所有场景中成功率为0%

- VLA展现出更强的泛化能力和少样本迁移优势，而DQN需要额外噪声注入调优才能达到同等鲁棒性