一眼看懂
封面预览
系统比较了两种前沿的建筑机器人技能学习方法:分层强化学习(Hierarchical Reinforcement Learning, HRL)…
- 系统比较了两种前沿的建筑机器人技能学习方法:分层强化学习(Hierarchical Reinforcement Learning, HRL)…
- 针对建筑行业劳动力短缺背景,评估两种方法在样本效率、泛化能力和实际部署工作量方面的差异
- 解决建筑机器人长时程、复杂材料搬运与安装任务中的高效编程问题
Card 01
研究单位
研究单位
- Stony Brook University (Department of Civil Engineering)
- Virginia Tech (Department of Civil and Environmental Engineering, Department of Electrical and Computer Engineering)
Card 02
论文概述
论文概述
- 系统比较了两种前沿的建筑机器人技能学习方法:分层强化学习(Hierarchical Reinforcement Learning, HRL) 与 视觉-语言-动作模型(Vision-Language-Action, VLA)
- 针对建筑行业劳动力短缺背景,评估两种方法在样本效率、泛化能力和实际部署工作量方面的差异
- 解决建筑机器人长时程、复杂材料搬运与安装任务中的高效编程问题
Card 03
核心贡献
核心贡献
- 开发了两种轻量级遥操作数据收集界面:基于滑块的关节控制接口(用于HRL)和基于键盘的末端执行器控制接口(用于VLA)
- 构建了MuJoCo仿真环境下的可复用材料安装任务模板,支持跨构型多场景数据集
- 提出三阶段评估框架:MLP vs. DQN基线选择、三种VLA模型(π₀、π₀.₅、OpenVLA)比较、以及HRL与VLA的最终基准测试
- 首次系统验证了VLA模型在建筑任务中的少样本(few-shot)迁移能力,π₀.₅在地面场景达到100%拾取成功率
Card 04
方法描述
方法描述
- HRL方法:采用DQN作为基线,结合力/力矩信号、关节状态和物体状态作为观测,通过时序差分损失训练;设计分层结构包含MLP子目标发现网络和两个分别针对拾取与安装任务的Q网络
- VLA方法:基于预训练视觉-语言模型(PaLI-Gemma-3B用于π₀/π₀.₅,Prismatic-7B用于OpenVLA),使用LoRA参数高效微调;控制头采用流匹配(flow matching)生成连续动作块,支持50步高频控制
- 关键创新:对比了多视图连续控制(π₀/π₀.₅)与单视图离散动作(OpenVLA)两种架构范式
Card 05
数据集与资源
数据集与资源
- 数据集:自建Cross-Embodiment Multi-Scene Dataset,包含桌面场景(Franka Panda)100条演示和地面场景(UR5e)200条演示
- 模型规模:π₀/π₀.₅约3.3B参数,OpenVLA约7.5B参数;DQN为三层全连接网络
- 训练资源:使用AdamW优化器,DQN学习率5×10⁻⁴;VLA采用参数高效微调仅训练控制头和LoRA适配器
Card 06
评估与结果
评估与结果
- 评估环境:基于MuJoCo物理仿真器,构建双场景测试平台(桌面级Franka Panda + 地面级UR5e)
- 主要指标:拾取成功率、放置成功率、对齐成功率、样本效率、计算开销
- 关键结果:
- DQN与MLP在100条演示下均达100%拾取成功率,但MLP存在明显过拟合,DQN被选为更鲁棒基线
- π₀在桌面场景达60%拾取成功率,π₀.₅在地面场景达100%拾取成功率、96%放置成功率、80%对齐成功率
- OpenVLA因单视图输入和离散动作限制,在所有场景中成功率为0%
- VLA展现出更强的泛化能力和少样本迁移优势,而DQN需要额外噪声注入调优才能达到同等鲁棒性