一眼看懂
封面预览
论文提出 EveryDayVLA,一个成本仅 $300 的 6-DOF 机械臂系统,旨在实现经济实惠的机器人操作
- 论文提出 EveryDayVLA,一个成本仅 $300 的 6-DOF 机械臂系统,旨在实现经济实惠的机器人操作
- 构建了一个完整的视觉-语言-动作(VLA)模型,采用创新的自适应 horizons 集成器(AdaHorizon),通过连续和离散动作的 di…
- 目标是将机器人基础模型民主化,降低研究门槛,使家庭和实验室都能负担得起
Card 01
研究单位
研究单位
- University of Pittsburgh(匹兹堡大学)- 所有作者 Samarth Chopra、Alex McMoil、Ben Carnovale、Evan Sokolson、Rajkumar Kubendran、Samuel Dickerson 所属机构
Card 02
论文概述
论文概述
- 论文提出 EveryDayVLA,一个成本仅 $300 的 6-DOF 机械臂系统,旨在实现经济实惠的机器人操作
- 构建了一个完整的视觉-语言-动作(VLA)模型,采用创新的自适应 horizons 集成器(AdaHorizon),通过连续和离散动作的 disagreement 来估计模型不确定性
- 目标是将机器人基础模型民主化,降低研究门槛,使家庭和实验室都能负担得起
Card 03
核心贡献
核心贡献
- AdaHorizon 自适应 horizons 控制:联合训练连续(L1回归)和离散自回归动作头,使用两者的不一致性估计模型不确定性,动态调整动作 horizons 以触发实时重规划
- 低成本 6-DOF 机械臂:$300 设计实现优于 10mm 的重复精度,使用 Arduino Uno + PCA9685 PWM 驱动控制
- 自动化数据采集管道和公开数据集:发布超过 1,200 个任务执行的轨迹数据,包含语言指令、视频和末端执行器姿态
Card 04
方法描述
方法描述
- 基于 Prismatic-7B VLM 和 Llama 2 语言模型骨干
- 视觉编码器结合预训练的 SigLIP 和 DinoV2 模型
- 协作训练:使用 L1 损失训练连续动作,使用交叉熵损失训练离散动作(256-bin 离散化)
- AdaHorizon 算法:计算连续和离散动作预测之间的平均绝对差作为不确定性度量,自适应调整执行的动作块长度
- 采用动作分块(action chunking)和并行解码实现高达 108.4 Hz 的推理速率
Card 05
数据集与资源
数据集与资源
- 数据集:1,200 个演示轨迹,包含 pick-and-place、环境操作(抽屉开/关)、积木堆叠等任务
- 模型:基于 OpenVLA-7B 微调,使用 LoRA(rank=32)
- 训练资源:模拟训练使用 2 块 A100 GPU,100k 迭代;真实世界训练使用 1 块 A100 GPU,50k 迭代
Card 06
评估与结果
评估与结果
- LIBERO 模拟基准:平均成功率 91.4%,Spatial 套件表现最佳(96.8%),仅次于 OpenVLA-OFT(95.3%)
- 真实世界测试:在分布内任务上比最佳方法提升 49%,在分布外任务上提升 34.9%
- 泛化能力:在静态和动态干扰物下仅分别下降 20% 和 10%
- 推理速度:最高 108.4 Hz,延迟仅 0.0738 秒,与 OpenVLA-OFT 相当
- 动作集成器对比:AdaHorizon 在 LIBERO Spatial 任务上以 96.8% 成功率超越 ACT、HybridVLA 和 COGAct