返回列表 VLA / Vision-Language-Action 每日论文卡
EveryDayVLA: A Vision-Language-Action Model for Affordable Robotic Manipulation
论文提出 EveryDayVLA,一个成本仅 $300 的 6-DOF 机械臂系统,旨在实现经济实惠的机器人操作

论文详情

EveryDayVLA: A Vision-Language-Action Model for Affordable Robotic Manipulation

2025-11-07 · 原文 · 翻译 · 2511.05397

论文提出 EveryDayVLA,一个成本仅 $300 的 6-DOF 机械臂系统,旨在实现经济实惠的机器人操作 构建了一个完整的视觉-语言-动作(VLA)模型,采用创新的自适应 horizons 集成器(AdaHorizon),通过连续和离散动作的 disagreement 来估计模型不确定性 目标是将机器人基础模型民主化,降低研究门槛,使家庭和实验室都能负担得起

5 分钟读完 6 张阅读卡 University of Pittsburgh(匹兹堡大学)- 所有作者 Samarth Chopr…
一眼看懂 封面预览

论文提出 EveryDayVLA,一个成本仅 $300 的 6-DOF 机械臂系统,旨在实现经济实惠的机器人操作

  • 论文提出 EveryDayVLA,一个成本仅 $300 的 6-DOF 机械臂系统,旨在实现经济实惠的机器人操作
  • 构建了一个完整的视觉-语言-动作(VLA)模型,采用创新的自适应 horizons 集成器(AdaHorizon),通过连续和离散动作的 di…
  • 目标是将机器人基础模型民主化,降低研究门槛,使家庭和实验室都能负担得起
Card 01 研究单位

研究单位

  • University of Pittsburgh(匹兹堡大学)- 所有作者 Samarth Chopra、Alex McMoil、Ben Carnovale、Evan Sokolson、Rajkumar Kubendran、Samuel Dickerson 所属机构
Card 02 论文概述

论文概述

  • 论文提出 EveryDayVLA,一个成本仅 $300 的 6-DOF 机械臂系统,旨在实现经济实惠的机器人操作
  • 构建了一个完整的视觉-语言-动作(VLA)模型,采用创新的自适应 horizons 集成器(AdaHorizon),通过连续和离散动作的 disagreement 来估计模型不确定性
  • 目标是将机器人基础模型民主化,降低研究门槛,使家庭和实验室都能负担得起
Card 03 核心贡献

核心贡献

  • AdaHorizon 自适应 horizons 控制:联合训练连续(L1回归)和离散自回归动作头,使用两者的不一致性估计模型不确定性,动态调整动作 horizons 以触发实时重规划
  • 低成本 6-DOF 机械臂:$300 设计实现优于 10mm 的重复精度,使用 Arduino Uno + PCA9685 PWM 驱动控制
  • 自动化数据采集管道和公开数据集:发布超过 1,200 个任务执行的轨迹数据,包含语言指令、视频和末端执行器姿态
Card 04 方法描述

方法描述

  • 基于 Prismatic-7B VLMLlama 2 语言模型骨干
  • 视觉编码器结合预训练的 SigLIPDinoV2 模型
  • 协作训练:使用 L1 损失训练连续动作,使用交叉熵损失训练离散动作(256-bin 离散化)
  • AdaHorizon 算法:计算连续和离散动作预测之间的平均绝对差作为不确定性度量,自适应调整执行的动作块长度
  • 采用动作分块(action chunking)和并行解码实现高达 108.4 Hz 的推理速率
Card 05 数据集与资源

数据集与资源

  • 数据集:1,200 个演示轨迹,包含 pick-and-place、环境操作(抽屉开/关)、积木堆叠等任务
  • 模型:基于 OpenVLA-7B 微调,使用 LoRA(rank=32)
  • 训练资源:模拟训练使用 2 块 A100 GPU,100k 迭代;真实世界训练使用 1 块 A100 GPU,50k 迭代
Card 06 评估与结果

评估与结果

  • LIBERO 模拟基准:平均成功率 91.4%,Spatial 套件表现最佳(96.8%),仅次于 OpenVLA-OFT(95.3%)
  • 真实世界测试:在分布内任务上比最佳方法提升 49%,在分布外任务上提升 34.9%
  • 泛化能力:在静态和动态干扰物下仅分别下降 20% 和 10%
  • 推理速度:最高 108.4 Hz,延迟仅 0.0738 秒,与 OpenVLA-OFT 相当
  • 动作集成器对比:AdaHorizon 在 LIBERO Spatial 任务上以 96.8% 成功率超越 ACT、HybridVLA 和 COGAct