一眼看懂
封面预览
研究旨在探索将 视觉-语言-动作(VLA)模型 应用于复杂的电子废弃物(如台式机)选择性拆卸任务的可行性。
- 研究旨在探索将 视觉-语言-动作(VLA)模型 应用于复杂的电子废弃物(如台式机)选择性拆卸任务的可行性。
- 论文聚焦于 RAM模块移除 和 CPU支架解锁 两个高精度操作任务,评估微调后的VLA模型在真实拆卸场景中的表现。
- 研究发现,单独使用VLA模型难以完成整个拆卸流程,但将其与简单的基于规则的控制器结合的 混合策略 可以成功完成任务。
Card 01
研究单位
研究单位
- 德克萨斯农工大学 机械工程系
- 佛罗里达大学 可持续基础设施与环境工程学院
- 德克萨斯农工大学 土木与环境工程系
Card 02
论文概述
论文概述
- 研究旨在探索将 视觉-语言-动作(VLA)模型 应用于复杂的电子废弃物(如台式机)选择性拆卸任务的可行性。
- 论文聚焦于 RAM模块移除 和 CPU支架解锁 两个高精度操作任务,评估微调后的VLA模型在真实拆卸场景中的表现。
- 研究发现,单独使用VLA模型难以完成整个拆卸流程,但将其与简单的基于规则的控制器结合的 混合策略 可以成功完成任务。
Card 03
核心贡献
核心贡献
- 构建了一个专门用于台式机RAM和CPU拆卸的 机器人遥操作演示数据集。
- 首次对 OpenVLA 和 OpenVLA-OFT 两种先进VLA模型在复杂、接触密集型的工业拆卸任务上进行了微调与系统性评估。
- 揭示了当前VLA模型在处理高精度、高灵巧度操作任务时的关键局限性,特别是在精确最终定位和致动阶段。
- 提出并验证了一种 VLA与基于规则控制器的混合策略 ,证明了其在部分拆卸任务中的有效性,为未来研究提供了方向。
Card 04
方法描述
方法描述
- 基于 UR5e机械臂 和 Gello遥操作平台 收集人类演示数据。
- 设计了一个 Robotiq 2F-85夹爪的扩展装置,以提高在解锁CPU支架时的操作稳定性。
- 使用 LoRA微调 技术,将收集的数据用于适应 OpenVLA(单视角、自回归预测)和 OpenVLA-OFT(双视角、连续动作预测、动作分块)两个模型。
- 评估方法不仅关注最终成功率,还对任务进行了 阶段划分(对齐、接近、定位、配置、致动),以细致分析模型在各个子步骤的性能。
Card 05
数据集与资源
数据集与资源
- 数据集包含 RAM移除(164次演示,成功158次)和 CPU支架解锁(123次演示,成功110次)两项任务,共 287条轨迹。
- 使用 OpenVLA 和 OpenVLA-OFT 模型,其中OpenVLA是一个 7B参数 的模型。
- 模型训练使用了 德克萨斯农工大学高性能计算中心 提供的计算资源。
Card 06
评估与结果
评估与结果
- 评估环境为复现数据收集配置的真实机器人平台,任务针对 台式机拆卸 的复杂布局和空间约束。
- 主要评估指标包括 各子步骤的成功率 和 最终任务完成率。
- 核心实验结果:
- 单独使用微调后的VLA模型 无法完成任何一次完整的拆卸任务。OpenVLA-OFT 在各子步骤的表现普遍优于 OpenVLA,特别是在“配置”阶段。
- 两个模型在关键的 “致动”阶段(如精确抓取RAM、操作杠杆)均告失败,表明其对精确定位和接触丰富操作的处理能力不足。
- 采用 混合策略(VLA负责高层决策,位置控制器负责最终致动) 后,在 RAM移除任务 中实现了 2/10的成功率,证明了该方法在特定场景下的潜力,但CPU解锁任务仍因无法到达所需位置而失败。