返回列表 VLA / Vision-Language-Action 每日论文卡
Vision-Language-Action Models for Selective Robotic Disassembly: A Case Study on Critical Component Extraction from Desktops
研究旨在探索将 视觉-语言-动作(VLA)模型 应用于复杂的电子废弃物(如台式机)选择性拆卸任务的可行性。

论文详情

Vision-Language-Action Models for Selective Robotic Disassembly: A Case Study on Critical Component Extraction from Desktops

2025-12-04 · 原文 · 翻译 · 2512.04446

研究旨在探索将 视觉-语言-动作(VLA)模型 应用于复杂的电子废弃物(如台式机)选择性拆卸任务的可行性。 论文聚焦于 RAM模块移除 和 CPU支架解锁 两个高精度操作任务,评估微调后的VLA模型在真实拆卸场景中的表现。 研究发现,单独使用VLA模型难以完成整个拆卸流程,但将其与简单的基于规则的控制器结合的 混合策略 可以成功完成任务。

5 分钟读完 6 张阅读卡 德克萨斯农工大学 机械工程系
一眼看懂 封面预览

研究旨在探索将 视觉-语言-动作(VLA)模型 应用于复杂的电子废弃物(如台式机)选择性拆卸任务的可行性。

  • 研究旨在探索将 视觉-语言-动作(VLA)模型 应用于复杂的电子废弃物(如台式机)选择性拆卸任务的可行性。
  • 论文聚焦于 RAM模块移除 和 CPU支架解锁 两个高精度操作任务,评估微调后的VLA模型在真实拆卸场景中的表现。
  • 研究发现,单独使用VLA模型难以完成整个拆卸流程,但将其与简单的基于规则的控制器结合的 混合策略 可以成功完成任务。
Card 01 研究单位

研究单位

  • 德克萨斯农工大学 机械工程系
  • 佛罗里达大学 可持续基础设施与环境工程学院
  • 德克萨斯农工大学 土木与环境工程系
Card 02 论文概述

论文概述

  • 研究旨在探索将 视觉-语言-动作(VLA)模型 应用于复杂的电子废弃物(如台式机)选择性拆卸任务的可行性。
  • 论文聚焦于 RAM模块移除CPU支架解锁 两个高精度操作任务,评估微调后的VLA模型在真实拆卸场景中的表现。
  • 研究发现,单独使用VLA模型难以完成整个拆卸流程,但将其与简单的基于规则的控制器结合的 混合策略 可以成功完成任务。
Card 03 核心贡献

核心贡献

  • 构建了一个专门用于台式机RAM和CPU拆卸的 机器人遥操作演示数据集
  • 首次对 OpenVLAOpenVLA-OFT 两种先进VLA模型在复杂、接触密集型的工业拆卸任务上进行了微调与系统性评估。
  • 揭示了当前VLA模型在处理高精度、高灵巧度操作任务时的关键局限性,特别是在精确最终定位和致动阶段。
  • 提出并验证了一种 VLA与基于规则控制器的混合策略 ,证明了其在部分拆卸任务中的有效性,为未来研究提供了方向。
Card 04 方法描述

方法描述

  • 基于 UR5e机械臂Gello遥操作平台 收集人类演示数据。
  • 设计了一个 Robotiq 2F-85夹爪的扩展装置,以提高在解锁CPU支架时的操作稳定性。
  • 使用 LoRA微调 技术,将收集的数据用于适应 OpenVLA(单视角、自回归预测)和 OpenVLA-OFT(双视角、连续动作预测、动作分块)两个模型。
  • 评估方法不仅关注最终成功率,还对任务进行了 阶段划分(对齐、接近、定位、配置、致动),以细致分析模型在各个子步骤的性能。
Card 05 数据集与资源

数据集与资源

  • 数据集包含 RAM移除(164次演示,成功158次)和 CPU支架解锁(123次演示,成功110次)两项任务,共 287条轨迹
  • 使用 OpenVLAOpenVLA-OFT 模型,其中OpenVLA是一个 7B参数 的模型。
  • 模型训练使用了 德克萨斯农工大学高性能计算中心 提供的计算资源。
Card 06 评估与结果

评估与结果

  • 评估环境为复现数据收集配置的真实机器人平台,任务针对 台式机拆卸 的复杂布局和空间约束。
  • 主要评估指标包括 各子步骤的成功率最终任务完成率
  • 核心实验结果:

- 单独使用微调后的VLA模型 无法完成任何一次完整的拆卸任务OpenVLA-OFT 在各子步骤的表现普遍优于 OpenVLA,特别是在“配置”阶段。

- 两个模型在关键的 “致动”阶段(如精确抓取RAM、操作杠杆)均告失败,表明其对精确定位和接触丰富操作的处理能力不足。

- 采用 混合策略(VLA负责高层决策,位置控制器负责最终致动) 后,在 RAM移除任务 中实现了 2/10的成功率,证明了该方法在特定场景下的潜力,但CPU解锁任务仍因无法到达所需位置而失败。