研究旨在探索将视觉-语言-动作（VLA）模型应用于复杂的电子废弃物（如台式机）选择性拆卸任务的可行性。

论文详情

Vision-Language-Action Models for Selective Robotic Disassembly: A Case Study on Critical Component Extraction from Desktops

2025-12-04 · 原文 · 翻译 · 2512.04446

研究旨在探索将视觉-语言-动作（VLA）模型应用于复杂的电子废弃物（如台式机）选择性拆卸任务的可行性。论文聚焦于 RAM模块移除和 CPU支架解锁两个高精度操作任务，评估微调后的VLA模型在真实拆卸场景中的表现。研究发现，单独使用VLA模型难以完成整个拆卸流程，但将其与简单的基于规则的控制器结合的混合策略可以成功完成任务。

5 分钟读完 6 张阅读卡德克萨斯农工大学机械工程系

一眼看懂封面预览

研究旨在探索将视觉-语言-动作（VLA）模型应用于复杂的电子废弃物（如台式机）选择性拆卸任务的可行性。

研究旨在探索将视觉-语言-动作（VLA）模型应用于复杂的电子废弃物（如台式机）选择性拆卸任务的可行性。
论文聚焦于 RAM模块移除和 CPU支架解锁两个高精度操作任务，评估微调后的VLA模型在真实拆卸场景中的表现。
研究发现，单独使用VLA模型难以完成整个拆卸流程，但将其与简单的基于规则的控制器结合的混合策略可以成功完成任务。

Card 01 研究单位

研究单位

德克萨斯农工大学 机械工程系
佛罗里达大学 可持续基础设施与环境工程学院
德克萨斯农工大学 土木与环境工程系

Card 02 论文概述

论文概述

研究旨在探索将 视觉-语言-动作（VLA）模型 应用于复杂的电子废弃物（如台式机）选择性拆卸任务的可行性。
论文聚焦于 RAM模块移除 和 CPU支架解锁 两个高精度操作任务，评估微调后的VLA模型在真实拆卸场景中的表现。
研究发现，单独使用VLA模型难以完成整个拆卸流程，但将其与简单的基于规则的控制器结合的 混合策略 可以成功完成任务。

Card 03 核心贡献

核心贡献

构建了一个专门用于台式机RAM和CPU拆卸的 机器人遥操作演示数据集。
首次对 OpenVLA 和 OpenVLA-OFT 两种先进VLA模型在复杂、接触密集型的工业拆卸任务上进行了微调与系统性评估。
揭示了当前VLA模型在处理高精度、高灵巧度操作任务时的关键局限性，特别是在精确最终定位和致动阶段。
提出并验证了一种 VLA与基于规则控制器的混合策略 ，证明了其在部分拆卸任务中的有效性，为未来研究提供了方向。

Card 04 方法描述

方法描述

基于 UR5e机械臂 和 Gello遥操作平台 收集人类演示数据。
设计了一个 Robotiq 2F-85夹爪的扩展装置，以提高在解锁CPU支架时的操作稳定性。
使用 LoRA微调 技术，将收集的数据用于适应 OpenVLA（单视角、自回归预测）和 OpenVLA-OFT（双视角、连续动作预测、动作分块）两个模型。
评估方法不仅关注最终成功率，还对任务进行了 阶段划分（对齐、接近、定位、配置、致动），以细致分析模型在各个子步骤的性能。

Card 05 数据集与资源

数据集与资源

数据集包含 RAM移除（164次演示，成功158次）和 CPU支架解锁（123次演示，成功110次）两项任务，共 287条轨迹。
使用 OpenVLA 和 OpenVLA-OFT 模型，其中OpenVLA是一个 7B参数 的模型。
模型训练使用了 德克萨斯农工大学高性能计算中心 提供的计算资源。

Card 06 评估与结果

评估与结果

评估环境为复现数据收集配置的真实机器人平台，任务针对 台式机拆卸 的复杂布局和空间约束。
主要评估指标包括 各子步骤的成功率 和 最终任务完成率。
核心实验结果：

- 单独使用微调后的VLA模型 无法完成任何一次完整的拆卸任务。OpenVLA-OFT 在各子步骤的表现普遍优于 OpenVLA，特别是在“配置”阶段。

- 两个模型在关键的 “致动”阶段（如精确抓取RAM、操作杠杆）均告失败，表明其对精确定位和接触丰富操作的处理能力不足。

- 采用 混合策略（VLA负责高层决策，位置控制器负责最终致动） 后，在 RAM移除任务 中实现了 2/10的成功率，证明了该方法在特定场景下的潜力，但CPU解锁任务仍因无法到达所需位置而失败。