一眼看懂
封面预览
论文提出了 Agile-VLA 框架,旨在解决在资源受限的边缘设备(如 NVIDIA Jetson Orin Nano)上部署视觉-语言-动作…
- 论文提出了 Agile-VLA 框架,旨在解决在资源受限的边缘设备(如 NVIDIA Jetson Orin Nano)上部署视觉-语言-动作…
- 核心创新在于引入了 隐式功能锚定 机制,将几何视觉线索直接映射为结构化的参数化动作基元,显著减少了对高延迟语义推理的依赖。
- 该系统通过异步双流架构实现了感知(10 Hz)与控制(50 Hz)的解耦,有效解决了边缘端机器人学习中的频率失配问题。
Card 01
研究单位
研究单位
- 香港科技大学(广州)
Card 02
论文概述
论文概述
- 论文提出了 Agile-VLA 框架,旨在解决在资源受限的边缘设备(如 NVIDIA Jetson Orin Nano)上部署视觉-语言-动作(VLA)模型时,高延迟语义推理与动态操作所需高频控制之间的冲突。
- 核心创新在于引入了 隐式功能锚定 机制,将几何视觉线索直接映射为结构化的参数化动作基元,显著减少了对高延迟语义推理的依赖。
- 该系统通过异步双流架构实现了感知(10 Hz)与控制(50 Hz)的解耦,有效解决了边缘端机器人学习中的频率失配问题。
Card 03
核心贡献
核心贡献
- 提出了 隐式功能锚定 机制,将操作逻辑直接编码到几何关键点位置(如质心或边缘点),从而生成动作锚点。
- 设计了 异步双流架构,将感知流(10 Hz)与控制流(50 Hz)在时间上解耦,在边缘硬件上实现了实时稳定性。
- 开发了 外力灵巧性基元,利用工作台面作为外部支点,使标准 6 自由度机械臂能够处理复杂工件,无需昂贵的灵巧手。
- 实现了高效的 少样本适应流程,仅需 5 个标注样本即可完成对新物体的快速部署(分钟级)。
Card 04
方法描述
方法描述
- 采用 异步双流解耦架构:语义感知流使用 TensorRT 加速的量化视觉模型提取特征;本体感觉控制流以 50 Hz 频率执行动作基元,并通过三次样条插值桥接频率差距。
- 隐式功能锚定 根据物体状态选择操作策略:对于正面物体,锚定几何质心以执行稳定抓取;对于背面物体,锚定边缘以利用环境约束进行翻转。
- 参数化动作基元 包括“稳定拾取放置”和“基于支点的重定向”,后者利用桌面边缘作为外部支点,通过力矩平衡减轻机械臂关节负载并避免运动学奇异性。
- 少样本适应 仅需 N=5 张标注图像,在边缘设备上进行在线微调,最小化锚点回归损失。
Card 05
数据集与资源
数据集与资源
- 提出了一个新的真实世界基准数据集 DID-127,包含 127 个具有不同几何形状和物理特性的工业零件(75 个简单,52 个困难)。
- 硬件平台为 NVIDIA Jetson Orin Nano (8GB),执行端为配备 Robotiq 2F-85 平行夹爪的 6 自由度机械臂。
- 感知设备为 Intel RealSense D435i RGB-D 相机,并使用了 6 轴力/力矩传感器记录动态交互信号。
- 对比了 Transporter、RT-1、RVT、Octo-Base 和 OpenVLA 等开源基线模型。
Card 06
评估与结果
评估与结果
- 在 DID-127 数据集上,Agile-VLA 实现了 90.5% 的平均任务成功率,远超 OpenVLA 的 71.0%,且运动平滑度显著提高。
- 系统在边缘设备上实现了 50 Hz 的控制频率和 0.65 mm 的 TCP 抖动,而 OpenVLA 控制频率仅为 1.2 Hz,抖动达 5.82 mm。
- 利用外力灵巧性机制,在处理重型偏心物体时,所需关节扭矩降低了 72.6%,并将运动学奇异触发率降至 0.0%。
- 少样本适应实验表明,仅使用 5 个样本,模型在 2.5 分钟 内即可收敛并达到 90% 的成功率。