返回列表 VLA / Vision-Language-Action 每日论文卡
Agile-VLA: Few-Shot Industrial Pose Rectification via Implicit Affordance Anchoring
论文提出了 Agile-VLA 框架,旨在解决在资源受限的边缘设备(如 NVIDIA Jetson Orin Nano)上部署视觉-语言-动作…

论文详情

Agile-VLA: Few-Shot Industrial Pose Rectification via Implicit Affordance Anchoring

2026-03-24 · 原文 · 翻译 · 2603.22899

论文提出了 Agile-VLA 框架,旨在解决在资源受限的边缘设备(如 NVIDIA Jetson Orin Nano)上部署视觉-语言-动作(VLA)模型时,高延迟语义推理与动态操作所需高频控制之间的冲突。 核心创新在于引入了 隐式功能锚定 机制,将几何视觉线索直接映射为结构化的参数化动作基元,显著减少了对高延迟语义推理的依赖。 该系统通过异步双流架构实现了感知(10 Hz)与控制(50 Hz)的解耦,有效解决了…

5 分钟读完 6 张阅读卡 香港科技大学(广州)
一眼看懂 封面预览

论文提出了 Agile-VLA 框架,旨在解决在资源受限的边缘设备(如 NVIDIA Jetson Orin Nano)上部署视觉-语言-动作…

  • 论文提出了 Agile-VLA 框架,旨在解决在资源受限的边缘设备(如 NVIDIA Jetson Orin Nano)上部署视觉-语言-动作…
  • 核心创新在于引入了 隐式功能锚定 机制,将几何视觉线索直接映射为结构化的参数化动作基元,显著减少了对高延迟语义推理的依赖。
  • 该系统通过异步双流架构实现了感知(10 Hz)与控制(50 Hz)的解耦,有效解决了边缘端机器人学习中的频率失配问题。
Card 01 研究单位

研究单位

  • 香港科技大学(广州)
Card 02 论文概述

论文概述

  • 论文提出了 Agile-VLA 框架,旨在解决在资源受限的边缘设备(如 NVIDIA Jetson Orin Nano)上部署视觉-语言-动作(VLA)模型时,高延迟语义推理与动态操作所需高频控制之间的冲突。
  • 核心创新在于引入了 隐式功能锚定 机制,将几何视觉线索直接映射为结构化的参数化动作基元,显著减少了对高延迟语义推理的依赖。
  • 该系统通过异步双流架构实现了感知(10 Hz)与控制(50 Hz)的解耦,有效解决了边缘端机器人学习中的频率失配问题。
Card 03 核心贡献

核心贡献

  • 提出了 隐式功能锚定 机制,将操作逻辑直接编码到几何关键点位置(如质心或边缘点),从而生成动作锚点。
  • 设计了 异步双流架构,将感知流(10 Hz)与控制流(50 Hz)在时间上解耦,在边缘硬件上实现了实时稳定性。
  • 开发了 外力灵巧性基元,利用工作台面作为外部支点,使标准 6 自由度机械臂能够处理复杂工件,无需昂贵的灵巧手。
  • 实现了高效的 少样本适应流程,仅需 5 个标注样本即可完成对新物体的快速部署(分钟级)。
Card 04 方法描述

方法描述

  • 采用 异步双流解耦架构:语义感知流使用 TensorRT 加速的量化视觉模型提取特征;本体感觉控制流以 50 Hz 频率执行动作基元,并通过三次样条插值桥接频率差距。
  • 隐式功能锚定 根据物体状态选择操作策略:对于正面物体,锚定几何质心以执行稳定抓取;对于背面物体,锚定边缘以利用环境约束进行翻转。
  • 参数化动作基元 包括“稳定拾取放置”和“基于支点的重定向”,后者利用桌面边缘作为外部支点,通过力矩平衡减轻机械臂关节负载并避免运动学奇异性。
  • 少样本适应 仅需 N=5 张标注图像,在边缘设备上进行在线微调,最小化锚点回归损失。
Card 05 数据集与资源

数据集与资源

  • 提出了一个新的真实世界基准数据集 DID-127,包含 127 个具有不同几何形状和物理特性的工业零件(75 个简单,52 个困难)。
  • 硬件平台为 NVIDIA Jetson Orin Nano (8GB),执行端为配备 Robotiq 2F-85 平行夹爪的 6 自由度机械臂。
  • 感知设备为 Intel RealSense D435i RGB-D 相机,并使用了 6 轴力/力矩传感器记录动态交互信号。
  • 对比了 TransporterRT-1RVTOcto-BaseOpenVLA 等开源基线模型。
Card 06 评估与结果

评估与结果

  • 在 DID-127 数据集上,Agile-VLA 实现了 90.5% 的平均任务成功率,远超 OpenVLA 的 71.0%,且运动平滑度显著提高。
  • 系统在边缘设备上实现了 50 Hz 的控制频率和 0.65 mm 的 TCP 抖动,而 OpenVLA 控制频率仅为 1.2 Hz,抖动达 5.82 mm。
  • 利用外力灵巧性机制,在处理重型偏心物体时,所需关节扭矩降低了 72.6%,并将运动学奇异触发率降至 0.0%
  • 少样本适应实验表明,仅使用 5 个样本,模型在 2.5 分钟 内即可收敛并达到 90% 的成功率。