一眼看懂
封面预览
论文提出 VLA-RAIL(Real-Time Asynchronous Inference Linker)框架,旨在解决 VLA(视觉-语言…
- 论文提出 VLA-RAIL(Real-Time Asynchronous Inference Linker)框架,旨在解决 VLA(视觉-语言…
- 核心目标是消除动作块(action chunk)执行过程中的抖动、停滞和暂停,实现平滑、连续且高速的动作执行
- 引入两阶段后处理策略:块内轨迹平滑(使用三次多项式拟合)和块间无缝融合(使用双重五次样条插值)
Card 01
研究单位
研究单位
- 中国移动通信(杭州)信息技术有限公司(China Mobile (Hangzhou) Information Technology Co., Ltd., Hangzhou, 310023, China)
Card 02
论文概述
论文概述
- 论文提出 VLA-RAIL(Real-Time Asynchronous Inference Linker)框架,旨在解决 VLA(视觉-语言-动作)模型在机器人部署中面临的异步推理与运动控制问题
- 核心目标是消除动作块(action chunk)执行过程中的抖动、停滞和暂停,实现平滑、连续且高速的动作执行
- 引入两阶段后处理策略:块内轨迹平滑(使用三次多项式拟合)和块间无缝融合(使用双重五次样条插值)
Card 03
核心贡献
核心贡献
- 开源异步推理框架:模型无关的即插即用中间件,支持多种 VLA 模型和异构机器人平台的无缝连接
- 两阶段动作块后处理策略:消除由预测噪声和异步时间错位引起的运动抖动,提高任务成功率
- 执行加速策略:通过联合调整轨迹插值和命令调度频率,可将执行速度提升至硬件极限
- 多 VLA 模型兼容性:在 GO1、SmolVLA、π₀、π₀.₅、GR00T 等多个模型上验证了有效性
Card 04
方法描述
方法描述
- 客户端-服务器架构:通过 ZMQ 协议解耦 VLA 模型推理与机器人运动控制
- 多线程并发处理:eye 进程(感知)、brain 进程(推理请求)、hand 进程(运动控制)并行运行
- 块内轨迹平滑:使用三次多项式(d=3)进行最小二乘拟合,消除高频噪声
- 块间无缝融合:基于双重五次样条插值,确保位置、速度、加速度的 C² 连续性
- 执行加速:通过调整插值频率 f_interp 和控制频率 f_ctrl 的比率 α 实现加速执行
Card 05
数据集与资源
数据集与资源
- 实验硬件:AgiBot G1 机器人(双机械臂,14-DoF 关节)
- 计算设备:NVIDIA RTX 4080 GPU(12GB VRAM)
- 测试 VLA 模型:GO1、SmolVLA、π₀、π₀.₅、GR00T
- 训练数据:30Hz 频率采集的示教数据集
Card 06
评估与结果
评估与结果
- 轨迹平滑度:VLA-RAIL 的加速度标准差接近零,显著优于无后处理和朴素切换策略
- 任务完成时间:抓取-递交任务中实现 2.09 倍加速(9.07s vs 18.93s)
- 成功率提升:π₀.₅ 模型提升幅度最大(+0.725),最终成功率达到 0.95
- 定性结果:倒茶任务中水流更稳定,无液体飞溅现象