返回列表 VLA / Vision-Language-Action 每日论文卡

OmniVTLA: Vision-Tactile-Language-Action Model with Semantic-Aligned Tactile Sensing

论文详情

OmniVTLA: Vision-Tactile-Language-Action Model with Semantic-Aligned Tactile Sensing

2025-08-12 · 原文 · 翻译 · 2508.08706

提出 OmniVTLA,首个将触觉感知与视觉-语言-动作模型深度融合的机器人操控框架,解决现有 VLA 模型在接触丰富任务中因缺乏触觉反馈而失败的问题 通过语义对齐的触觉编码器和双路径编码器设计,实现视觉、触觉、语言三种模态的统一表征学习,提升机器人对接触动态的感知与理解能力 构建大规模三模态触觉数据集 ObjTac,为触觉表征学习提供数据基础

5 分钟读完 6 张阅读卡 Paxini Tech
一眼看懂 封面预览

提出 OmniVTLA,首个将触觉感知与视觉-语言-动作模型深度融合的机器人操控框架,解决现有 VLA 模型在接触丰富任务中因缺乏触觉反馈而失…

  • 提出 OmniVTLA,首个将触觉感知与视觉-语言-动作模型深度融合的机器人操控框架,解决现有 VLA 模型在接触丰富任务中因缺乏触觉反馈而失…
  • 通过语义对齐的触觉编码器和双路径编码器设计,实现视觉、触觉、语言三种模态的统一表征学习,提升机器人对接触动态的感知与理解能力
  • 构建大规模三模态触觉数据集 ObjTac,为触觉表征学习提供数据基础
Card 01 研究单位

研究单位

  • Paxini Tech
  • Shanghai Jiao Tong University
Card 02 论文概述

论文概述

  • 提出 OmniVTLA,首个将触觉感知与视觉-语言-动作模型深度融合的机器人操控框架,解决现有 VLA 模型在接触丰富任务中因缺乏触觉反馈而失败的问题
  • 通过语义对齐的触觉编码器和双路径编码器设计,实现视觉、触觉、语言三种模态的统一表征学习,提升机器人对接触动态的感知与理解能力
  • 构建大规模三模态触觉数据集 ObjTac,为触觉表征学习提供数据基础
Card 03 核心贡献

核心贡献

  • 提出 OmniVTLA 框架,采用双路径触觉编码器(预训练 ViT + 语义对齐 SA-ViT)解决不同触觉传感器之间的异构性问题
  • 构建 ObjTac 数据集,包含 135K 三模态样本(视觉-触觉-语言),覆盖 56 个物体、10 个类别
  • 训练语义对齐触觉编码器(SA-ViT),通过跨模态对比学习实现触觉-视觉-语言的统一表征
  • 在真实机器人实验中,夹爪任务成功率提升 21.9%(达 96.9%),灵巧手任务达 100% 成功率
  • 任务完成时间减少 24.2%,生成轨迹平滑度提升 89.6%
Card 04 方法描述

方法描述

  • 基于 π0 架构构建,包含分词器、Gemma-2B 主干网络和流匹配动作头
  • 双路径触觉编码:路径一使用预训练视觉编码器(SigLIP)继承语义知识;路径二使用 SA-ViT 进行语义对齐
  • SA-ViT 训练:采用跨模态对比学习,优化视觉-语言、视觉-触觉、触觉-语言三组对齐损失,并加入跨传感器匹配损失
  • 支持两种执行器:二指夹爪(10 维动作空间)和四指灵巧手(25 维动作空间)
  • 触觉数据预处理:力数据归一化至 int8,拼接为多传感器图像,resize 至 224×224
Card 05 数据集与资源

数据集与资源

  • ObjTac 数据集:135K 样本,56 个物体,10 个类别(塑料、玻璃、木材、砖石、金属、织物、皮革、陶瓷、纸张、其他)
  • 数据采集:60Hz 力传感器数据 + 720P@30FPS 第一视角视频,单次交互 10-60 秒
  • 训练硬件:NVIDIA A100 (80GB VRAM)
  • 训练配置:batch size 32,30K 训练步数,峰值学习率 2.5e-5
Card 06 评估与结果

评估与结果

  • 评估基准:π0(VLA)、Diffusion Policy(VA)、VTLA-FS/VTLA-Pre/VTLA-SA 消融变体
  • 评估指标:成功率(SR)、完成时间(CT)、轨迹平滑度(MSE)、离线验证 MSE
  • 关键结果

- 夹爪任务:OmniVTLA 96.9% SR vs π0 75.0%,CT 从 657 步降至 498 步

- 灵巧手任务:OmniVTLA 100% SR vs π0 93.8%,未见物体泛化 100% SR

- 轨迹平滑度:SA-ViT 达 1.04×10⁻⁴,较 VLA 基线降低 89.6%

- 离线验证 MSE:OmniVTLA 平均 1.40×10⁻⁴,较 VLA 降低 7.8%-23.3%