OmniVTLA: Vision-Tactile-Language-Action Model with Semantic-Aligned Tactile Sensing

论文详情

OmniVTLA: Vision-Tactile-Language-Action Model with Semantic-Aligned Tactile Sensing

2025-08-12 · 原文 · 翻译 · 2508.08706

提出 OmniVTLA，首个将触觉感知与视觉-语言-动作模型深度融合的机器人操控框架，解决现有 VLA 模型在接触丰富任务中因缺乏触觉反馈而失败的问题通过语义对齐的触觉编码器和双路径编码器设计，实现视觉、触觉、语言三种模态的统一表征学习，提升机器人对接触动态的感知与理解能力构建大规模三模态触觉数据集 ObjTac，为触觉表征学习提供数据基础

5 分钟读完 6 张阅读卡 Paxini Tech

一眼看懂封面预览

提出 OmniVTLA，首个将触觉感知与视觉-语言-动作模型深度融合的机器人操控框架，解决现有 VLA 模型在接触丰富任务中因缺乏触觉反馈而失…

提出 OmniVTLA，首个将触觉感知与视觉-语言-动作模型深度融合的机器人操控框架，解决现有 VLA 模型在接触丰富任务中因缺乏触觉反馈而失…
通过语义对齐的触觉编码器和双路径编码器设计，实现视觉、触觉、语言三种模态的统一表征学习，提升机器人对接触动态的感知与理解能力
构建大规模三模态触觉数据集 ObjTac，为触觉表征学习提供数据基础

Card 01 研究单位

研究单位

Paxini Tech
Shanghai Jiao Tong University

Card 02 论文概述

论文概述

提出 OmniVTLA，首个将触觉感知与视觉-语言-动作模型深度融合的机器人操控框架，解决现有 VLA 模型在接触丰富任务中因缺乏触觉反馈而失败的问题
通过语义对齐的触觉编码器和双路径编码器设计，实现视觉、触觉、语言三种模态的统一表征学习，提升机器人对接触动态的感知与理解能力
构建大规模三模态触觉数据集 ObjTac，为触觉表征学习提供数据基础

Card 03 核心贡献

核心贡献

提出 OmniVTLA 框架，采用双路径触觉编码器（预训练 ViT + 语义对齐 SA-ViT）解决不同触觉传感器之间的异构性问题
构建 ObjTac 数据集，包含 135K 三模态样本（视觉-触觉-语言），覆盖 56 个物体、10 个类别
训练语义对齐触觉编码器（SA-ViT），通过跨模态对比学习实现触觉-视觉-语言的统一表征
在真实机器人实验中，夹爪任务成功率提升 21.9%（达 96.9%），灵巧手任务达 100% 成功率
任务完成时间减少 24.2%，生成轨迹平滑度提升 89.6%

Card 04 方法描述

方法描述

基于 π0 架构构建，包含分词器、Gemma-2B 主干网络和流匹配动作头
双路径触觉编码：路径一使用预训练视觉编码器（SigLIP）继承语义知识；路径二使用 SA-ViT 进行语义对齐
SA-ViT 训练：采用跨模态对比学习，优化视觉-语言、视觉-触觉、触觉-语言三组对齐损失，并加入跨传感器匹配损失
支持两种执行器：二指夹爪（10 维动作空间）和四指灵巧手（25 维动作空间）
触觉数据预处理：力数据归一化至 int8，拼接为多传感器图像，resize 至 224×224

Card 05 数据集与资源

数据集与资源

ObjTac 数据集：135K 样本，56 个物体，10 个类别（塑料、玻璃、木材、砖石、金属、织物、皮革、陶瓷、纸张、其他）
数据采集：60Hz 力传感器数据 + 720P@30FPS 第一视角视频，单次交互 10-60 秒
训练硬件：NVIDIA A100 (80GB VRAM)
训练配置：batch size 32，30K 训练步数，峰值学习率 2.5e-5

Card 06 评估与结果

评估与结果

评估基准：π0（VLA）、Diffusion Policy（VA）、VTLA-FS/VTLA-Pre/VTLA-SA 消融变体
评估指标：成功率（SR）、完成时间（CT）、轨迹平滑度（MSE）、离线验证 MSE
关键结果：

- 夹爪任务：OmniVTLA 96.9% SR vs π0 75.0%，CT 从 657 步降至 498 步

- 灵巧手任务：OmniVTLA 100% SR vs π0 93.8%，未见物体泛化 100% SR

- 轨迹平滑度：SA-ViT 达 1.04×10⁻⁴，较 VLA 基线降低 89.6%

- 离线验证 MSE：OmniVTLA 平均 1.40×10⁻⁴，较 VLA 降低 7.8%-23.3%