一眼看懂
封面预览
提出 OmniVTLA,首个将触觉感知与视觉-语言-动作模型深度融合的机器人操控框架,解决现有 VLA 模型在接触丰富任务中因缺乏触觉反馈而失…
- 提出 OmniVTLA,首个将触觉感知与视觉-语言-动作模型深度融合的机器人操控框架,解决现有 VLA 模型在接触丰富任务中因缺乏触觉反馈而失…
- 通过语义对齐的触觉编码器和双路径编码器设计,实现视觉、触觉、语言三种模态的统一表征学习,提升机器人对接触动态的感知与理解能力
- 构建大规模三模态触觉数据集 ObjTac,为触觉表征学习提供数据基础
Card 01
研究单位
研究单位
- Paxini Tech
- Shanghai Jiao Tong University
Card 02
论文概述
论文概述
- 提出 OmniVTLA,首个将触觉感知与视觉-语言-动作模型深度融合的机器人操控框架,解决现有 VLA 模型在接触丰富任务中因缺乏触觉反馈而失败的问题
- 通过语义对齐的触觉编码器和双路径编码器设计,实现视觉、触觉、语言三种模态的统一表征学习,提升机器人对接触动态的感知与理解能力
- 构建大规模三模态触觉数据集 ObjTac,为触觉表征学习提供数据基础
Card 03
核心贡献
核心贡献
- 提出 OmniVTLA 框架,采用双路径触觉编码器(预训练 ViT + 语义对齐 SA-ViT)解决不同触觉传感器之间的异构性问题
- 构建 ObjTac 数据集,包含 135K 三模态样本(视觉-触觉-语言),覆盖 56 个物体、10 个类别
- 训练语义对齐触觉编码器(SA-ViT),通过跨模态对比学习实现触觉-视觉-语言的统一表征
- 在真实机器人实验中,夹爪任务成功率提升 21.9%(达 96.9%),灵巧手任务达 100% 成功率
- 任务完成时间减少 24.2%,生成轨迹平滑度提升 89.6%
Card 04
方法描述
方法描述
- 基于 π0 架构构建,包含分词器、Gemma-2B 主干网络和流匹配动作头
- 双路径触觉编码:路径一使用预训练视觉编码器(SigLIP)继承语义知识;路径二使用 SA-ViT 进行语义对齐
- SA-ViT 训练:采用跨模态对比学习,优化视觉-语言、视觉-触觉、触觉-语言三组对齐损失,并加入跨传感器匹配损失
- 支持两种执行器:二指夹爪(10 维动作空间)和四指灵巧手(25 维动作空间)
- 触觉数据预处理:力数据归一化至 int8,拼接为多传感器图像,resize 至 224×224
Card 05
数据集与资源
数据集与资源
- ObjTac 数据集:135K 样本,56 个物体,10 个类别(塑料、玻璃、木材、砖石、金属、织物、皮革、陶瓷、纸张、其他)
- 数据采集:60Hz 力传感器数据 + 720P@30FPS 第一视角视频,单次交互 10-60 秒
- 训练硬件:NVIDIA A100 (80GB VRAM)
- 训练配置:batch size 32,30K 训练步数,峰值学习率 2.5e-5
Card 06
评估与结果
评估与结果
- 评估基准:π0(VLA)、Diffusion Policy(VA)、VTLA-FS/VTLA-Pre/VTLA-SA 消融变体
- 评估指标:成功率(SR)、完成时间(CT)、轨迹平滑度(MSE)、离线验证 MSE
- 关键结果:
- 夹爪任务:OmniVTLA 96.9% SR vs π0 75.0%,CT 从 657 步降至 498 步
- 灵巧手任务:OmniVTLA 100% SR vs π0 93.8%,未见物体泛化 100% SR
- 轨迹平滑度:SA-ViT 达 1.04×10⁻⁴,较 VLA 基线降低 89.6%
- 离线验证 MSE:OmniVTLA 平均 1.40×10⁻⁴,较 VLA 降低 7.8%-23.3%