DexVLG: Dexterous Vision-Language-Grasp Model at Scale - VLA / Vision-Language-Action 每日论文卡

一眼看懂封面预览

提出 Dexterous Vision-Language-Grasp (DexVLG) 模型，旨在实现大规模、灵巧的、由视觉和语言指令驱动的抓…

提出 Dexterous Vision-Language-Grasp (DexVLG) 模型，旨在实现大规模、灵巧的、由视觉和语言指令驱动的抓…
核心目标是解决根据语言指令对物体的特定语义部件进行灵巧抓取的问题，即生成符合物理稳定性且与语言描述在语义上对齐的抓取姿态。
论文通过创建一个大规模、高质量、包含物体部件分割和语言标注的灵巧抓取数据集 DexGraspNet 3.0，并基于此训练视觉-语言-抓取模型。

Card 01 研究单位

研究单位

Institution1
Institution2
（论文为匿名评审版本，部分作者机构被省略，ID 200）

Card 02 论文概述

论文概述

提出 Dexterous Vision-Language-Grasp (DexVLG) 模型，旨在实现大规模、灵巧的、由视觉和语言指令驱动的抓取生成。
核心目标是解决根据语言指令对物体的特定语义部件进行灵巧抓取的问题，即生成符合物理稳定性且与语言描述在语义上对齐的抓取姿态。
论文通过创建一个大规模、高质量、包含物体部件分割和语言标注的灵巧抓取数据集 DexGraspNet 3.0，并基于此训练视觉-语言-抓取模型。

Card 03 核心贡献

核心贡献

提出了基于能量优化的LP-based DFC（线性规划可微分力封闭）方法，改进了传统的可微分力封闭（DFC）目标，能生成更自然、符合物体几何的稳定抓取。
引入了大规模DexGraspNet 3.0数据集，包含约1700万个高质量、部件对齐的灵巧抓取姿态，覆盖17.4万个物体，每个抓取都配有视觉渲染和语言描述。
设计了基于物体部件几何的初始化策略，将物体部件分类（如盖状、盘状、L形、轴状），并据此对齐初始手掌姿态，从而引导优化生成语义可区分且更自然的抓取。
提出了一个视觉-语言-抓取（VLG）模型，能够根据输入的单视图或多视图图像及语言指令，生成与指定物体部件对齐的稳定灵巧抓取姿态。
引入了新的评估指标部件抓取对齐度（PGA），用于量化生成抓取姿态与目标部件之间的语义对齐程度。

Card 04 方法描述

方法描述

采用梯度优化框架（基于CuRobo库）进行灵巧抓取合成。总能量函数由力封闭能量（采用改进的LP-based DFC）、距离能量和正则化能量（防穿透、自穿透、关节限制、接触方向对齐）构成。
LP-based DFC：在优化每一步，首先通过线性规划求解最优接触力大小，然后根据当前姿态的稳定性，在原始DFC能量和考虑力大小的DFC能量之间自适应切换，避免了传统DFC假设等大力导致的非自然姿态。
视觉-语言-抓取模型：采用编码器-解码器架构。使用CLIP视觉编码器提取图像特征，T5文本编码器处理语言指令，DiT（Diffusion Transformer） 作为解码器，在流匹配（Flow Matching）范式下生成抓取姿态参数。
数据集生成流水线：从Objaverse数据集中筛选和预处理物体；使用SAMesh进行部件语义分割；利用GPT-4o（Set-of-Marks提示）为每个部件生成语义标注；基于部件分类和几何分析进行手掌姿态初始化；最后进行批量梯度优化和仿真验证。

Card 05 数据集与资源

数据集与资源

主要数据集：DexGraspNet 3.0（本文构建），包含Ours-Wrap（103M抓取）和Ours-Pinch（67M抓取）两个子集，总计约170M个抓取姿态。
预训练数据集：DexGraspNet 1.0/2.0。
评估基准数据集：LVIS-SEEN/UNSEEN, SamPart3D。
模型规模：基于 CLIP ViT-L/14 和 T5-Base 编码器，DiT 解码器。
训练资源：在8个NVIDIA A100 GPU上训练。

Card 06 评估与结果

评估与结果

评估环境：Isaac Gym物理仿真环境，使用Shadow Hand模型进行抓取稳定性测试。
主要评估指标：抓取成功率（Suc↑），部件抓取对齐度（PGA↑），以及穿透深度（Pen↓） 和自穿透深度（SPen↓）。
关键实验结果：

- DexVLG模型在LVIS-Seen数据集上达到75.3%的成功率和39.1%的PGA；在更具挑战性的Unseen数据集上达到54.0%的成功率和18.3%的PGA。

- 在SamPart3D数据集上，模型取得了53.4%的成功率和27.0%的PGA，展示了良好的泛化能力。

- 消融实验证实：LP-based DFC优于原始DFC；部件对齐的初始化显著优于随机初始化；流匹配（Flow Matching） 解码器优于DDPM和DDIM等传统扩散范式；包裹式（Wrap） 抓取风格在稳定性和对齐度上均优于捏取式（Pinch） 风格。