论文提出BLaDA框架，实现零样本语言驱动的功能性灵巧抓取，将开放词汇指令转化为灵巧手的具体执行动作。

论文详情

BLaDA: Bridging Language to Functional Dexterous Actions within 3DGS Fields

2026-04-09 · 原文 · 翻译 · 2604.08410

论文提出BLaDA框架，实现零样本语言驱动的功能性灵巧抓取，将开放词汇指令转化为灵巧手的具体执行动作。核心目标是在3D高斯溅射（3DGS）场中建立可解释的推理链，统一语言语义、视觉几何与运动控制。解决现有方法在意图理解、感知维度和动作执行方面的局限性，实现精确的灵巧功能性操作。

4 分钟读完 6 张阅读卡湖南大学人工智能与机器人学院

一眼看懂封面预览

论文提出BLaDA框架，实现零样本语言驱动的功能性灵巧抓取，将开放词汇指令转化为灵巧手的具体执行动作。

论文提出BLaDA框架，实现零样本语言驱动的功能性灵巧抓取，将开放词汇指令转化为灵巧手的具体执行动作。
核心目标是在3D高斯溅射（3DGS）场中建立可解释的推理链，统一语言语义、视觉几何与运动控制。
解决现有方法在意图理解、感知维度和动作执行方面的局限性，实现精确的灵巧功能性操作。

Card 01 研究单位

研究单位

湖南大学人工智能与机器人学院
国家机器人视觉感知与控制技术工程研究中心

Card 02 论文概述

论文概述

论文提出BLaDA框架，实现零样本语言驱动的功能性灵巧抓取，将开放词汇指令转化为灵巧手的具体执行动作。
核心目标是在3D高斯溅射（3DGS）场中建立可解释的推理链，统一语言语义、视觉几何与运动控制。
解决现有方法在意图理解、感知维度和动作执行方面的局限性，实现精确的灵巧功能性操作。

Card 03 核心贡献

核心贡献

提出统一的零样本框架BLaDA，构建结构化中间表示，建立从自然语言指令到灵巧操作的可解释推理链。
设计六元组结构化表示作为连接语义、感知与控制的通用接口，支持开放词汇指令下的跨任务迁移。
开发TriLocation模块在连续3D高斯场中定位功能关键点，结合KGT3D+模块生成物理可解释的灵巧控制命令。
在多个类别、任务和对象上进行广泛实验验证，在零样本设置下实现优越的功能抓取成功率。

Card 04 方法描述

方法描述

采用模块化分层架构，包含KLP语言解析模块、TriLocation3D定位模块和KGT3D+执行转换模块。
KLP模块结合知识图谱与大语言模型，将自然语言指令解析为结构化六元组约束。
TriLocation利用3DGS构建分层语义场景表示，设计HSE策略提取对象-部件特征，定位三个功能关键点。
KGT3D+将语义-几何约束解码为手腕位姿和手指级控制命令，确保物理可解释的精确执行。

Card 05 数据集与资源

数据集与资源

使用FAH灵巧抓取数据集中的18种工具类型
配置10个开放桌面场景，进行100次语言引导操作试验
采用Franka Emika机械臂与Inspire Hand灵巧手
使用Intel RealSense D435i相机获取多视角图像
训练使用NVIDIA RTX 3090 GPU

Card 06 评估与结果

评估与结果

评估语言推理准确度（LRA）、2D部件定位指标（MAE、PEn、KLD、SIM、NSS）、3D定位成功率（LSR）和功能抓取成功率（FSR）
KLP模块使三个LLM的平均LRA从约0.51提升至0.74-0.75，相对增益约21.5%
TriLocation在部件级特征提取上显著优于GraspSplats基线，PEn提升113.1%，NSS提升110.7%
真实世界实验中成功实现多种工具的功能性抓取与操作任务