返回列表 VLA / Vision-Language-Action 每日论文卡
BLaDA: Bridging Language to Functional Dexterous Actions within 3DGS Fields
论文提出BLaDA框架,实现零样本语言驱动的功能性灵巧抓取,将开放词汇指令转化为灵巧手的具体执行动作。

论文详情

BLaDA: Bridging Language to Functional Dexterous Actions within 3DGS Fields

2026-04-09 · 原文 · 翻译 · 2604.08410

论文提出BLaDA框架,实现零样本语言驱动的功能性灵巧抓取,将开放词汇指令转化为灵巧手的具体执行动作。 核心目标是在3D高斯溅射(3DGS)场中建立可解释的推理链,统一语言语义、视觉几何与运动控制。 解决现有方法在意图理解、感知维度和动作执行方面的局限性,实现精确的灵巧功能性操作。

4 分钟读完 6 张阅读卡 湖南大学人工智能与机器人学院
一眼看懂 封面预览

论文提出BLaDA框架,实现零样本语言驱动的功能性灵巧抓取,将开放词汇指令转化为灵巧手的具体执行动作。

  • 论文提出BLaDA框架,实现零样本语言驱动的功能性灵巧抓取,将开放词汇指令转化为灵巧手的具体执行动作。
  • 核心目标是在3D高斯溅射(3DGS)场中建立可解释的推理链,统一语言语义、视觉几何与运动控制。
  • 解决现有方法在意图理解、感知维度和动作执行方面的局限性,实现精确的灵巧功能性操作。
Card 01 研究单位

研究单位

  • 湖南大学人工智能与机器人学院
  • 国家机器人视觉感知与控制技术工程研究中心
Card 02 论文概述

论文概述

  • 论文提出BLaDA框架,实现零样本语言驱动的功能性灵巧抓取,将开放词汇指令转化为灵巧手的具体执行动作。
  • 核心目标是在3D高斯溅射(3DGS)场中建立可解释的推理链,统一语言语义、视觉几何与运动控制。
  • 解决现有方法在意图理解、感知维度和动作执行方面的局限性,实现精确的灵巧功能性操作。
Card 03 核心贡献

核心贡献

  • 提出统一的零样本框架BLaDA,构建结构化中间表示,建立从自然语言指令到灵巧操作的可解释推理链。
  • 设计六元组结构化表示作为连接语义、感知与控制的通用接口,支持开放词汇指令下的跨任务迁移。
  • 开发TriLocation模块在连续3D高斯场中定位功能关键点,结合KGT3D+模块生成物理可解释的灵巧控制命令。
  • 在多个类别、任务和对象上进行广泛实验验证,在零样本设置下实现优越的功能抓取成功率。
Card 04 方法描述

方法描述

  • 采用模块化分层架构,包含KLP语言解析模块、TriLocation3D定位模块和KGT3D+执行转换模块。
  • KLP模块结合知识图谱与大语言模型,将自然语言指令解析为结构化六元组约束。
  • TriLocation利用3DGS构建分层语义场景表示,设计HSE策略提取对象-部件特征,定位三个功能关键点。
  • KGT3D+将语义-几何约束解码为手腕位姿和手指级控制命令,确保物理可解释的精确执行。
Card 05 数据集与资源

数据集与资源

  • 使用FAH灵巧抓取数据集中的18种工具类型
  • 配置10个开放桌面场景,进行100次语言引导操作试验
  • 采用Franka Emika机械臂与Inspire Hand灵巧手
  • 使用Intel RealSense D435i相机获取多视角图像
  • 训练使用NVIDIA RTX 3090 GPU
Card 06 评估与结果

评估与结果

  • 评估语言推理准确度(LRA)、2D部件定位指标(MAEPEnKLDSIMNSS)、3D定位成功率(LSR)和功能抓取成功率(FSR
  • KLP模块使三个LLM的平均LRA从约0.51提升至0.74-0.75,相对增益约21.5%
  • TriLocation在部件级特征提取上显著优于GraspSplats基线,PEn提升113.1%NSS提升110.7%
  • 真实世界实验中成功实现多种工具的功能性抓取与操作任务