一眼看懂
封面预览
论文提出BLaDA框架,实现零样本语言驱动的功能性灵巧抓取,将开放词汇指令转化为灵巧手的具体执行动作。
- 论文提出BLaDA框架,实现零样本语言驱动的功能性灵巧抓取,将开放词汇指令转化为灵巧手的具体执行动作。
- 核心目标是在3D高斯溅射(3DGS)场中建立可解释的推理链,统一语言语义、视觉几何与运动控制。
- 解决现有方法在意图理解、感知维度和动作执行方面的局限性,实现精确的灵巧功能性操作。
Card 01
研究单位
研究单位
- 湖南大学人工智能与机器人学院
- 国家机器人视觉感知与控制技术工程研究中心
Card 02
论文概述
论文概述
- 论文提出BLaDA框架,实现零样本语言驱动的功能性灵巧抓取,将开放词汇指令转化为灵巧手的具体执行动作。
- 核心目标是在3D高斯溅射(3DGS)场中建立可解释的推理链,统一语言语义、视觉几何与运动控制。
- 解决现有方法在意图理解、感知维度和动作执行方面的局限性,实现精确的灵巧功能性操作。
Card 03
核心贡献
核心贡献
- 提出统一的零样本框架BLaDA,构建结构化中间表示,建立从自然语言指令到灵巧操作的可解释推理链。
- 设计六元组结构化表示作为连接语义、感知与控制的通用接口,支持开放词汇指令下的跨任务迁移。
- 开发TriLocation模块在连续3D高斯场中定位功能关键点,结合KGT3D+模块生成物理可解释的灵巧控制命令。
- 在多个类别、任务和对象上进行广泛实验验证,在零样本设置下实现优越的功能抓取成功率。
Card 04
方法描述
方法描述
- 采用模块化分层架构,包含KLP语言解析模块、TriLocation3D定位模块和KGT3D+执行转换模块。
- KLP模块结合知识图谱与大语言模型,将自然语言指令解析为结构化六元组约束。
- TriLocation利用3DGS构建分层语义场景表示,设计HSE策略提取对象-部件特征,定位三个功能关键点。
- KGT3D+将语义-几何约束解码为手腕位姿和手指级控制命令,确保物理可解释的精确执行。
Card 05
数据集与资源
数据集与资源
- 使用FAH灵巧抓取数据集中的18种工具类型
- 配置10个开放桌面场景,进行100次语言引导操作试验
- 采用Franka Emika机械臂与Inspire Hand灵巧手
- 使用Intel RealSense D435i相机获取多视角图像
- 训练使用NVIDIA RTX 3090 GPU
Card 06
评估与结果
评估与结果
- 评估语言推理准确度(LRA)、2D部件定位指标(MAE、PEn、KLD、SIM、NSS)、3D定位成功率(LSR)和功能抓取成功率(FSR)
- KLP模块使三个LLM的平均LRA从约0.51提升至0.74-0.75,相对增益约21.5%
- TriLocation在部件级特征提取上显著优于GraspSplats基线,PEn提升113.1%,NSS提升110.7%
- 真实世界实验中成功实现多种工具的功能性抓取与操作任务