返回列表 VLA / Vision-Language-Action 每日论文卡
ActiveVLA: Injecting Active Perception into Vision-Language-Action Models for Precise 3D Robotic Manipulation
核心问题:现有视觉-语言-动作(VLA)模型依赖静态腕部相机,无法自适应调整视角和分辨率,导致在长程任务和精细操作场景中性能受限

论文详情

ActiveVLA: Injecting Active Perception into Vision-Language-Action Models for Precise 3D Robotic Manipulation

2026-01-13 · 原文 · 翻译 · 2601.08325

核心问题:现有视觉-语言-动作(VLA)模型依赖静态腕部相机,无法自适应调整视角和分辨率,导致在长程任务和精细操作场景中性能受限 研究目标:提出 ActiveVLA 框架,为机器人注入主动感知能力,实现自适应的视角选择和3D缩放,从而完成高精度的3D机器人操作 核心思路:采用粗到细的两阶段范式——先定位关键3D区域,再通过主动视图选择和3D缩放优化感知,最终预测精确的末端执行器动作

4 分钟读完 6 张阅读卡 复旦大学(Fudan University)
一眼看懂 封面预览

核心问题:现有视觉-语言-动作(VLA)模型依赖静态腕部相机,无法自适应调整视角和分辨率,导致在长程任务和精细操作场景中性能受限

  • 核心问题:现有视觉-语言-动作(VLA)模型依赖静态腕部相机,无法自适应调整视角和分辨率,导致在长程任务和精细操作场景中性能受限
  • 研究目标:提出 ActiveVLA 框架,为机器人注入主动感知能力,实现自适应的视角选择和3D缩放,从而完成高精度的3D机器人操作
  • 核心思路:采用粗到细的两阶段范式——先定位关键3D区域,再通过主动视图选择和3D缩放优化感知,最终预测精确的末端执行器动作
Card 01 研究单位

研究单位

  • 复旦大学(Fudan University)
  • 上海创新研究院(Shanghai Innovation Institute)
  • 南洋理工大学(Nanyang Technological University)
Card 02 论文概述

论文概述

  • 核心问题:现有视觉-语言-动作(VLA)模型依赖静态腕部相机,无法自适应调整视角和分辨率,导致在长程任务和精细操作场景中性能受限
  • 研究目标:提出 ActiveVLA 框架,为机器人注入主动感知能力,实现自适应的视角选择和3D缩放,从而完成高精度的3D机器人操作
  • 核心思路:采用粗到细的两阶段范式——先定位关键3D区域,再通过主动视图选择和3D缩放优化感知,最终预测精确的末端执行器动作
Card 03 核心贡献

核心贡献

  • 主动感知VLA框架:首次将主动感知能力注入视觉-语言-动作模型,支持自适应视角选择和缩放机制
  • 粗到细 pipeline:将3D点云投影到多视角2D表示,通过热图预测关键区域,并选择性增强关键区域的分辨率
  • 先进性能表现:在RLBench上达到91.8%平均成功率,部分任务达100%;在COLOSSEUM上达78.3%成功率
  • 真实世界泛化:在真实机器人实验中展示强大的泛化能力和高成功率
Card 04 方法描述

方法描述

  • 3D关键区域感知:使用PyTorch3D渲染3D点云的三个正交投影(顶视、前视、右视),每个视图含7通道(RGB、深度、世界坐标);通过VLM backbone和热图预测模块定位关键3D区域
  • 主动视角选择:基于地理采样生成候选相机位置,使用多目标评分函数(可见性、距离、多样性)选择最优视角
  • 主动3D缩放:通过调整视场角(FoV)实现虚拟光学变焦,增加关键区域的空间分辨率而不损失视觉保真度
  • 3D动作预测:将多视角热图反投影到3D空间形成多视角评分量;使用层次化特征融合模块结合全局上下文和局部上下文预测旋转、抓取器和碰撞标志
Card 05 数据集与资源

数据集与资源

  • 仿真基准:RLBench(18个任务)、COLOSSEUM(14个泛化场景)、GemBench
  • 真实机器人实验:在复杂环境中评估高precision任务
  • 骨干模型:PaliGemma VLM
Card 06 评估与结果

评估与结果

  • RLBench:平均成功率91.8%,平均排名1.22(最优),10个任务排名第一,部分任务达100%成功率
  • COLOSSEUM:挑战性泛化场景下成功率78.3%,比最佳基线高1.9个百分点
  • GemBench:在多样化任务中展现 superior adaptability
  • 消融实验:验证了主动视角选择和3D缩放机制的有效性