核心问题：现有视觉-语言-动作（VLA）模型依赖静态腕部相机，无法自适应调整视角和分辨率，导致在长程任务和精细操作场景中性能受限

论文详情

ActiveVLA: Injecting Active Perception into Vision-Language-Action Models for Precise 3D Robotic Manipulation

2026-01-13 · 原文 · 翻译 · 2601.08325

核心问题：现有视觉-语言-动作（VLA）模型依赖静态腕部相机，无法自适应调整视角和分辨率，导致在长程任务和精细操作场景中性能受限研究目标：提出 ActiveVLA 框架，为机器人注入主动感知能力，实现自适应的视角选择和3D缩放，从而完成高精度的3D机器人操作核心思路：采用粗到细的两阶段范式——先定位关键3D区域，再通过主动视图选择和3D缩放优化感知，最终预测精确的末端执行器动作

4 分钟读完 6 张阅读卡复旦大学（Fudan University）

一眼看懂封面预览

核心问题：现有视觉-语言-动作（VLA）模型依赖静态腕部相机，无法自适应调整视角和分辨率，导致在长程任务和精细操作场景中性能受限

核心问题：现有视觉-语言-动作（VLA）模型依赖静态腕部相机，无法自适应调整视角和分辨率，导致在长程任务和精细操作场景中性能受限
研究目标：提出 ActiveVLA 框架，为机器人注入主动感知能力，实现自适应的视角选择和3D缩放，从而完成高精度的3D机器人操作
核心思路：采用粗到细的两阶段范式——先定位关键3D区域，再通过主动视图选择和3D缩放优化感知，最终预测精确的末端执行器动作

Card 01 研究单位

研究单位

复旦大学（Fudan University）
上海创新研究院（Shanghai Innovation Institute）
南洋理工大学（Nanyang Technological University）

Card 02 论文概述

论文概述

核心问题：现有视觉-语言-动作（VLA）模型依赖静态腕部相机，无法自适应调整视角和分辨率，导致在长程任务和精细操作场景中性能受限
研究目标：提出 ActiveVLA 框架，为机器人注入主动感知能力，实现自适应的视角选择和3D缩放，从而完成高精度的3D机器人操作
核心思路：采用粗到细的两阶段范式——先定位关键3D区域，再通过主动视图选择和3D缩放优化感知，最终预测精确的末端执行器动作

Card 03 核心贡献

核心贡献

主动感知VLA框架：首次将主动感知能力注入视觉-语言-动作模型，支持自适应视角选择和缩放机制
粗到细 pipeline：将3D点云投影到多视角2D表示，通过热图预测关键区域，并选择性增强关键区域的分辨率
先进性能表现：在RLBench上达到91.8%平均成功率，部分任务达100%；在COLOSSEUM上达78.3%成功率
真实世界泛化：在真实机器人实验中展示强大的泛化能力和高成功率

Card 04 方法描述

方法描述

3D关键区域感知：使用PyTorch3D渲染3D点云的三个正交投影（顶视、前视、右视），每个视图含7通道（RGB、深度、世界坐标）；通过VLM backbone和热图预测模块定位关键3D区域
主动视角选择：基于地理采样生成候选相机位置，使用多目标评分函数（可见性、距离、多样性）选择最优视角
主动3D缩放：通过调整视场角（FoV）实现虚拟光学变焦，增加关键区域的空间分辨率而不损失视觉保真度
3D动作预测：将多视角热图反投影到3D空间形成多视角评分量；使用层次化特征融合模块结合全局上下文和局部上下文预测旋转、抓取器和碰撞标志

Card 05 数据集与资源

数据集与资源

仿真基准：RLBench（18个任务）、COLOSSEUM（14个泛化场景）、GemBench
真实机器人实验：在复杂环境中评估高precision任务
骨干模型：PaliGemma VLM

Card 06 评估与结果

评估与结果

RLBench：平均成功率91.8%，平均排名1.22（最优），10个任务排名第一，部分任务达100%成功率
COLOSSEUM：挑战性泛化场景下成功率78.3%，比最佳基线高1.9个百分点
GemBench：在多样化任务中展现 superior adaptability
消融实验：验证了主动视角选择和3D缩放机制的有效性