返回列表 VLA / Vision-Language-Action 每日论文卡
PALM: Progress-Aware Policy Learning via Affordance Reasoning for Long-Horizon Robotic Manipulation
论文提出 PALM(Progress-Aware Policy Learning via Affordance Reasoning),一个用于…

论文详情

PALM: Progress-Aware Policy Learning via Affordance Reasoning for Long-Horizon Robotic Manipulation

2026-01-11 · 原文 · 翻译 · 2601.07060

论文提出 PALM(Progress-Aware Policy Learning via Affordance Reasoning),一个用于长程机器人操作的视觉语言动作(VLA)框架,旨在解决现有 VLA 模型在多步骤、长程任务中的执行错误问题 核心挑战:现有方法缺乏内部推理机制来识别任务相关的交互线索或跟踪子任务进度,导致重复动作、遗漏步骤和过早终止等问题 研究目标:通过结构化的可负担性(affordance)…

6 分钟读完 6 张阅读卡 University of Pennsylvania(美国宾夕法尼亚大学)
一眼看懂 封面预览

论文提出 PALM(Progress-Aware Policy Learning via Affordance Reasoning),一个用于…

  • 论文提出 PALM(Progress-Aware Policy Learning via Affordance Reasoning),一个用于…
  • 核心挑战:现有方法缺乏内部推理机制来识别任务相关的交互线索或跟踪子任务进度,导致重复动作、遗漏步骤和过早终止等问题
  • 研究目标:通过结构化的可负担性(affordance)推理和子任务进度感知来增强策略学习,实现稳定的长程操作
Card 01 研究单位

研究单位

  • University of Pennsylvania(美国宾夕法尼亚大学)
  • University of Illinois Urbana-Champaign(美国伊利诺伊大学香槟分校)
  • Nanyang Technological University(新加坡南洋理工大学)
  • University of Oxford(英国牛津大学)
  • Massachusetts Institute of Technology(美国麻省理工学院)
Card 02 论文概述

论文概述

  • 论文提出 PALM(Progress-Aware Policy Learning via Affordance Reasoning),一个用于长程机器人操作的视觉语言动作(VLA)框架,旨在解决现有 VLA 模型在多步骤、长程任务中的执行错误问题
  • 核心挑战:现有方法缺乏内部推理机制来识别任务相关的交互线索或跟踪子任务进度,导致重复动作、遗漏步骤和过早终止等问题
  • 研究目标:通过结构化的可负担性(affordance)推理和子任务进度感知来增强策略学习,实现稳定的长程操作
Card 03 核心贡献

核心贡献

  • 引入 PALM,一个统一的 VLA 框架,集成结构化可负担性推理和进度感知策略生成,实现长程、接触密集型机器人操作任务的可靠执行
  • 提出两个新颖的互补模块:(1)细粒度可负担性预测器,作为中间隐式推理步骤,产生结构化任务相关表示;(2)进度感知逆动力学模块,将动作生成与子任务进度估计耦合
  • 在模拟和真实环境中进行综合评估,在 CALVIN ABCD 上比之前最优方法提升 12.5%,在 LIBERO-LONG 上达到 91.8% 成功率,并在三个真实世界长程泛化测试中持续优于基线
Card 04 方法描述

方法描述

  • 多模态编码器:使用 CLIP 文本编码器、Masked Autoencoder(MAE)视觉编码器 + Perceiver Resampler、MLP 机器人状态投影
  • 主干网络:GPT-2 风格 Transformer,使用因果和跨模态注意力融合 token 序列
  • 可负担性预测:四个子查询(Global、Local、Spatial、Dynamic)分别预测对象相关性、接触级几何、候选放置区域和运动轨迹
  • 动作生成:基于 Diffusion Transformer 的逆动力学模型,以可负担性潜向量为条件,联合预测动作和进度序列
  • 进度跟踪:连续进度信号 p_t ∈ [0,1] 编码子任务完成度,作为时间正则化器减少阶段歧义
Card 05 数据集与资源

数据集与资源

  • 预训练数据:DROID、BridgeData V2(机器人数据)、EPIC-KITCHENS、RoboCerebra(长程视频数据)
  • 微调数据:942 条带有人类注释的机器人轨迹
  • 评估基准:CALVIN ABCD(34 个任务,4 个不同环境)、LIBERO-LONG(4 个任务套件)
  • 真实机器人:UFACTORY xArm6 机械臂 + Gripper G2,2 个 RealSense D455 相机
Card 06 评估与结果

评估与结果

  • CALVIN ABCD:PALM 在第一子任务达 96.9% 成功率,5 个连续子任务达 82.0%(+17.7% 超越最强基线 Seer 的 64.3%),平均任务长度 4.48(超越 Seer 的 3.98)
  • LIBERO-LONG:平均成功率 94.5%,其中 Long 子集达 91.8%(超越最强基线 CoT-VLA 的 69.0% 共 22.8%)
  • 真实世界实验:在随机定位、视觉干扰、光照变化三种泛化设置下,PALM 平均长度 3.05,显著超越 OpenVLA(0.95)和 Octo(0.65)
  • 消融实验:去除进度预测导致预训练阶段最大性能下降(4.48 → 3.73),验证大规模长程数据对学习强进度先验的重要性