返回列表 VLA / Vision-Language-Action 每日论文卡
StableIDM: Stabilizing Inverse Dynamics Model against Manipulator Truncation via Spatio-Temporal Refinement
研究问题:逆动力学模型(IDM)在机械臂截断(manipulator truncation)情况下性能严重下降——这是由于机械臂部分移出相机视…

论文详情

StableIDM: Stabilizing Inverse Dynamics Model against Manipulator Truncation via Spatio-Temporal Refinement

2026-04-20 · 原文 · 翻译 · 2604.17887

研究问题:逆动力学模型(IDM)在机械臂截断(manipulator truncation)情况下性能严重下降——这是由于机械臂部分移出相机视野,仅剩短段可见,导致状态恢复变成不适定问题并引发不稳定控制 核心方法:提出 StableIDM,一个时空特征细化框架,通过三个互补组件稳定部分可观测性下的动作预测:(1)机器人中心掩码抑制背景干扰;(2)方向特征聚合(DFA)进行几何感知空间推理;(3)时序动力学细化(TD…

7 分钟读完 6 张阅读卡 GigaAI
一眼看懂 封面预览

研究问题:逆动力学模型(IDM)在机械臂截断(manipulator truncation)情况下性能严重下降——这是由于机械臂部分移出相机视…

  • 研究问题:逆动力学模型(IDM)在机械臂截断(manipulator truncation)情况下性能严重下降——这是由于机械臂部分移出相机视…
  • 核心方法:提出 StableIDM,一个时空特征细化框架,通过三个互补组件稳定部分可观测性下的动作预测:(1)机器人中心掩码抑制背景干扰;(2…
  • 应用场景:IDM 作为动作标注器用于大规模视频标注训练 VLA 模型,以及作为策略执行器将视频生成模型的动作计划解码为机器人控制命令
Card 01 研究单位

研究单位

  • GigaAI
  • 中国科学院自动化研究所 (Institute of Automation, Chinese Academy of Sciences)
  • 北京理工大学 (Beijing Institute of Technology)
Card 02 论文概述

论文概述

  • 研究问题:逆动力学模型(IDM)在机械臂截断(manipulator truncation)情况下性能严重下降——这是由于机械臂部分移出相机视野,仅剩短段可见,导致状态恢复变成不适定问题并引发不稳定控制
  • 核心方法:提出 StableIDM,一个时空特征细化框架,通过三个互补组件稳定部分可观测性下的动作预测:(1)机器人中心掩码抑制背景干扰;(2)方向特征聚合(DFA)进行几何感知空间推理;(3)时序动力学细化(TDR)通过运动连续性平滑和纠正预测
  • 应用场景:IDM 作为动作标注器用于大规模视频标注训练 VLA 模型,以及作为策略执行器将视频生成模型的动作计划解码为机器人控制命令
Card 03 核心贡献

核心贡献

  • 提出 StableIDM,首个针对机械臂截断问题的时空 IDM 框架,实现截断下的稳定动作预测
  • 设计三模块架构:机器人中心掩码(Robot-centric Masking)抑制背景噪声、方向特征聚合(DFA)保留几何方向敏感线索、时序动力学细化(TDR)利用运动连续性修复预测
  • AgiBot 基准的严重截断子集上离线动作预测准确率提升 12.1%,在真实机器人实验中平均任务成功率提升 9.7%
  • 作为视频生成计划的可执行策略解码器,末端抓取成功率提升 11.5%
  • 作为自动动作标注器,下游 VLA 训练真实机器人任务成功率提升 17.6%
Card 04 方法描述

方法描述

  • 整体框架:使用固定长度滑动窗口的因果历史(causal history window),输出当前单步动作,具有固定、可估算的延迟
  • 机器人中心掩码:使用 Segment Anything (SAM) 提取每帧的二值掩码,过滤严重截断时主导的背景噪声,确保后续模块聚焦于剩余可见的机械臂几何结构
  • 方向特征聚合(DFA):核心空间组件,使用方向感知算子在多个分析角度(4个标准方向,覆盖 [0°, 180°))上提取特征;通过编码器 CLS 和寄存器令牌提取全局上下文,自适应重新加权各角度分量以强调当前视角和截断状态下更可靠的方向证据
  • 时序动力学细化(TDR):包含时序融合(在 DFA 之前,通过学习的光学变形场和可见性门融合相邻帧特征)和时序回归器(在 DFA 之后,使用因果 TCN(扩张因子 1,2,4,8)分析特征历史,预测残差修正以平滑运动趋势)
  • 视觉编码器:使用 DINOv2 预训练视觉骨干,输出 37×37 的 patch 网格,通道维度 C=768
Card 05 数据集与资源

数据集与资源

  • 数据集:AgiBot World 基准的子集,包含 100 个回合的十种日常操作任务(关节物体交互、桌面拾取放置、清洁类行为)
  • 评估划分:按机械臂像素占用率划分,15% 为阈值,light(截断 >15%,轻度截断)和 heavy(截断 <15%,严重截断)两个子集
  • 对比基线:ResNet-50 IDM、AnyPos(单视图变体)、Vidar
  • VLA 训练:使用 Pi-0.5 模型进行下游训练实验
Card 06 评估与结果

评估与结果

  • 评估指标:严格阈值准确率(acc)、逐维度平均准确率(acc-per-dim)、L1 预测距离、真实机器人任务成功率、末端抓取成功率
  • 关键结果

- 离线预测(严重截断):StableIDM acc=30.7%(基线最高 18.6%),acc-per-dim=44.7%,L1=0.493

- 真实机器人 replay:Pick & Place 53.8%、Microwave 42.3%、Sink Cleaning 46.2%,平均 47.4%(基线最高 37.7%)

- 视频计划部署:抓取成功率 53.8%(基线最高 42.3%)

- VLA 训练:使用 StableIDM 标注的生成视频后,成功率从 35.3% 提升至 52.9%

  • 消融实验:三个组件(DFA、TDR、掩码)均为互补设计,缺一不可;TDR 消除时序抖动,DFA 保留方向几何线索,掩码防止过拟合背景纹理