一眼看懂
封面预览
研究目标:解决通用机器人系统在开放世界中需要同时实现广泛泛化和高精度动作执行的挑战
- 研究目标:解决通用机器人系统在开放世界中需要同时实现广泛泛化和高精度动作执行的挑战
- 核心问题:VLA模型中推理能力与动作精度之间存在权衡——强推理能力往往导致动作精度下降,反之亦然
- 解决方案:提出ERIQ基准测试和FACT动作分词器,构建统一的GenieReasoner系统,在统一空间内协同优化推理与精确动作执行
Card 01
研究单位
研究单位
- AgiBot Research(第一作者单位)
- AgiBot
- Shanghai Innovation Institute
Card 02
论文概述
论文概述
- 研究目标:解决通用机器人系统在开放世界中需要同时实现广泛泛化和高精度动作执行的挑战
- 核心问题:VLA模型中推理能力与动作精度之间存在权衡——强推理能力往往导致动作精度下降,反之亦然
- 解决方案:提出ERIQ基准测试和FACT动作分词器,构建统一的GenieReasoner系统,在统一空间内协同优化推理与精确动作执行
Card 03
核心贡献
核心贡献
- ERIQ基准测试:首个覆盖全部四个推理维度(空间感知、任务规划、错误检测与恢复、人类意图理解)的大规模具身推理 benchmark,包含 6,052 个问答对
- FACT(Flow-matching Action Tokenizer):基于流匹配的动作分词器,将连续动作离散化为紧凑的 token 序列,同时通过流匹配解码器重建高精度连续轨迹
- GenieReasoner 系统:统一框架,联合优化 VLM 的多模态推理能力与机器人控制能力,在推理-精度权衡中取得突破
- 实验验证:在 ERIQ 上实现 41% 精度提升,验证了推理能力与端到端 VLA 泛化性能之间存在强正相关关系
Card 04
方法描述
方法描述
- FACT 分词器架构:采用 VQ-encoder 进行动作编码和量化,使用 lookup-free quantization 将连续嵌入映射到离散 code({-1,+1}^(L×D))
- 流匹配解码器:基于 Rectified Flow 目标训练,学习从高斯噪声到数据分布的直线轨迹速度场,通过 ODE 积分重建连续动作
- 训练策略:三阶段训练流程(通用多模态预训练 → 具身推理+动作微调 → FACT 分词器训练),引入 General VQA 数据保持基础视觉语言能力
- 推理流程:VLA 策略自回归生成离散动作码 → FACT 解码器通过 ODE 积分将离散码重建为连续控制信号
Card 05
数据集与资源
数据集与资源
- ERIQ Benchmark:6,052 个问答对,涵盖 15 个细分子任务,来源包括 AgiBot World 等真实机器人数据
- 训练数据:Cambrian-10M、LLaVA-OneVision、NVIDIA Cosmos-Reason、ShareRobot、Robo2VLM、EmbSpatial-SFT、ManipulationVQA-60K、AgiBot World 等
- 评估平台:AgiBot G01、AgiBot Genie Simulation、AgileX、ARX 等多种机器人平台
- 对比基线:π₀-FAST(离散动作)、π₀.₅(连续动作)、OpenVLA、RT-2 等
Card 06
评估与结果
评估与结果
- 推理能力评估:在 ERIQ 基准上,Ours-3B 在多个子任务(如 Action Understanding 96.67%、Task Grounding 93.21%、Mistake Recovery 85.71%)达到最优
- 轨迹重建精度:FACT 相比 π₀-FAST 显著降低 MSE(重建误差),同时保持紧凑的离散表示
- 真实世界任务:在开放集任务上优于 π₀.₅ 等流式基线,展现更强的泛化能力
- 关键发现:ERIQ 推理得分与端到端任务成功率呈强正相关,验证了「强推理是泛化基础」的假设