Fast ECoT: Efficient Embodied Chain-of-Thought via Thoughts Reuse

论文详情

Fast ECoT: Efficient Embodied Chain-of-Thought via Thoughts Reuse

2025-06-09 · 原文 · 翻译 · 2506.07639

提出 Fast ECoT，一种针对Embodied Chain-of-Thought (ECoT) 推理的推理时加速方法，旨在解决ECoT在VLA模型中因顺序自回归token生成导致的显著推理延迟问题核心创新在于利用ECoT推理的结构化和重复性特性，实现思想复用和并行推理生成，使ECoT策略更接近实际实时部署无需模型修改或额外训练，可轻松集成到现有VLA pipeline中

6 分钟读完 6 张阅读卡 University College London (UCL), Department of Comp…

一眼看懂封面预览

提出 Fast ECoT，一种针对Embodied Chain-of-Thought (ECoT) 推理的推理时加速方法，旨在解决ECoT在V…

提出 Fast ECoT，一种针对Embodied Chain-of-Thought (ECoT) 推理的推理时加速方法，旨在解决ECoT在V…
核心创新在于利用ECoT推理的结构化和重复性特性，实现思想复用和并行推理生成，使ECoT策略更接近实际实时部署
无需模型修改或额外训练，可轻松集成到现有VLA pipeline中

Card 01 研究单位

研究单位

University College London (UCL), Department of Computer Science, UK
University of Freiburg, Department of Computer Science, Germany
Cisco Research, USA

Card 02 论文概述

论文概述

提出 Fast ECoT，一种针对Embodied Chain-of-Thought (ECoT) 推理的推理时加速方法，旨在解决ECoT在VLA模型中因顺序自回归token生成导致的显著推理延迟问题
核心创新在于利用ECoT推理的结构化和重复性特性，实现思想复用和并行推理生成，使ECoT策略更接近实际实时部署
无需模型修改或额外训练，可轻松集成到现有VLA pipeline中

Card 03 核心贡献

核心贡献

提出缓存和复用高level推理策略，利用ECoT的时间局部性（高级推理在多个时间步内保持稳定，如规划模块更新率仅8.4%）
引入并行推理生成，将传统顺序推理转化为批处理模式，通过连续批处理（continuous batching）提高GPU利用率
设计异步调度机制，将推理与动作解码解耦，优先快速动作解码，同时在后台异步更新推理trace
在模拟环境（LIBERO）和真实机器人任务中实现最高7.5×延迟减少，同时保持或提升任务成功率
引入Action Faithfulness指标评估CoT推理的可解释性和忠实度

Card 04 方法描述

方法描述

推理特征分析：分析ECoT推理的时间局部性，发现高级推理（如Task、Plan）跨时间步变化小（更新率~8.4%），可缓存复用；低级推理（如Move command）更新频繁
并行推理生成：将每个推理步骤重新定义为独立生成任务，利用上一时间步的推理作为前缀上下文，使所有推理步骤可并行生成
连续批处理：采用vLLM后端的连续批处理策略，动态替换完成的序列，最小化padding token浪费
异步调度：动作解码（约7 tokens）与推理trace（数百tokens）异步执行，动作从当前观察和缓存的高级推理解码，高级推理在后台刷新

Card 05 数据集与资源

数据集与资源

模拟数据集：LIBERO（LIBERO-Spatial、LIBERO-Object、LIBERO-Goal、LIBERO-Long）、Bridge V2
真实机器人数据集：BridgeData V2 (AutoEval)、自定义6个家庭操作任务
训练配置：LoRA rank 32，200,000梯度步，batch size 1，4×NVIDIA A6000 GPUs
基础模型：OpenVLA checkpoint (预训练于Bridge V2和OXE数据集)
推理后端：vLLM

Card 06 评估与结果

评估与结果

LIBERO模拟实验：Fast ECoT达到最高平均成功率80.0%，延迟2156ms（2.3×加速）；Fast ECoT (Async)延迟仅686ms（近7×加速），成功率77.5%
真实世界实验：Fast ECoT平均成功率68.3%，延迟2479ms；Fast ECoT (Async)延迟716ms（7.7×加速），成功率65.3%
AutoEval基准：Fast ECoT与原始ECoT性能相当，延迟从4030ms降至2105ms（近2×加速）
消融实验：推理复用产生时间平滑效应，过少的更新频率导致性能下降，需平衡平滑效果与动作响应性
Action Faithfulness：Fast ECoT保持与基础ECoT相当的推理忠实度