一眼看懂
封面预览
提出 Fast ECoT,一种针对Embodied Chain-of-Thought (ECoT) 推理的推理时加速方法,旨在解决ECoT在V…
- 提出 Fast ECoT,一种针对Embodied Chain-of-Thought (ECoT) 推理的推理时加速方法,旨在解决ECoT在V…
- 核心创新在于利用ECoT推理的结构化和重复性特性,实现思想复用和并行推理生成,使ECoT策略更接近实际实时部署
- 无需模型修改或额外训练,可轻松集成到现有VLA pipeline中
Card 01
研究单位
研究单位
- University College London (UCL), Department of Computer Science, UK
- University of Freiburg, Department of Computer Science, Germany
- Cisco Research, USA
Card 02
论文概述
论文概述
- 提出 Fast ECoT,一种针对Embodied Chain-of-Thought (ECoT) 推理的推理时加速方法,旨在解决ECoT在VLA模型中因顺序自回归token生成导致的显著推理延迟问题
- 核心创新在于利用ECoT推理的结构化和重复性特性,实现思想复用和并行推理生成,使ECoT策略更接近实际实时部署
- 无需模型修改或额外训练,可轻松集成到现有VLA pipeline中
Card 03
核心贡献
核心贡献
- 提出缓存和复用高level推理策略,利用ECoT的时间局部性(高级推理在多个时间步内保持稳定,如规划模块更新率仅8.4%)
- 引入并行推理生成,将传统顺序推理转化为批处理模式,通过连续批处理(continuous batching)提高GPU利用率
- 设计异步调度机制,将推理与动作解码解耦,优先快速动作解码,同时在后台异步更新推理trace
- 在模拟环境(LIBERO)和真实机器人任务中实现最高7.5×延迟减少,同时保持或提升任务成功率
- 引入Action Faithfulness指标评估CoT推理的可解释性和忠实度
Card 04
方法描述
方法描述
- 推理特征分析:分析ECoT推理的时间局部性,发现高级推理(如Task、Plan)跨时间步变化小(更新率~8.4%),可缓存复用;低级推理(如Move command)更新频繁
- 并行推理生成:将每个推理步骤重新定义为独立生成任务,利用上一时间步的推理作为前缀上下文,使所有推理步骤可并行生成
- 连续批处理:采用vLLM后端的连续批处理策略,动态替换完成的序列,最小化padding token浪费
- 异步调度:动作解码(约7 tokens)与推理trace(数百tokens)异步执行,动作从当前观察和缓存的高级推理解码,高级推理在后台刷新
Card 05
数据集与资源
数据集与资源
- 模拟数据集:LIBERO(LIBERO-Spatial、LIBERO-Object、LIBERO-Goal、LIBERO-Long)、Bridge V2
- 真实机器人数据集:BridgeData V2 (AutoEval)、自定义6个家庭操作任务
- 训练配置:LoRA rank 32,200,000梯度步,batch size 1,4×NVIDIA A6000 GPUs
- 基础模型:OpenVLA checkpoint (预训练于Bridge V2和OXE数据集)
- 推理后端:vLLM
Card 06
评估与结果
评估与结果
- LIBERO模拟实验:Fast ECoT达到最高平均成功率80.0%,延迟2156ms(2.3×加速);Fast ECoT (Async)延迟仅686ms(近7×加速),成功率77.5%
- 真实世界实验:Fast ECoT平均成功率68.3%,延迟2479ms;Fast ECoT (Async)延迟716ms(7.7×加速),成功率65.3%
- AutoEval基准:Fast ECoT与原始ECoT性能相当,延迟从4030ms降至2105ms(近2×加速)
- 消融实验:推理复用产生时间平滑效应,过少的更新频率导致性能下降,需平衡平滑效果与动作响应性
- Action Faithfulness:Fast ECoT保持与基础ECoT相当的推理忠实度