返回列表 VLA / Vision-Language-Action 每日论文卡
ThermoAct:Thermal-Aware Vision-Language-Action Models for Robotic Perception and Decision-Making
提出了一个名为 ThermoAct 的视觉-语言-行动框架,创新性地将热成像信息集成到机器人任务执行中。

论文详情

ThermoAct:Thermal-Aware Vision-Language-Action Models for Robotic Perception and Decision-Making

2026-03-26 · 原文 · 翻译 · 2603.25044

提出了一个名为 ThermoAct 的视觉-语言-行动框架,创新性地将热成像信息集成到机器人任务执行中。 旨在解决现有VLA模型无法感知和处理温度信息的问题,使机器人能够执行基于温度的决策(如选择“最冷的”物体)并识别热安全隐患。 采用层次化架构,使用视觉-语言模型作为高级规划器分解复杂任务,再由VLA执行器完成底层动作,以应对热成像数据稀缺的挑战。

5 分钟读完 6 张阅读卡 Young-Chae Son, Dae-Kwan Ko, Yoon-Ji Choi, Soo-Chul…
一眼看懂 封面预览

提出了一个名为 ThermoAct 的视觉-语言-行动框架,创新性地将热成像信息集成到机器人任务执行中。

  • 提出了一个名为 ThermoAct 的视觉-语言-行动框架,创新性地将热成像信息集成到机器人任务执行中。
  • 旨在解决现有VLA模型无法感知和处理温度信息的问题,使机器人能够执行基于温度的决策(如选择“最冷的”物体)并识别热安全隐患。
  • 采用层次化架构,使用视觉-语言模型作为高级规划器分解复杂任务,再由VLA执行器完成底层动作,以应对热成像数据稀缺的挑战。
Card 01 研究单位

研究单位

  • Young-Chae Son, Dae-Kwan Ko, Yoon-Ji Choi, Soo-Chul Lim(韩国研究团队)
Card 02 论文概述

论文概述

  • 提出了一个名为 ThermoAct 的视觉-语言-行动框架,创新性地将热成像信息集成到机器人任务执行中。
  • 旨在解决现有VLA模型无法感知和处理温度信息的问题,使机器人能够执行基于温度的决策(如选择“最冷的”物体)并识别热安全隐患。
  • 采用层次化架构,使用视觉-语言模型作为高级规划器分解复杂任务,再由VLA执行器完成底层动作,以应对热成像数据稀缺的挑战。
Card 03 核心贡献

核心贡献

  • 提出了首个将热成像模态集成到VLA框架中的方法,扩展了机器人的环境感知能力。
  • 设计了VLM(高级规划器)与VLA(低级执行器)协作的层次化架构,有效解决了复杂、长视野任务的执行问题。
  • 构建了包含日常操作与安全场景的热相关任务数据集,并进行了全面的实验验证。
  • 实验证明,结合热信息可以显著提升任务成功率和机器人操作安全性。
Card 04 方法描述

方法描述

  • 整体采用层次化架构VLM Planner负责理解指令和热图像,将复杂任务分解为子任务;VLA Executor基于子任务描述和实时图像执行动作。
  • VLA Executor 基于 π0模型 进行微调,输入为手腕RGB图像、外部热成像图像、机器人状态向量及自然语言子任务提示。
  • 热成像数据处理:将原始热数据(256×192)归一化到室内温度范围(20-35°C),并映射到INFERNO伪彩色图,转换为可供模型学习的RGB格式图像。
  • VLM Planner 使用 Gemini 2.0 Flash,输入RGB-Thermal图像和结构化提示词,输出环境分析和分解后的子任务计划。
Card 05 数据集与资源

数据集与资源

  • 使用自建数据集,每个任务收集50个演示片段进行LoRA微调。
  • 数据集包含四部分:状态(7维)、动作(8维)、图像(RGB与热成像同步于15Hz)、任务提示。
  • 实验平台为 7-DoF Kinova Gen3 Lite机械臂,配备两个RGB-D相机和一个热成像相机。
  • 训练与评估在20-35°C的室内环境中进行。
Card 06 评估与结果

评估与结果

  • 5个真实世界任务上评估:包括日常操作(如递送温水、冷可乐)和安全场景(如拾取过热电池、关闭加热直发器)。
  • 主要评估指标为任务成功率
  • 关键结果

- 与纯RGB输入的基线模型(RGB-RGB)相比,提出的RGB-T模型在热相关子任务上平均成功率从42%提升至82%

- 在50个训练片段下,RGB-T模型在多项任务上取得更高成功率,例如“关闭加热直发器”子任务成功率达90%(RGB-RGB为30%)。

- 层次化方法在复杂任务上表现远优于端到端学习的Flat VLA模型(后者成功率接近0%),证明了任务分解策略的有效性。