返回列表 VLA / Vision-Language-Action 每日论文卡

Hybrid Reasoning for Perception, Explanation, and Autonomous Action in Manufacturing

论文详情

Hybrid Reasoning for Perception, Explanation, and Autonomous Action in Manufacturing

2025-06-10 · 原文 · 翻译 · 2506.08462

论文提出 CIPHER 框架,这是一个用于工业控制的视觉-语言-行动模型,旨在复制人类在制造环境中的推理能力。 核心目标是解决现有AI控制系统在数据稀缺、环境多变的工业场景中泛化能力差、难以满足工程定量精度要求的问题。 该框架在一个商用级 3D打印系统 中实现,能够进行过程感知、决策解释和自主生成精确的机器指令。

5 分钟读完 6 张阅读卡 剑桥大学 工程系
一眼看懂 封面预览

论文提出 CIPHER 框架,这是一个用于工业控制的视觉-语言-行动模型,旨在复制人类在制造环境中的推理能力。

  • 论文提出 CIPHER 框架,这是一个用于工业控制的视觉-语言-行动模型,旨在复制人类在制造环境中的推理能力。
  • 核心目标是解决现有AI控制系统在数据稀缺、环境多变的工业场景中泛化能力差、难以满足工程定量精度要求的问题。
  • 该框架在一个商用级 3D打印系统 中实现,能够进行过程感知、决策解释和自主生成精确的机器指令。
Card 01 研究单位

研究单位

  • 剑桥大学 工程系
Card 02 论文概述

论文概述

  • 论文提出 CIPHER 框架,这是一个用于工业控制的视觉-语言-行动模型,旨在复制人类在制造环境中的推理能力。
  • 核心目标是解决现有AI控制系统在数据稀缺、环境多变的工业场景中泛化能力差、难以满足工程定量精度要求的问题。
  • 该框架在一个商用级 3D打印系统 中实现,能够进行过程感知、决策解释和自主生成精确的机器指令。
Card 03 核心贡献

核心贡献

  • 提出并实现了 CIPHER 混合推理框架,将视觉感知、自然语言理解与行动生成统一在同一个架构中。
  • 创新性地集成一个“过程专家”(一个卷积神经网络回归模型),解决了大型视觉-语言模型在工程定量回归任务(如流速预测)中精度不足的问题。
  • 引入 检索增强生成 技术,使系统能够访问外部专家知识,支持基于物理原理的思维链推理,从而提升对新颖、未知场景的适应能力和决策的可解释性。
  • 实现了从自然语言或图像提示到物理执行的端到端自主制造,展示了强大的跨分布任务泛化能力。
Card 04 方法描述

方法描述

  • 采用基于 Llama-3.2-11B-Vision 的视觉-语言-行动架构,通过跨注意力层集成视觉编码器和语言模型。
  • 核心创新是并行嵌入一个 ResNet-152 模型作为“过程专家”,它直接从视觉输入预测连续的定量参数(如流速),并将其结果注入到语言模型的解码过程中。
  • 使用 低秩适应 技术进行参数高效微调,在保持大部分预训练权重冻结的同时,使模型适应特定制造任务,有效防止了灾难性遗忘。
  • 通过 RAG 模块动态检索外部知识库(包含3D打印领域知识),增强模型在处理未知问题时的推理准确性。
Card 05 数据集与资源

数据集与资源

  • 使用自建数据集,包含超过一百万张安装在打印机喷头上的内窥镜图像,并与打印机的实时过程参数(作为标签)同步。
  • 将数值标签通过模板转换为结构化的自然语言描述,并使用改写增强以增加语言多样性。
  • 主模型基于 Llama-3.2-11B-Vision,过程专家使用 ResNet-152(1.16亿参数)。
  • 训练资源:在单个节点上使用 4块 NVIDIA A100-SXM-80GB GPU,训练时间为20小时。
Card 06 评估与结果

评估与结果

  • 在3D打印过程感知任务中,集成过程专家的模型(配置E2)将流速预测的平均绝对误差从82.92降低至 17.52,实现了工程级精度。
  • 在领域知识问答和物理思维链推理任务中,结合RAG的CIPHER模型性能接近 GPT-4o,且显著优于基线模型 LLaMA 3.2GPT-4o mini
  • 在自主控制生成任务中,CIPHER生成的G-code指令误差仅比基线MAE高出约1.2%,证明了其将概念转化为可执行行动的能力。
  • 在几何推理任务中,成功演示了从“打印一个锥体”等简单提示到复杂几何形状的全自主制造,展示了创造性问题解决能力。