Hybrid Reasoning for Perception, Explanation, and Autonomous Action in Manufacturing

论文详情

Hybrid Reasoning for Perception, Explanation, and Autonomous Action in Manufacturing

2025-06-10 · 原文 · 翻译 · 2506.08462

论文提出 CIPHER 框架，这是一个用于工业控制的视觉-语言-行动模型，旨在复制人类在制造环境中的推理能力。核心目标是解决现有AI控制系统在数据稀缺、环境多变的工业场景中泛化能力差、难以满足工程定量精度要求的问题。该框架在一个商用级 3D打印系统中实现，能够进行过程感知、决策解释和自主生成精确的机器指令。

5 分钟读完 6 张阅读卡剑桥大学工程系

一眼看懂封面预览

论文提出 CIPHER 框架，这是一个用于工业控制的视觉-语言-行动模型，旨在复制人类在制造环境中的推理能力。

论文提出 CIPHER 框架，这是一个用于工业控制的视觉-语言-行动模型，旨在复制人类在制造环境中的推理能力。
核心目标是解决现有AI控制系统在数据稀缺、环境多变的工业场景中泛化能力差、难以满足工程定量精度要求的问题。
该框架在一个商用级 3D打印系统中实现，能够进行过程感知、决策解释和自主生成精确的机器指令。

Card 01 研究单位

研究单位

剑桥大学 工程系

Card 02 论文概述

论文概述

论文提出 CIPHER 框架，这是一个用于工业控制的视觉-语言-行动模型，旨在复制人类在制造环境中的推理能力。
核心目标是解决现有AI控制系统在数据稀缺、环境多变的工业场景中泛化能力差、难以满足工程定量精度要求的问题。
该框架在一个商用级 3D打印系统 中实现，能够进行过程感知、决策解释和自主生成精确的机器指令。

Card 03 核心贡献

核心贡献

提出并实现了 CIPHER 混合推理框架，将视觉感知、自然语言理解与行动生成统一在同一个架构中。
创新性地集成一个“过程专家”（一个卷积神经网络回归模型），解决了大型视觉-语言模型在工程定量回归任务（如流速预测）中精度不足的问题。
引入 检索增强生成 技术，使系统能够访问外部专家知识，支持基于物理原理的思维链推理，从而提升对新颖、未知场景的适应能力和决策的可解释性。
实现了从自然语言或图像提示到物理执行的端到端自主制造，展示了强大的跨分布任务泛化能力。

Card 04 方法描述

方法描述

采用基于 Llama-3.2-11B-Vision 的视觉-语言-行动架构，通过跨注意力层集成视觉编码器和语言模型。
核心创新是并行嵌入一个 ResNet-152 模型作为“过程专家”，它直接从视觉输入预测连续的定量参数（如流速），并将其结果注入到语言模型的解码过程中。
使用 低秩适应 技术进行参数高效微调，在保持大部分预训练权重冻结的同时，使模型适应特定制造任务，有效防止了灾难性遗忘。
通过 RAG 模块动态检索外部知识库（包含3D打印领域知识），增强模型在处理未知问题时的推理准确性。

Card 05 数据集与资源

数据集与资源

使用自建数据集，包含超过一百万张安装在打印机喷头上的内窥镜图像，并与打印机的实时过程参数（作为标签）同步。
将数值标签通过模板转换为结构化的自然语言描述，并使用改写增强以增加语言多样性。
主模型基于 Llama-3.2-11B-Vision，过程专家使用 ResNet-152（1.16亿参数）。
训练资源：在单个节点上使用 4块 NVIDIA A100-SXM-80GB GPU，训练时间为20小时。

Card 06 评估与结果

评估与结果

在3D打印过程感知任务中，集成过程专家的模型（配置E2）将流速预测的平均绝对误差从82.92降低至 17.52，实现了工程级精度。
在领域知识问答和物理思维链推理任务中，结合RAG的CIPHER模型性能接近 GPT-4o，且显著优于基线模型 LLaMA 3.2 和 GPT-4o mini。
在自主控制生成任务中，CIPHER生成的G-code指令误差仅比基线MAE高出约1.2%，证明了其将概念转化为可执行行动的能力。
在几何推理任务中，成功演示了从“打印一个锥体”等简单提示到复杂几何形状的全自主制造，展示了创造性问题解决能力。