智能工艺规划深度研究报告

智能工艺规划深度研究报告

从二维图纸/三维数模自动生成工艺文件及审核排错

生成日期:2026-05-05


1. 概述

根据二维图纸(DWG/DXF)或三维数模(STEP/IGES)自动生成工艺文件,以及对现有工艺图纸进行审核排错,是智能制造的核心场景之一。传统 CAPP(计算机辅助工艺规划)长期依赖规则引擎和人工知识编码,近年深度学习、图神经网络和多模态大语言模型(VLM/LLM)的突破为该问题提供了全新路径。


2. 技术路线全景

路线 A:传统规则/CAPP(知识工程驱动)

原理:通过工艺知识库(加工方法库、机床库、刀具库)和推理引擎,将零件特征映射为工艺方案。

优势:规则可解释、与行业标准高度一致。 局限:知识获取困难、覆盖不全、扩展性差。

路线 B:深度学习特征识别 → 工艺推理

原理:使用 CNN/ViT/GNN 自动识别图纸或 3D 模型中的加工特征,再基于特征推理工艺。

路线 C:多模态 LLM 端到端生成

原理:VLM 理解图纸图像 → LLM 推理工艺方案 → 生成工艺文档。结合 RAG 技术注入行业知识。

优势:通用性强、可处理自然语言交互、快速迭代。 局限:需要领域微调、推理精度受限、成本较高。

路线 D:混合方案(推荐)

确定性规则引擎 + AI 特征识别 + LLM 推理 + RAG 知识库,是当前最可行的落地架构。


3. 二维图纸智能理解

3.1 技术方案:混合 VLM 管道(2025 年最新突破)

核心论文:Khan et al. (2025) “From Drawings to Decisions: A Hybrid Vision-Language Framework” 提出三段式架构:

  1. 布局检测:YOLOv11-det 分割图纸区域(标题栏/视图区/标注区/明细表)
  2. 标注定位:YOLOv11-obb 检测方向边界框,提取 9 类标注(GD&T、尺寸、材料、表面粗糙度、技术要求等)
  3. 语义解析:Donut VLM(OCR-free)解析标注内容,输出结构化 JSON

性能:Donut 在测试集上达到 Precision 88.5%、Recall 99.2%、F1 93.5%。

3.2 GD&T 自动提取

Florence-2 微调方案(Khan et al., 2024, arXiv:2411.03707):

结论:小模型 + 领域微调 在工程图纸场景下显著优于大模型零样本推理。

3.3 OCR 工具选型对比

工具 图纸场景表现 适用场景 License
PaddleOCR 3.0 中英文混合识别优秀,PP-OCRv4 文档场景精度高 标题栏/明细表文字提取 Apache 2.0
Tesseract 工程图纸非标准字体表现弱,需预处理 常规文档 OCR Apache 2.0
Florence-2 VLM OCR-free 端到端解析,无需独立 OCR 标注区域语义理解 MIT

3.4 2D 标注到 3D 特征映射(2026 前沿)

核心论文:arXiv:2602.18296 “Context-Aware Mapping of 2D Drawing Annotations to 3D CAD Features”

提出 确定性优先 + VLM 升级 的混合框架:

  1. VLM 将图纸标注语义化(类型、数值、修饰符)
  2. 确定性评分器:类型兼容性 + 尺寸一致性 + 上下文一致性
  3. 低置信度时升级到 GPT-4o 多模态推理
  4. 最终人工审核(HITL)

实验结果:20 对 CAD-图纸组合,Precision 83.67%、Recall 90.46%、F1 86.29%。


4. 三维模型特征识别

4.1 BRep 表示与图神经网络

三维 CAD 模型的标准表示是 BRep(边界表示),天然适合用图结构建模:

4.2 主流模型对比

模型 架构 MFCAD 精度 参数量 特点
UV-Net UV参数空间+图拓扑 99.9% 1.23M 首个直接在BRep上操作的模型
BRepNet 拓扑消息传递 97.5% 1.8M 首创topological walks
CADNet 层次图CNN 99.9% 0.53M 仅用平面面方程,高效
Hierarchical CADNet 层次图+边信息 99.9% 6.6M 同时利用面和边特征
BRepGAT 图注意力网络 ~99% - 注意力机制可解释性强
BrepMFR GAT+Transformer - - 2024年最新,增强泛化
BRepFormer Transformer架构 - - 2025年4月发布,支持复杂特征

4.3 模型输入表示方式对比

表示方式 精度损失 适用模型 与CAD系统兼容性
BRep 直接输入 BRepNet, UV-Net, CADNet 紧耦合,保留原始拓扑
点云 中等 PointNet++, DGCNN 离散化,丢失精确几何
体素 3D-CNN 分辨率受限,显存占用大
网格 中等 MeshCNN 三角面片近似

4.4 STEP 文件解析技术栈

STEP 文件 (ISO 10303)
  ↓
OpenCascade (C++) / pythonOCC (Python)
  ↓
BRep 拓扑树:Shape → Compound → Solid → Shell → Face → Wire → Edge → Vertex
  ↓
每个几何元素附带精确数学描述(NURBS曲线/曲面、平面、圆柱面等)
  ↓
输入 GNN 模型进行特征识别

关键 APITopExp_Explorer 遍历拓扑,BRepAdaptor_Surface 获取面参数,STEPConstruct 提取装配结构。


5. LLM/VLM 驱动的工艺生成

5.1 MechRAG 系统(2025)

论文:Nature Communications Engineering “MechRAG: a multimodal large language model for mechanical engineering”

5.2 Text-to-CAD → CAD-to-Process

CADSmith(arXiv:2603.26512)多 Agent 管道:

  1. LLM 将自然语言描述转为 CadQuery 代码
  2. OpenCASCADE 内核执行并验证几何
  3. VLM Judge 评估三视图渲染结果
  4. Refiner Agent 闭环修正

5.3 RAG 工艺知识库架构

企业工艺知识库(历史工艺卡、GB/JB标准、切削参数手册)
  ↓
文档分块 + 向量化(embedding model) + 知识图谱(GraphRAG)
  ↓
用户输入:零件特征/材料/精度要求
  ↓
相似度检索 + 知识图谱推理 → 相关工艺案例
  ↓
LLM 生成:工艺路线 + 工序参数 + 工时定额
  ↓
结构化输出:工艺路线卡/工序卡/检验卡

GraphRAG 优势(Microsoft Research):通过知识图谱连接实体关系,支持多跳推理,特别适合工艺参数之间的依赖关系推理。


6. 图纸审核与错误检测

6.1 审核维度

审核类型 检测内容 技术方案
GD&T 合规性 符号语法、基准引用、修饰符正确性 VLM 检测 + 规则引擎校验
尺寸完整性 缺尺寸、冗余尺寸、过约束 尺寸链分析 + 优化求解器
公差合理性 公差与加工工艺不匹配、累积超差 公差分析软件(RD8、Autodesk Tolerance Analysis)
标注规范性 表面粗糙度符号、焊接符号是否符合 GB/T YOLO 目标检测 + 规则检查
2D-3D 一致性 2D 图纸与 3D 模型是否矛盾 2D-3D 特征映射 + 尺寸对比

6.2 商业工具链

工具 厂商 核心能力
MBD Checker SigmaMax Creo 内 GD&T 规则校验,支持 ASME/ISO
EVOLVE Design KOTEM GD&T 语法/语义证明,内置 ASME/ISO 标准参考
RD8 RD8 Tech 约束优化,X-ray 分析过约束,GD&T 精简
SOLIDWORKS Inspection Dassault OCR 读取图纸标注 → FAI 首件检验
Autodesk Tolerance Analysis Autodesk 最坏情况/RSS/统计分析,输出 Cpk/Σ/DPMO

6.3 AI 审核前沿


7. 工具链与开源生态

7.1 二维图纸解析

工具 语言 功能 License
ezdxf Python DXF R12-R2018 全版本读写,EntityQuery DSL MIT
ODA SDK C++/C#/Java DWG 读写,高性能,完整实体访问 商业(会员制)
LibreDWG C GNU DWG 库,支持 R13-R2018 GPL-3.0
dxflib C++ 轻量 DXF 读写 GPL-2.0

7.2 三维模型处理

工具 语言 功能 License
pythonOCC Python OpenCascade Python 绑定,完整 OCCT API LGPL-2.1
FreeCAD API Python/C++ 参数化建模 + Python 脚本自动化 LGPL-2.1
cadunpack Python STEP 装配体遍历 + 钣金展开 + DXF 输出 MIT
trimesh Python STL/OBJ/GLTF 网格处理 BSD-3

7.3 AI 模型与框架

工具 用途 来源
PaddleOCR 3.0 图纸 OCR(中英文混合) 百度
Florence-2 图纸标注检测+解析(0.23B VLM) 微软
Donut OCR-free 文档理解 韩国国立大学
YOLOv11-obb 方向边界框标注检测 Ultralytics
vLLM Florence-2 等 VLM 推理部署 vLLM 社区

7.4 CAPP/工艺规划开源框架

项目 功能 License
SAMPO 自适应制造调度(遗传+多Agent算法) BSD-3
PyCAALP 装配序列+产线规划(MIP优化) MIT
CaSkade-Planner 基于能力的工艺规划(SMT求解) MIT
FreeCAD-APLAN FreeCAD 装配序列规划插件 LGPL-2.1

7.5 STEP-NC 标准

ISO 14649(STEP-NC) 是 CAD/CAM/CNC 之间的高层数据交换标准,支持:

工具:StepTools STEP-NC API 支持 Fanuc/Haas/Siemens 等控制器 G 代码生成。


8. 落地案例与市场格局

8.1 商业 CAPP 系统对比

系统 厂商 核心能力 生态
Teamcenter MPP Siemens 3D工艺规划+MBD工艺标注 深度集成 NX + Teamcenter PLM
DELMIA Dassault 数字化制造+工艺仿真 3DEXPERIENCE 平台
Windchill MPMLink PTC MBD工艺+BOM管理 Creo + Windchill
开目 CAPP 开目软件 二维/三维工艺规划+知识库 国产,符合JB/T标准
CAXA 工艺 数码大方 工艺卡片模板定制 与CAXA CAD集成
华天 InforCenter 华天软件 PLM+工艺设计管理 IDC汽车零部件TOP1

8.2 中国市场实践

海智在线(工业零部件数字化平台):

上汽通用(机械加工工艺智能开发):

宁波”4M”路径(2025年度制造业数字化转型典型案例):

8.3 政策驱动


9. 实施建议与路径

9.1 技术选型矩阵

场景 推荐方案 技术栈
2D图纸→结构化信息 VLM 管道 YOLOv11-obb + Florence-2/Donut 微调
3D模型→加工特征 GNN 特征识别 pythonOCC + BRepNet/UV-Net
工艺文件生成 RAG + LLM GraphRAG + GPT-4o/Claude + 工艺知识库
图纸审核排错 规则引擎 + VLM 确定性规则 + VLM 检测 + RD8/EVOLVE

9.2 分阶段实施路径

Phase 1(3-6个月):2D 图纸结构化

Phase 2(6-9个月):工艺推理引擎

Phase 3(9-12个月):3D 特征识别

Phase 4(12个月+):审核排错闭环


10. 关键挑战

  1. 数据集匮乏:高质量带标注 CAD/工艺数据集稀缺,公开数据集(Fusion 360、MFCAD)规模有限
  2. 特征交互:实际零件加工特征交叉重叠,分解为独立加工操作是 NP-hard 问题
  3. 知识形式化:加工经验(如”深孔需分次钻削”)难以用规则完全覆盖
  4. DWG 格式壁垒:Autodesk 私有格式,依赖 ODA SDK(商业授权)
  5. 端到端集成:多模块(解析→识别→推理→生成)接口标准化复杂

参考文献索引

学术论文

  1. Khan et al. (2025). From Drawings to Decisions: A Hybrid Vision-Language Framework for Parsing 2D Engineering Drawings. arXiv:2506.17374

  2. Khan et al. (2024). Fine-Tuning Vision-Language Model for Automated Engineering Drawing Information Extraction. arXiv:2411.03707

  3. arXiv:2602.18296 (2026). Context-Aware Mapping of 2D Drawing Annotations to 3D CAD Features Using LLM-Assisted Reasoning

  4. arXiv:2602.13345 (2026). BLUEPRINT: A Layout-Aware Multimodal Retrieval Framework for Engineering Documents

  5. arXiv:2603.26512 (2026). CADSmith: A Multi-Agent Pipeline for Text-to-CAD Generation

  6. arXiv:2504.07378 (2025). BRepFormer: Transformer-Based B-rep Geometric Feature Recognition

  7. MechRAG: a multimodal large language model for mechanical engineering. Communications Engineering, Nature, 2025

  8. Lambourne et al. (2021). BRepNet: A Topological Message Passing System for Solid Models. CVPR 2021

  9. Jayaraman et al. (2021). UV-Net: Learning from Boundary Representations. CVPR 2021

  10. Cao et al. (2020). Graph Representation of 3D CAD Models for Machining Feature Recognition with Deep Learning. ASME IDETC 2020

  11. Moriya et al. (2024). Graph Neural Network-Based Finite Element Feature Recognition from B-rep Model. CAD Journal, 21(6)

  12. Document GraphRAG: Knowledge Graph Enhanced Retrieval Augmented Generation for Document Question Answering Within the Manufacturing Domain. Electronics, 2025

开源工具

  1. ezdxf — Python DXF library: https://github.com/mozman/ezdxf
  2. pythonOCC — OpenCascade Python binding: https://github.com/tpaviot/pythonocc
  3. cadunpack — STEP assembly extraction: https://pypi.org/project/cadunpack/
  4. PaddleOCR 3.0 — OCR toolkit: https://github.com/PaddlePaddle/PaddleOCR
  5. Florence-2 — Unified Vision Foundation Model: https://github.com/microsoft/Florence
  6. SAMPO — Adaptive manufacturing scheduling: https://github.com/aimclub/SAMPO
  7. PyCAALP — Assembly sequence & line planning: https://github.com/TUM-utg/PyCAALP
  8. CaSkade-Planner — SMT-based process planning: https://github.com/CaSkade-Automation/CaSkade-Planner
  9. FreeCAD-APLAN — Assembly planning in FreeCAD: https://github.com/martcram/FreeCAD-APLAN
  10. Open CASCADE Technology: https://dev.opencascade.org/
  11. LibreDWG — GNU DWG library: https://www.gnu.org/software/libredwg/
  12. trimesh — Mesh processing: https://github.com/mikedh/trimesh

商业软件

  1. Siemens Teamcenter MPP: https://plm.sw.siemens.com/en-US/teamcenter/
  2. Dassault DELMIA: https://www.3ds.com/products-services/delmia/
  3. PTC Windchill MPMLink: https://www.ptc.com/en/products/windchill/mpmlink
  4. ODA SDK (Open Design Alliance): https://www.opendesign.com/
  5. 开目 CAPP: https://www.kmsoft.com.cn/
  6. MBD Checker (SigmaMax): https://www.sigmaxim.com
  7. EVOLVE Design (KOTEM): https://www.kotem.com/products/evolve-suite/
  8. RD8 Tolerance Analysis: https://www.rd8.tech/software

标准与规范

  1. ISO 10303 (STEP) — Product data representation and exchange
  2. ISO 14649 (STEP-NC) — Data model for CNC controllers
  3. ASME Y14.5 — GD&T standard
  4. ISO 1101 — Geometric tolerancing standard

中国政策与行业报告

  1. 工信部《“人工智能+制造”专项行动实施意见》, 2025
  2. 国务院《关于深入实施”人工智能+“行动的意见》, 2025
  3. 宁波市《2025年度制造业数字化转型典型案例集》, 中国信通院
  4. 华为《工业数字化/智能化-2030》: https://www-file.huawei.com/admin/asset/v1/pro/view/7ffffa5fa5e7469692d4704b92ef17d7.pdf

报告基于公开学术资源和技术文档整理,具体商业软件功能以厂商最新发布为准。