【干货分享】大数据驱动的智能车间运行分析与决策方法体系

2018-02-08 08:56
浏览量: 收藏:0 分享

作者简介: 张洁,东华大学机械工程学院院长、教授、博士生导师。曾为上海交通大学机械与动力学院智能制造与信息工程研究所副所长、教授,在工业大数据智能挖掘分析与决策、智能制造系统的优化调度与控制等方面研究深入,在业界具有较高知名度。

【小编导读】 这是一篇针对智能车间制造大数据分析与应用的专业文章,作者用体系、全面、通俗易懂的语言描述了大数据驱动下的车间运行分析与决策方法体系,包括大数据预处理与分析方法、车间运行状态预测方法及车间运行状态决策方法等,对实现大数据驱动的智能工厂有重要借鉴价值。

1 引言

随着信息化和自动化技术的飞速发展,特别是数控机床、传感器、数据采集装置和其他具备感知能力的智能设备在离散车间底层的大量使用,车间生产从自动化、数字化向智能化发展。智能车间的制造数据呈现出典型的大数据“3V”特性,即规模性(Volume)、多样性(Variety)和高速性(Velocity),具体体现在:

1)规模性——以半导体制造为例,单片晶圆质量检测时每个站点能生成几MB数据,一台快速自动检测设备每年可以收集到将近2TB的数据,500台设备规模的晶圆制造车间每年可以收集102TB级别的数据;

2)多样性——车间生产涉及来自不同的系统的设备运行参数、产品加工时间等结构化数据,产品BOM结构表、数控程序等半结构化数据,以及三维模型、检测图像等非结构化数据,具有完全不同的数据结构;

3)高速性——车间生产运行中产生的大量数据来自于PLC控制器、传感器和其他智能感知设备对制造过程的不断采样,这些数据的采样间隔短,按时间序列大量涌入数据库中,以晶圆刻蚀设备为例,反应腔传感器按0.1s的采集间隔不断产生温度、压力、流量等各种监控数据。

此外,由于智能车间中性能指标多样、生产方式多变、随机扰动频发、生产环境开放,车间制造大数据还体现出了高维度、多尺度、不确定和高噪声等其他特性。从范围上,车间制造大数据包括了从车间现场到车间管理所有生成、交换和集成的数据,包含了所有制造相关的业务数据和衍生附加信息。从作用上,车间制造大数据对车间运行过程进行全面描述,任何数据的变化都可能改变车间运行过程,影响车间运行性能,是进行车间运行分析与决策是重要依据。

在“大数据”概念出现之前,车间生产过程的运行分析与决策主要依赖准确模型以及高效算法提高产品质量、生产效率等车间性能,是机械工程学科研究的热点之一。以生产调度决策过程为例,为得到良好的调度方案,首先分析调度参数与调度目标之间的因果关系,建立合适的数学模型来描述调度问题,包括约束、目标等;然后针对该模型设计相应的算法求解。当问题规模较小时,通常可以用数学方法求得精确解;但问题规模较大时,往往需要针对问题特性,设计精妙智能算法来得到近似优化解。因此,针对复杂系统的调度问题能否得到更好的解决,极大地取决于建模是否更加精确和算法是否更加高效。但是随着智能车间中产品需求和工艺越来越多样,调度问题变得越来越复杂,传统的“因果+建模+算法”模式已经难以应对。

在大数据背景下,存在着利用大数据挖掘量化数据值之间数理关系,以更容易、快捷、清楚地分析事物间的内在联系,为人们观察并分析事物提供新的视角的可能。并且由于数据越来越丰富,数据本身保证了数据分析结果的有效性,即如果拥有足够多的数据,可以不依赖于精准模型和精妙算法,在不完全了解具体因果关系情况下获得接近事实的问题结论。例如,谷歌并未探究病毒在时域与地域上的传播机理,仅仅根据网民搜索内容分析全球范围内流感等病疫传播情况,对这些数据进行统计分析,就能实现对传染性疾病进行高精准(97%-98%)的追踪和预报。PatientsLikeMe并不分析诊疗方案与病患医治效果之间、以及制药行业的药品研发与病患医治效果之间的因果关系,而是将大量用户的数据集合起来,探究病患、医疗行业、制药行业数据之间的关联关系,对病患就医方式和药品销售情况进行预测,从而为医疗行业的诊疗方案制定、制药行业的药品研发及销售计划制定提供决策支持。以上案例基于大数据处理和分析,通过预测和控制模式帮助做出合理决策,彻底改变了人们对于建模和算法的依赖,在公共卫生、金融、医疗等社会领域已有一些先驱应用,引发了企业对大数据的重视,开始将其视为新的资源要素、宝贵的企业资产。

在制造领域,如何利用以上大数据思维,从智能车间生产过程中产生的海量数据中挖掘有价值信息,指导车间运行优化,近年来引起了学术界和工业界的极大关注。2013年6月20日,通用电气(GE)在美国旧金山宣布推出第一个大数据分析平台,管理云中运行的由大型工业机器所产生的数据。该平台通过提供实时数据管理,通过即时分析海量原始数据,并能灵活地将分析结果与其他现有工业数据流互动和对比,目的是从云端大数据中提取有用信息,支持实时决策,让全球重要行业能够从被动的工业运营模式转向主动预测模式。戴尔全球采购部执行总监Charla Serben认为,利用大数据分析工具,最大的优势在于很早就能有一定的预见性,可以发现生产相关数据和最终运营性能之间的任何关联关系,这样可以将任何可能发生的问题在源头上杜绝。中科院撰写的《中国至二〇五〇年先进制造科技发展路线图》指出:“随着工业无线网络、传感器网络、无线射频识别、微电子机械系统等技术的成熟,人们由现在对制造设备与制造过程的‘了解不足’,向三维空间加时间的多维度、透明化泛在感知发展,这也成为新一代先进制造技术发展的核心驱动力”。

基于以上背景,本文针对智能车间的运行分析与决策问题展开研究,提出大数据驱动的车间运行分析与决策新模式,以及实现新模式的方法论体系与具体技术体系,帮助车间运行向性能优化目标不断演化。

2 大数据驱动下车间运行分析与决策新模式

国家自然科学基金委员会发布的《机械工程学科发展战略报告(2011-2020)》中指出,“高精度数字化制造技术的发展依赖制造过程的数字化描述、工艺参数对产品性能的影响规律、制造过程中物质流、信息流、能量流的传递规律与定量调控等方面的基础研究”。这些基础科学问题一直是车间运行优化领域的研究重点,而随着大数据时代的到来,以上内容能够更加深层次地发掘车间运行规律,这些规律可以降低我们对模型精确度与算法复杂度的依赖,甚至构建出全新模型,在此基础上通过对规律相关参数的合理定量调控,帮助实现车间运行过程的准确决策。

具体以晶圆制造车间中的晶圆良率优化为例,对晶圆良率数据存在影响的晶圆制造数据包括了机台加工数据、缺陷分布数据、电性测试数据等,这些数据即包括了机台加工数据等以表格形式存在的结构化数据,也包括了缺陷分布数据等以扫描图片形式存在的非结构化数据,以及测试数据等一些以报告形式存在的半结构化数据。传统晶圆良率优化方式是基于人工经验从机台加工数据等结构化数据中选取少量关键参数作为决策输入,通过有限历史数据训练神经网络等良率预测模型,最后由工程师基于经验规划优化措施。而在大数据环境下,可以通过数据预处理手段从海量高速的晶圆制造数据中抽取正确可靠的历史数据,聚类面向质量主题的非关系型数据仓库对以上多样化数据进行存储与组织,并通过数据挖掘以关联规则和相关系数等形式分析认知晶圆质量相关数据之间的关联关系,例如可以发现机台加工数据影响缺陷分布数据所属模式、缺陷分布模式影响电性测试数据的显著波动,从而认知车间生产过程中科学运行的内在规律。然后可以利用深度神经网络等机器学习方法,基于海量历史数据构建以机台加工数据为输入层、多级缺陷分布数据和电性测试数据为隐藏层、晶圆良率数据为输出层的复杂结构深度神经网络,利用各层之间的连接关系对数据之间的相关性系数进行描述,实现车间运行规律知识的描述与表达,从而可以根据机台加工数据对晶圆良率进行准确预测。最后建立科学控制机制,例如针对晶圆良率优化目标,对如何控制电性测试数据水平、如何避免某些特定缺陷分布、如何设定与监控机台加工数据做出定量反馈调控规划,使车间性能向优化方向发展。

以上示例在智能制造车间内的基本思路如图1所示,首先基于大数据思维,将设备状态参数、计划执行情况等运行参数,以及质量、交货期等性能指标数据化,通过聚类、序列模式挖掘、关联等算法分析这些数据之间的关联关系;然后通过数据挖掘手段获取交货准时率、产品合格率等车间性能在设备状态、运行过程等参数影响下的演化规律,建立性能预测模型;最后基于控制理论,从演化规律中找到关键参数进行定量控制,保证性能达到要求。在以上思路中,形成了大数据驱动的“关联+预测+调控”的决策新模式,其中:

(1)“关联”是指通过车间制造数据的关联分析,发现隐藏其间的关系。需要在清洗、分类与集成等制造数据预处理基础上,构建制造数据时序模型并挖掘序列模式,在此基础上实现不同制造数据的关联分析,挖掘数据之间的影响规律。

(2)“预测”是指利用关联分析结果,描述车间制造过程与性能指标内在关系。需要将车间性能指标数据化,通过建立模型描述车间运行过程数据对性能指标数据的影响规律,实现车间性能预测。

(3)“调控”是指基于车间性能预测模型,找到车间运行过程的关键制造参数进行控制。需要确定影响质量控制、交货期控制的关键参数,运用规律知识建立针对产品合格率、交货准时率等性能指标的科学调控机制。

图1 利用大数据解决智能车间运行分析与决策问题的新思路

3 大数据驱动下车间运行分析与决策方法论体系

通过对“关联+预测+调控”的决策新模式的讨论可知,利用大数据解决智能车间运行分析与决策需要实现车间数据预处理与分析、车间运行分析与性能预测以及车间运行决策与性能优化。但是,当前车间数据处理与分析多只针对有限的结构化数据,随着大数据环境下智能车间数据中半结构化、非结构化数据所占的比例越来越高,海量高维数据难以实现有效分类与重复利用,并且数据的时变规律呈现多尺度特征,数据之间关联关系愈发复杂多样,车间制造数据的预处理与分析方法需要进一步细化与深入研究。而当前车间运行分析方法主要集中于排队论模型、Petri网和马尔科夫模型等精确建模方法,通过建立系统性能与参数间的因果关系实现性能预测,随着制造系统越来越复杂这些方法开始遇到“维数灾难”难题,无法准确描述系统的全部特性,如何通过数据关联关系学习与建模,根据制造数据时变特性探究车间性能的演化规律,弱化对制造系统模型的依赖,成为车间运行分析的主要任务。并且在车间运行决策方面,现有方法存在模型和算法复杂度过高、通用性较差等特点,需要在车间运行分析与性能预测基础上,建立工艺、设备、系统等数据对车间复杂运行过程的科学调控机制,实现车间性能优化。根据以上分析,本文提出如图2所示“关联+预测+调控”新模式下车间运行分析与决策方法论体系:在智能车间中从智能设备、智能机床、智能终端等获取车间大数据的基础上,通过车间制造数据预处理方法、车间制造数据时序分析方法与车间制造数据关系网络建模方法实现“关联”过程;通过车间运行状态预测方法实现“预测”过程;通过车间运行决策方法实现“调控”过程。

图2 大数据驱动下车间运行分析与决策的方法论体系

(1)车间制造大数据预处理方法

车间在运行过程中产生制造数据具有海量、高维、多源异构、多尺度、高噪声等特性,这些数据难以直接用于运行过程的分析决策,车间制造大数据预处理方法主要针对以上特点,通过对制造数据的清洗去噪、建模集成与多尺度分类等操作,为车间运行分析与决策提供可靠、可复用数据资源。

(2)车间制造大数据时序分析方法

车间制造大数据时序分析方法针对车间制造数据的时序特性,建立车间运行过程多维数据的时间序列模型,设计制造数据的时间序列模式挖掘算法,揭示制造数据随时间的变化规律。

(3)车间制造大数据关系网络建模方法

产品、工艺、装备、系统运行等制造数据相互影响,使得车间生产过程呈现出复杂的运行特性。车间制造大数据关系网络建模方法在对工艺参数、装备状态参数等制造数据应用关联分析等数据挖掘算法基础上,利用复杂网络等理论描述制造数据之间的关联规则、相关系数。

(4)车间运行状态预测方法

车间运行状态预测方法针对车间运行的时变特性,根据制造数据时序模式分析车间制造系统内部结构的动态特性与运行机制,学习与运用车间性能的演化规律,完成车间性能精确预测。

(5)车间运行状态决策方法

车间运行决策方法在车间运行分析的基础上,将车间性能的预测值与目标决策值进行实时比对,通过关键制造数据的科学调整实现车间性能优化,例如产品质量智能决策方法和制造系统智能调度方法。

4 大数据驱动下车间运行分析与决策方法技术体系

依据大数据驱动下车间运行分析与决策方法论体系,本文继续对以上方法论在实现“关联+预测+调控”新模式过程中所需用到的关键技术展开讨论,从而形成如图3所示的大数据驱动下车间运行分析与决策技术体系。其中大数据基础服务作为重要基础研究工作,需要完成平台组建、数据导入、应用开发等相关部署与实施工作,目前已在某晶圆制造车间利用大数据技术完成了相关工作:使用4台服务器组建了Hadoop硬件集群,配置了工作网络;基于Hadoop框架搭建了大数据基础服务平台;利用MapReduce提供数据分布式处理服务;利用HDFS提供半结构化和非结构化数据存储服务;使用Sqoop从车间MES、FDC、MDC等现有系统的关系型数据库中导入结构化数据,并存储于HBase中;调用Mahout对平台中数据进行了主成分分析、聚类等分布式处理、分析和挖掘;使用GraphX进行图形化展示。在这些工作的基础上,下面对技术体系中五个层次涉及的各项关键技术展开详细讨论。

图3 大数据驱动下车间运行分析与决策技术体系

4.1 海量高维多源异构制造数据预处理技术

海量高维多源异构制造数据预处理技术包括过滤规则多级组合优化、基于本体论的数据统一建模和基于字典学习的多维视图构建,分别实现车间制造数据的清洗去噪、建模集成与多尺度分类,如图4所示。

过滤规则多级组合优化的数据清洗:智能车间运行过程中存在多个维度的噪声干扰,如在可重入的晶圆制造中刻蚀腔槽深度数据采集的信道噪声属于产品质量、设备精度范围与系统空间三个维度,因此需要在定义空值、非法值、不一致数据与相似重复记录的检测与处理规则以构建传统的数据过滤器基础上,进一步研究过滤规则的多级优化组合方式,分析多级过滤器的不同组合对数据质量的影响,通过多级过滤结构优化实现车间制造大数据清洗,提高数据可信度。

基于本体论的数据建模集成:智能车间制造数据同时存在多源异构特点,如非结构化的晶圆热氧化系统CAD图、半结构化的刻蚀机维修表单与结构化的单晶硅供应清单,因此需要基于本体论提出面向全局的车间制造数据模型与关系描述,通过本体构建定义数据的多维度语境与相应度量值,并在数据集成中间件中转换为全局数据模型,特别需要建立对半结构化和非结构化数据的结构化文本描述手段,以实现对结构化、半结构化与非结构化制造数据的统一建模。

基于字典学习的多维视图构建:智能车间运行分析与决策存在制造数据复用需求,如晶圆光刻的对焦精度数据既需要在晶圆质量控制时使用也需要在调度优化中考虑晶圆重入时使用,考虑在多维数据库中存在大量稀疏矩阵,需要建立制造大数据的稀疏表示框架,提出维度成员字典的在线学习方法,根据指定尺度下的维度成员分布对数据进行按列簇聚类,以快速建立车间制造数据的多维分类视图,为车间运行分析与决策具体应用提供支持。

图4 海量高维多源异构制造数据预处理技术

4.2 动态制造数据多尺度时序分析技术

动态制造数据多尺度时序分析技术包括时序数据集的增量式多维索引、时序模型多尺度转换方法和不规则波动下数据时变规律分析,如图5所示。

时序数据集的增量式多维索引:车间制造数据的可视化展示与统计分析需要实现数据时序集合的快速索引,如索引得到某批次晶圆在某台刻蚀机上干法刻蚀时温度传感器测到的空气温度的度量值集合,因此需要通过R-tree局部索引与CAN覆盖网络全局索引的结合,建立RT-CAN索引方法,并且进一步与增量式索引更新器相结合,实现在车间制造数据多维分类视图中对数据时间序列的快速索引,建立制造数据时序模型。

时序模型多尺度转换:车间制造数据时序模型需要在不同时间尺度之间转换以满足不同时间跨度的统计分析与模式挖掘需求,如按秒度量的刻蚀机空气温度与按小时级时间尺度测量的晶圆刻蚀腔槽深度之间的统计分析,因此需要采用多网格蒙特卡罗方法,建立时序数据集的小尺度离散化与大尺度均匀化过程,根据目标尺度构建新的时序数据集,实现时序模型在不同时间尺度间的转换。

不规则波动下数据时变规律分析:针对智能车间随机性事件频发导致的时序数据集中普遍存在的不规则波动,如光刻机故障、晶圆刻蚀缺陷等导致的晶圆产出率波动,需要基于小波变换获取动态制造数据时序模型的频域谱,通过设置合适的过滤阀值提取不失真小波基,获得平稳时序模型,进一步对其进行序列模式挖掘,确定数据在时间维的变化规律。

图5 动态制造数据多尺度时序分析技术

4.3 制造大数据的关系网络建模与关联分析技术

制造大数据的关系网络建模与关联分析技术包括车间制造数据关联关系描述、数据关系网络建模和 数据的关联分析,如图6所示。

数据关联关系描述:车间制造数据产品、工艺、装备、系统运行等制造数据相互影响,如硅片尺寸数据、刻蚀工艺数据会对晶圆良率数据可能产生影响,因此需要在海量高维数据多尺度分类方法和动态制造数据时序分析方法的基础上,设计针对不同类型制造数据的时间序列尺度归一化算法,并研究关联关系的定义、分类及描述方法,构建数据关联关系描述模型。

数据关系网络建模:为对车间制造数据间可能的相互影响进行全面描述,如若干工艺参数误差的累积效应对晶圆良率数据的影响,基于车间制造系统在拓扑结构上与复杂网络相的相似性,建立不同类型制造数据与复杂网络节点之间的映射关系,设计数据时序变化在复杂网络模型中的数学描述方法,以及产品、工艺、装备、系统等制造数据时序变化向复杂网络节点集聚、消散、衰亡、派生等行为的映射规则,获得基于复杂网络的制造数据关系网络模型。

数据的关联分析:针对车间制造数据间关联关系的直观表述需求,如明确工艺参数的何种组合变化会对晶圆良率数据产生何种影响,在制造数据关系网络模型分析网络节点间的边权分布、集聚程度等复杂网络特性,映射到车间制造系统,并设计Hadoop架构下基于FP-growth的关联分析算法,分析网络节点之间的同步机制,以量化车间制造数据时间序列之间的关联关系,揭示制造数据之间的相关性规律。

图6 制造大数据关系网络建模与关联分析技术

4.4 车间运行状态演化规律与预测技术

车间运行状态演化规律与预测技术包括车间性能统一评价、车间性能演化分析和基于误差反馈的车间性能预测,如图7所示。

车间性能统一评价:车间性能可以从产品、设备、运行等多个角度衡量,如产品合格率、设备利用率、日产出量、生产周期等,这些性能指标中,有些可以直接通过传感器或者智能感知设备获取,更多则是大量相互关联制造数据的统计表征,因此需要基于增量式多维索引方法,建立产品合格率、日产出量、生产周期等可以直接从智能设备获取的车间性能指标的语义表征,并基于制造数据关联分析算法,针对设备利用率等需要通过多元数据表征的车间性能指标建立统一描述方法。

车间性能演化分析:车间性能的演化是与之关联的制造数据协同作用的结果,例如原材料数据、工艺设计数据、加工过程数据等共同决定了晶圆良率数据,因此需要在制造数据时序分析和关联分析基础之上,通过神经网络、专家系统等手段学习和表述与车间性能存在关联关系的制造数据对车间性能的影响规律,从而根据制造数据的时序模式进一步挖掘车间性能演化规律。

基于误差反馈的车间性能预测:车间运行过程中广泛存在的动态扰动,如温度传感器的数据采集误差、设备加工良率预测误差,会极大影响晶圆良率等数据的预测精度,因此需要通过数据不规则波动的时序模式挖掘,分析数据不确定性的演化规律及其在在车间性能预测过程中的传播机制,从而采取基于误差反馈的车间性能修正机制实现车间性能准确预测。

图7 智能车间性能演化规律与预测技术

4.5 基于定量调控机制的车间运行决策技术

如图8所示,基于定量调控机制的车间运行决策技术的关键是基于PID自整定的车间运行调控。智能车间运行分析与决策的目标是实现车间性能优化,如通过工艺规范数据、设备加工数据控制实现晶圆良率优化,或通过订单优化级数据、设备组能力数据调整实现晶圆完工期优化等,因此需要运用制造过程大数据关联分析方法,将制造过程参数聚类为过程的输入输出、静态误差、冲击误差三类参数,分别作为比例控制、积分控制和微分控制的信号来源;利用前述车间运行状态预测方法,对车间未来状态进行预测,与车间调控目标比较,得出静态误差和冲击误差;利用协同粒子群算法,利用耦合分析将参数的不同调整方向作为目标搜索空间中的不同维度方向,将系统的误差作为粒子群优化算法的评价函数即适应度函数输入,根据粒子群的寻优结果,确定比例系数、积分时间和微分时间的大小,以消除车间运行调控过程中的稳态误差,改善系统振荡和失稳等动态特性。

图8 基于定量调控机制的车间运行决策技术

5 结束语

随着车间智能化程度不断提高,大量制造数据通过PLC控制器、传感器和智能设备得到感知。本文针对智能车间运行过程中所产生的海量、多源、高维、异构制造数据,考虑其动态和不确定特性,提出了大数据驱动下“关联+预测+调控”的车间运行分析与决策新模式。根据新的决策模式设计了包括车间制造数据预处理方法、车间制造数据时序分析方法、车间制造数据关系网络建模方法、车间运行状态预测方法和车间运行决策方法的智能车间运行分析与决策方法论体系。在此基础上,提出了实现大数据驱动的智能车间运行分析与决策的技术体系,重点讨论了海量高维多源异构制造数据预处理、动态制造数据多尺度时序分析、制造数据关系网络建模与关联分析、车间运行状态演化规律与预测与基于定量调控机制的车间运行决策等关键技术。本文工作可以帮助制造企业提高生产效率、提升产品质量、降低生产成本、提高响应速度,从而最大限度地满足用户多样的需求、提高客户满意度,对最终实现大数据驱动的智能工厂具有重要意义。

(备注:张洁教授为本文第一作者,其他作者还有高亮、秦威、吕佑龙、李新宇等)

标签:

责任编辑:何黑炭
在线客服