技术文章及通讯

大数据集的回归策略

作者:James C. Cross III, MathWorks


工厂操作员和工程师使用档案数据来深入了解工艺参数和产品属性之间的关系。本研究解释了在数据集大于机器内存的情况下,预测模型的创建及其在工厂盈利能力提高方面的应用。

数据集

利用MATLAB对氨生产过程进行建模®.在这个过程中,氮气和氢气混合,预热,并在压力下进入催化反应器;然后对反应器出口混合物进行冷却,以冷凝氨产品,然后提取氨产品;未反应气体被回收。工厂配置及其主要控制设定值如图1所示。

图1。流程配置和主要控制设定值。

图1。流程配置和主要控制设定值。

植物状态可变性是通过将每个控制设定值的时间进程建模为独立的一阶自回归过程来施加的。在模拟中,在每30秒的时间步长中,假定植物处于与设定值一致的稳态状态。

模拟记录了大约300个不同的工艺/装置数量:控制设定值,流和空间分解的反应器条件(流量,成分,温度,压力),单元操作特性(职责,燃料和电力消耗),以及经济参数(原料和能源的成本,产品价值)在6年的时间间隔30秒。

每年的数据文件大小为4.7 GB;整个数据集约为28 GB。

产量建模

作为初始练习,氨生产速率被视为响应,五个控制设定值作为预测因子。利用MATLAB建立了标准多元回归模型fitlm函数。为模型开发,随机选择了一个持续时间为300小时(36,000个时间记录)的数据时间窗口。70%的数据用于模型训练,30%的数据保留用于模型验证。

由于过程中存在已知的非线性,人们预计一个简单的线性回归模型会比包含特征相互作用的模型表现得更差,这一预期得到了证实:线性(一阶)和二阶情况下的归一化均方根误差分别为2.17%和0.36%。二阶情况的结果显示在图2的左侧。

模拟中包含了一个随时间变化的、真实世界的影响,即反应催化剂老化,这会导致反应器性能和氨生产速率随时间的下降。在较晚的时间(60天)应用该模型会导致对产量的过度预测,如图2右侧所示。该模型不能解释催化剂老化现象。

图2。生产模型结果(预测与实际)。

图2。生产模型结果(预测与实际)。

为了创建一个可以在催化剂生命周期的任何时候使用的模型,需要引入一个指示催化剂年龄状态的新特征(预测器)(此处不讨论细节)。

计算基础设施

为了说明分析大型数据集的具体可行方法,本研究使用整个28 GB数据集进行回归分析。具体来说,MATLAB大数据实用程序和支持Apache Spark™的Hadoop®使用Cluster。

进程数据集是在HDFS框架中创建、存储和访问的。Spark是从实时MATLAB会话中调用的,用于在可用的计算集群资源(本例中为11个节点)上分发流程模拟(最初)和回归计算(随后)。

所使用的MATLAB数据管理功能包括:

  • 数据存储,它支持定义由多个文件组成的数据存储库
  • ,它将变量名分配给数组(可选混合数据类型),该数组可以大于可用的机器内存
  • 收集,它启动和管理对高对象的命令的评估

金融建模

接下来,这项研究试图建立一个实时工厂运营利润的模型——一个控制设定值和催化剂年龄参数的非常复杂的函数。在这种情况下,需要三度交叉交互以达到合理的精度。结果如图3所示。

图3。盈利模式结果(预测与实际)。

图3。盈利模式结果(预测与实际)。

图表显示了两个相邻的时间段:催化剂批次3服务结束和催化剂批次4开始服务。与图2中所示的两个结果不同,这些图表展示了添加催化剂年龄特征的价值-在两个非常不同的年龄下的预测显示出相当的准确性。

流程优化

如图1所示,在现状情况下,控制设定值(天真地)保持在催化剂年龄生命周期的恒定值。现在创建了一个经营利润模型,自然会产生一个问题:作为催化剂年龄的函数,什么样的控制设定值组合预计会产生最大的利润?

计算利润有两种方法:实时,忽略了与所选工艺条件相关的催化剂降解后果,以及生命周期,该公司将实时成本惩罚(基于更换成本)计算到利润中,以考虑催化剂老化效应。

使用工厂利润回归模型计算了预计能产生最大利润的操作计划。结果如图4所示。

图4。工厂运行时间表(利润最大化vs.现状)。

图4。工厂运行时间表(利润最大化vs.现状)。

随后进行了过程模拟,以量化与图4所示的预测利润最大化操作计划相关的实际工厂利润。施加植物状态时间变异性的方案保持与现状情况相同。在所有情况下,工厂暂停运行,当催化剂的有效性达到初始值的60%时更换催化剂。图5总结了结果。

图5。工厂经营策略的底线比较。

图5。工厂经营策略的底线比较。

这两种利润最大化策略在催化剂降解率方面都比现状更激进——更换干预之间的时间大约是现状的一半。

这三种方法的催化剂-批次循环净利润都在平均值的13%以内。

然而,优化计划的单位时间净利润比现状情况高出很多(1.8 - 1.9倍),突出了性能改进的巨大机会。数据分析工作的价值是显而易见的。

总结

在本文中,将经典回归方法与当代大数据公用事业相结合,分析了一个28 GB的数据集,并创建了生产率、催化剂年龄和经营利润的预测模型。随后,该模型被用于计算作为催化剂年龄状态函数的最优控制设定值计划,这表明有机会将运营利润增加~90%。

该扩展摘要于2017年3月在AIChE春季会议(德克萨斯州圣安东尼奥)上发表。

查看会议演示幻灯片。

作者简介

詹姆斯·c·克洛斯三世在MathWorks总部领导咨询服务团队。他在能源和化工领域的专业服务和领先技术开发方面拥有丰富的经验。James擅长流程模拟、优化和数据分析。James在麻省理工学院获得化学工程学士学位,在普林斯顿大学获得化学工程硕士学位,在斯坦福大学获得科学计算硕士学位。

发布日期2017 - 93168v00

查看相关功能的文章

查看相关行业的文章

Baidu
map