用户故事

奥克兰理工大学和奥克兰大学的研究人员用机器学习分析乳制品加工数据

挑战

确保新西兰牛奶加工厂持续生产高质量的奶粉

解决方案

使用MATLAB对来自多个工厂的数据进行预处理和对齐,对数据进行分析和可视化,并开发能够预测粉末功能特性的机器学习模型

结果

  • 发现并纠正关键工艺缺陷
  • 多个机器学习分类器以小时为单位进行评估
  • 易于处理的大型数据集;手动过程自动化

“与我们的行业合作伙伴坐下来,看着他们惊讶地看到我们使用MATLAB的生产力,以及我们分析和绘制数据的速度,这是非常棒的。我们的研究结果使他们能够证实他们缺乏证据的假设,并激发了流程改进的新想法。”

大卫·威尔逊,工业信息和控制中心
3个粉末加工厂和6年的数据的工厂过程变量的PCA分析的3D图。

3个粉末加工厂和6年的数据的工厂过程变量的PCA分析的3D图。分析表明,尽管生产相同规格的产品,但每个工厂都存在于完全独立的操作空间中。2022世界杯八强谁会赢?


工业信息与控制中心(I2C2)是奥克兰理工大学(AUT)和奥克兰大学(University of Auckland)的联合研究所。它的建立是为了改进新西兰乳制品和其他出口行业的过程模拟和控制。

恒天然是该研究所的工业合作伙伴之一,该公司是该国最大的奶粉生产商。在最近的一个项目中,我2C2研究人员开发了机器学习模型,帮助恒天然优化产品质量和简化生产流程。

使用MATLAB®和统计和机器学习工具箱™,研究人员分析了从新西兰各地的许多生产设施收集的数据,基于工艺条件预测奶粉的功能属性。

“MATLAB的广度是我们用于统计分析的其他环境无法比拟的,”I的联合主管David Wilson说2C2澳大利亚理工大学电气与电子工程系副教授。“通过MATLAB,我们可以在单一环境中处理大量信息,而不需要将大型数据集从一个工具转移到另一个工具。”

挑战

奶粉的质量是通过其化学成分(如脂肪和蛋白质含量)以及物理和功能特性(如堆积密度和溶解度)来评估的,尽管现有的工业过程相对较好地调节了化学成分,但确保一致的功能特性已被证明更具挑战性。生产这种粉末的工厂在设计和年龄上差别很大,而且通常使用截然不同的工艺设置。因此,当一批粉末的生产质量参差不齐时,确定是什么地方出了问题,以及究竟是什么时候出的问题可能是有问题的。

部分受到食品和药物管理局设计质量和过程分析技术倡议的激励,我2C2研究人员开始分析三家不同加工厂在六年时间里的数百万行时间序列数据(包括温度和其他记录的过程变量,以及物理和功能特性的测量值)。收集到的原始数据是不一致的,没有很好地对齐。过程测量值和产品值之间没有共同的参考,记录错误和仪器故障有时会导致数据丢失,不同数据集的时间戳格式不同。

尽管如此,研究小组需要使用这些数据来确定当生产特定样品时,工厂是在什么条件下运行的。然后,他们需要确定哪些异常情况导致了奶粉质量的不同,并建议纠正这些情况的程序。理想情况下,这些修正必须在核电站运行时进行,而不是在相关实验室检测结果公布数小时或数天后进行。

解决方案

2C2利用MATLAB对来自牛奶加工厂的数据进行预处理和对齐,对数据进行分析和可视化,并开发出能够预测奶粉功能特性的机器学习模型。

在MATLAB中,我2C2研究人员加载了从恒天然数据库中提取的工艺数据。清理和校准数据涉及到使用插值估计缺失数据的值,以及通过解释以多种格式生成的时间戳校准不同的数据集。

一旦团队有了一组干净的数据,他们使用统计和机器学习工具箱使用主成分分析(PCA)和偏最小二乘(PLS)回归进行统计分析。该团队用MATLAB 3D直方图、散点图和其他图形对多元分析进行了补充,以可视化结果,并与恒天然的工程师分享他们的发现。

继续在MATLAB中,I2C2团队使用最小绝对收缩和选择算子(LASSO)方法实现了更先进的回归模型,并评估了各种机器学习分类器。

最初,分类器实现了不到50%的预测精度。这是因为当奶粉加工参数变化显著时,培训数据只包含了记录的少数数据实例。尽管这样的实例数量很少,但它并没有为模型构建提供足够的数据。为了纠正这个问题,团队对训练数据中的不合格样本进行了上采样,并对剩余样本进行了下采样。

为了提高预测精度,他们使用重采样的训练数据来评估其他分类器类型。通过分类学习者应用程序,他们快速评估了20多个分类器,包括支持向量机、k近邻和各种决策树,包括增强树和袋装决策树。他们最终发现,增强树的效果最好,预测准确率接近95%。

2C2研究人员目前正在将自动图像处理集成到他们的分析工作流程中。利用图像处理工具箱™,该团队分析了数千张奶粉颗粒的照片,计算了颗粒的大小、凸度、圆度和其他形状因素,并将这些指标与粉末的功能特性关联起来。

结果

  • 发现并纠正关键工艺缺陷。I公司的项目经理尼克•德普里(Nick Depree)表示:“在我们合作伙伴的一家工厂,一种向奶粉中添加关键成分的工艺不时出现故障,工厂经理无法确定故障的原因。2C2奥克兰大学博士后研究员。“我们在MATLAB中进行的逐步分析使我们能够确定问题的原因,现在问题已经解决了。”
  • 多个机器学习分类器以小时为单位进行评估。“有了分类学习者应用程序,在一个下午,我们就可以尝试支持向量机和其他几种分类器类型,看看哪一种对我们的数据最有效,”大卫说。“因为我们之前在机器学习方面几乎没有经验,否则可能需要花费几个月的时间。”
  • 易于处理的大型数据集;手动过程自动化。“过去我们用于多变量分析的工具无法处理更大的数据集,但MATLAB在这方面没有问题,”Depree说。“同样,我们不可能在微软手动创建与恒天然共享的报告®Excel®.通过MATLAB,我们自动化了这一过程,并从多个工厂和年份的数据中生成了数百张图表。”

2022世界杯八强谁会赢?产品使用

展示你的成功

加入客户参考计划

Baidu
map