技术文章和通讯

用机器学习通过多源数据筛选更安全的电池材料

奥斯汀·d·森德克,斯坦福大学


2016年6月14日,喷气推进实验室(Jet Propulsion Laboratory)研究人员为救援灾区民众而制造的猿型机器人RoboSimian在实验室爆炸并起火。第二年,在发生火灾和爆炸的报道后,一家大型手机制造商在全球范围内召回了其新款平板电脑。从那以后,类似的事件层出不穷。在这些案例中,锂离子电池都被认定为根本原因。

这些电池的问题是它们的液体电解质,如果电池供电的设备不能足够快地冷却,它们往往会蒸发或起火。研究人员正在寻找具有良好离子导电性和电化学稳定性的固体电解质材料,以取代这些潜在危险的液体电解质,但研究进展缓慢。通过实验或模拟来评估一种单一的候选材料可能需要数周的时间,而材料项目数据库中有超过12000种含有锂的结晶固体可能是有前途的候选材料——更不用说数千或数百万种尚未分类的材料了。

利用MATLAB开发的机器学习模型®在美国,我和同事们发现了大海捞针:从我们分析的12000多种固体电解质中,找到了少量特殊的固体电解质。根据一组已知的良好电解质及其原子结构进行训练,我们的MATLAB模型识别有前景的新材料的可能性似乎比随机猜测高出三倍以上,比在该领域工作的斯坦福研究生高出两倍。

锂离子电池基础:液体电解质的问题

在锂离子电池中,锂离子在电池充放电过程中通过电解质迁移。由于水与锂发生反应,电池制造商使用有机溶剂而不是水基溶剂作为电解质。这就是问题所在:与水不同,有机液体,如汽油、发胶和洗甲水通常是易燃和不稳定的。

除了安全问题,液体电解质至少还有两个缺点。首先,使用它们来制造更高电压的电池是困难的,因为当电压通过它们时,它们往往会被击穿。其次,他们对防止一种被称为树突增长这是电池过早死亡的主要原因。总的来说,这些缺点为寻找合适的固态电解质提供了强大的动力。

从多个来源组装数据

在Evan Reed教授的指导下,我们开始从三个来源收集数据:材料项目数据库、发表的论文和无机晶体结构数据库(ICSD),一个实验验证原子结构的在线数据库。

首先,我们在材料项目数据库中确定了所有12,831个含锂固体。经过结构稳定性、化学稳定性和低电子导电性的筛选,我们消除了92%以上的初始集合。此外,我们还收集了地球上这些材料的丰度和它们的预计成本的信息。最初的筛选给我们留下了超过300种稳定的候选材料,如果它们的锂导电性足够快,就可能成为有前途的固体电解质材料。为了实现这个目标,我们转向了机器学习。[1]

我们开始梳理科学文献,找到40种固体晶体材料,研究人员对这些材料的晶体结构进行了表征,并在室温下测量了离子导电性。在这40种材料中,大约有三分之一具有足够的离子导电性,可以作为有用的电池电解质,尽管这些材料都存在稳定性问题,阻止它们在固态电池中采用。这40种快速和慢速锂导电材料的组合可以作为机器学习算法的训练集,快速预测新材料中的锂导电行为。

然后我们从ICSD下载了这40种材料的原子结构。利用这些数据,我们计算了20个特征,这些特征表征了每个晶体中的局部原子排列和化学性质,这些特征基于结构中原子的位置、质量、电负性和原子半径。这些计算都在MATLAB中完成。我们选择的20个特征包括原子度量,如每个原子的体积,锂键电离性,锂邻居的数量,以及最小阴离子-阴离子分离距离。我们相信这20个特征可能与离子导电性有关,这是基于我们的直觉或之前的文献报道。我们发现,在将机器学习应用于如此小的数据集时,使用这种“智能”特征——也就是基于材料物理预先存在的知识的特征——是必不可少的。

选择一个机器学习模型

下一个问题是:这20个特征的哪一个组合最能预测训练数据?考虑到我们的训练集相对较小,只有40种材料和20个特征,以及MATLAB提供的建模的方便性和灵活性,我们能够考虑超过10,000,000种可能的特征和模型组合。

统计和机器学习工具箱™使探索这些众多的模型变得容易,包括最小二乘回归,稳健回归,局部加权最小二乘,支持向量机,逻辑回归和多类分类。我们为每个我们想要测试的机器学习算法训练一个模型,然后根据我们的训练数据验证算法的准确性。

单独使用原子特征训练的模型都不能提供足够的离子电导率预测能力,但多特征模型可以。最终,我们确定了一个具有五个特征的最优逻辑回归模型,该模型能够以最小10%的交叉验证误差对训练集材料进行分类。这对我们来说是有意义的,因为逻辑回归分类器往往在像我们这样的小型训练集上表现良好。这个逻辑回归分类器将给出一个二元预测:这种材料是否表现出足够的锂导电性,以作为一种有用的固体电解质材料,或不?我们训练过的模型在十次预测中有九次是准确的。

然后,我们将这个训练过的模型放到300多个剩余的候选材料上(图1)。

图1。通过机器学习模型识别候选人。

图1。通过机器学习模型识别候选人。

分类器使我们能够消除这些候选材料中的93.3%,从最初的12,831个候选材料中只留下21个潜在的候选材料。一旦训练好模型,这个筛选步骤只需要几秒钟就能完成。总之,我们通过筛选过程淘汰了99.8%的候选材料。

结果及下一步措施

为了测试预测的有效性,我们使用精确但缓慢的基于量子物理的模拟模拟了锂在这些材料中的传导。到目前为止,我们已经发现,当我们遵循基于机器学习模型的建议时,我们发现新的锂离子导电材料的速度比我们使用简单的试错方法快三倍。我们甚至通过给模型和一组斯坦福材料科学博士生提供相同的随机抽取的材料列表来测试模型与人类直觉的区别。该模型在识别优质锂导体方面的准确率是学生的两倍,而预测时间不到学生的千分之一。

我们的模型识别出的一些候选材料完全出乎意料。这些材料的原子结构是如此复杂,以至于我们没有科学的直觉来帮助我们确定这些材料是否有足够的离子导电性。当结果证明它们确实像模型预测的那样传导时,它帮助验证了我们的直觉。我们现在可以将我们所学到的知识整合到我们的MATLAB机器学习模型的未来版本中,我们希望随着更多的实验数据的报告,这个模型会得到改进。我们发现的一种材料是如此令人兴奋,以至于我们申请了专利,并立即找到一家感兴趣的公司合作伙伴,许可该专利并继续研究该材料。

我们继续进行其中的一些测试,在斯坦福大学,以及与外部组织合作,对个别候选人材料进行研究。在不久的将来,这些候选材料中的一种可能被证明是固体电解质,它将取代锂离子电池中的液体电解质,使爆炸的电池组成为历史。

斯坦福大学是全球近1000所大学中的一所,这些大学在校园内提供MATLAB和Simulink的访问。有了总学术人员数(TAH)许可证,研究人员、教师和学生可以访问最新版本级别的产品的公共配置,以便在任何地方使用——在教室、在家里、在实验室或在现场。2022世界杯八强谁会赢?

关于作者

Austin D. Sendek是斯坦福大学应用物理系的博士候选人,与材料科学与工程系的Evan Reed教授一起工作。他的研究兴趣包括基于机器学习和人工智能概念的新计算方法的开发和部署,以加速储能应用材料的设计。

2018年出版的

参考文献

  1. 阶数,公元et al。”超过12,000个候选固体锂离子导体材料的整体计算结构筛选。”能源环境。科学。(2016)。doi: 10.1039 / C6EE02697D。https://pubs.rsc.org/en/content/articlehtml/2017/ee/c6ee02697d

  2. 阶数,公元et al。”机器学习辅助发现许多新的固体锂离子电解质材料。”arXiv: 1808.02470(2018)。https://arxiv.org/abs/1808.02470

Baidu
map