MATLAB中的模型可解释性
从系列:机器学习在金融中的应用
可解释机器学习(或在深度学习中,“可解释AI”)提供了克服AI模型黑箱特性的技术和算法。通过揭示各种特征如何有助于(或不有助于)预测,您可以验证模型为其预测使用了正确的证据,并揭示在训练期间不明显的模型偏差。
获取模型可解释性及其处理的用例的概览。对于那些对采用机器学习感兴趣但厌倦了黑盒模型的工程师和科学家,我们解释了可解释性如何满足规则,如何在机器学习中建立信任,以及如何验证模型是有效的。这在金融和医疗设备等监管规定严格的行业尤为重要。我们概述了机器学习的可解释性方法以及如何在MATLAB中应用它们®.我们演示了在医疗应用背景下的可解释性,根据心电信号对心律失常进行分类。
近年来,我们看到人工智能和机器学习算法在许多智能任务中超过或赶上了人类的表现,如医疗成像诊断和操作机动车。然而,这些成就的核心是缺乏对这些算法如何工作的直观理解。
本视频解释了为什么可解释性是重要的,可解释性的方法是什么,并演示了如何在MATLAB中使用这些技术。具体来说,我们将研究LIME、偏依赖图和置换预测器重要性算法。我们将在心电图分类的背景下检查可解释性。所描述的技术可以应用于任何模型。看本视频不需要医学背景。
为什么我们需要可解释性?首先,机器学习模型并不容易理解,更精确的模型通常难以解释。此外,需要可解释性方法来帮助克服医疗、金融和安全行业的监管障碍。
还需要可解释的模型,以确保它们使用了正确的证据,并揭示训练数据中的偏见。人工智能最近的一个灾难性应用是在信用卡评分方面,据报道,一种算法给予男性比女性更高的信用限额。这可能是由于训练数据的偏差,实时数据的偏差,或其他原因。解释模型帮助我们防止这些问题。
对于我们的示例,您将应用可解释性的机器学习模型,训练其根据来自两个公开数据库的心电数据将心跳分类为异常或正常。心电图表示心脏对窦性音电刺激的反应,通常被分解为QRS方式。我们将使用Matlab的小波工具箱从原始信号数据中自动提取QRS波的位置。从那里,我们从r峰中提取了8个特征用于训练。
一旦我们有了特征,我们就可以使用分类学习者快速训练模型。在这里,我们训练了一个决策树作为一个固有可解释模型的例子,以及两个复杂的模型。如果精确度是最重要的,那么它只会选择性能最好的模型。然而,在诸如预测生命结束护理的情况下,可解释性是非常重要的。我们要确保模型使用正确的证据进行预测,还要了解模型可能出错的情况。
使用Matlab的排列预测函数,我们看到,对于我们的最佳表现模型,随机森林,r波的振幅被包括为重要的预测因子。然后我们可以使用Matlab的偏相关图来量化r振幅对模型输出的影响。我们看到,当振幅接近0时,输出异常心跳分类的概率有5%的变化。
然而,这与我们的领域知识相矛盾。专家说,r振幅水平对心跳的分类应该没有什么影响。我们希望确保数据中的这些偏差不包括在我们的模型中。接下来,我们在没有振幅作为预测因子的情况下重新训练我们的模型。一旦我们消除了偏见,我们就可以看到新的决策树在全局层面上是如何工作的。该树认为RR0和RR2区间是最重要的预测因子,而不是关注r振幅。
对于更复杂的模型,比如我们的随机森林,我们再次利用部分依赖图来观察最重要的预测因素如何影响模型。我们发现,极短的RR1间隔通常会导致较高的异常心跳分类概率。直觉上,这是有道理的。
我们还可以使用部分依赖图来比较不同的模型。观察支持向量机的相同特征,可以发现它与我们的随机森林有相似的趋势。然而,图要平滑得多,这表明支持向量机对方差和输入数据不太敏感,使其成为一个更可解释的模型。
除了了解这些模型如何在全球范围内工作外,其他情况可能要求我们了解它们如何在个别预测中工作。LIME是一种围绕兴趣点观察数据点和模型预测的技术。从那里,它建立了一个简单的线性模型,作为我们的复杂模型的近似。我们的近似线性模型的系数被用作代理,以确定每个特征对我们感兴趣点周围的预测有多大贡献。
让我们看看一个被SVM错误分类为正常的观察结果。我们看到,在这个观察中,RR0的值是0.0528。从我们之前的部分依赖图中,我们注意到,当值在0.05左右时,预测异常心跳的概率会下降。我们还可以看到LIME对RR0施加了很高的负权重。RR0的高值和负权重降低了预测异常心跳的概率,解释了我们的错误分类。
然而,也有一些限制。LIME是我们模型的近似值,绝不是我们模型如何工作的精确表示。为了说明这一点,我们可以看到,在一些情况下,我们的复杂模型的预测与近似不匹配。为了避免这种情况,请尝试使用不同的参数再次运行LIME算法,直到预测一致为止,例如增加要绘制的重要预测器的数量。
我们已经演示了如何在MATLAB中使用可解释性技术,现在可以使用可解释性来比较不同的模型,揭示数据偏差,并理解预测出错的原因。即使没有数据科学背景,我们都可以成为让机器学习变得可解释的运动的一部分。有关视频中介绍的任何技术的更多信息,请参见下面的链接。类似的可解释性技术也存在于神经网络中,所以请务必也查看这些资源。
您也可以从以下列表中选择网站:
如何获得最佳的网站性能
选择中国网站(中文或英文)以获得最佳的网站表现。其他MathWorks国家网站没有针对从您的位置访问进行优化。