在分类学习者中可视化和评估分类器性能- MATLAB和Simulink

对分类学习者的分类能力进行可视化和评估

在Classification Learner中训练分类器之后，您可以基于准确率分数比较模型，通过绘制类预测将结果可视化，并使用混淆矩阵和ROC曲线检查性能。

如果你使用k-fold交叉验证，然后应用程序计算精度得分使用的观察k验证折叠并报告平均交叉验证错误。对这些验证褶皱中的观测结果进行预测，并根据预测结果计算混淆矩阵和ROC曲线。

请注意

当您将数据导入应用程序时，如果您接受默认值，应用程序将自动使用交叉验证。要了解更多，请参见选择验证方案．
如果使用拒绝验证，应用程序将使用验证折叠中的观察结果计算准确性得分，并对这些观察结果进行预测。该应用程序还根据这些预测计算混淆矩阵和ROC曲线。
如果使用再替换验证，则得分是基于所有训练数据的再替换精度，预测是再替换预测。

在“模型”窗格中检查性能

在分类学习者中训练一个模型后，检查模型窗格，以查看哪个模型具有最佳的百分比总体精度。最好的准确性(验证)分数在一个方框中突出显示。这个分数是验证精度。验证精度评分评估模型在新数据上与训练数据相比的性能。用这个分数来帮助你选择最好的模型。

对于交叉验证，得分是所有未用于测试的观测结果的准确性，计算每个观测结果在保留(验证)折叠时的准确性。
对于抵制验证，得分是对抵制观测的准确性。
对于再替换验证，得分是针对所有训练数据观测的再替换精度。

最好的总分可能不是你的目标的最佳模型。总体精度略低的模型可能是最适合您的目标的分类器。例如，某门课的假阳性可能对你很重要。您可能希望排除一些数据收集昂贵或困难的预测器。

要找出分类器在每个类中的表现，请检查混淆矩阵。

在摘要选项卡和模型窗格中查看模型度量

您可以在模型中查看模型度量总结选项卡,模型窗格，并使用这些指标来评估和比较模型。或者，您也可以使用结果表TAB来比较模型。有关更多信息，请参见在表视图中比较模型信息和结果．

的培训结果度量在验证集上计算。的测试结果如果显示了度量，则在导入的测试集中计算。有关更多信息，请参见评估测试集模型性能．

示例模型Summary选项卡

模型指标

度规	描述	提示
精度	正确分类的观测数据的百分比	寻找更大的精度值。
总成本	误分类总成本	寻找较小的总成本值。确保精度值仍然很大。

您可以基于不同的模型度量对模型进行排序。要选择用于模型排序的指标，请使用排序列表的顶部模型窗格。

中列出的不需要的型号也可以删除模型窗格。选择要删除的模型并单击删除选定的模型单击窗格右上角的按钮删除在模型部分的分类学习者选项卡，或者右键单击模型并选择删除．控件中最后剩下的模型不能删除模型窗格。

在表视图中比较模型信息和结果

而不是使用总结选项卡或模型窗格来比较模型度量，您可以使用结果表。在分类学习者选项卡,模型部分中,点击结果表．在结果表选项卡，您可以根据模型的训练和测试结果以及它们的选项(例如模型类型、所选特征、PCA等)对模型进行排序。例如，要按验证精度对模型进行排序，请单击中的排序箭头准确性(验证)列标题。向下箭头表示模型从最高精度到最低精度排序。

要查看更多表列选项，请单击“选择要显示的列”按钮在桌子的右上方。在“选择要显示的列”对话框中，选中要在结果表中显示的列的复选框。新选择的列被添加到右边的表中。

选择要显示的列对话框

在结果表中，您可以手动拖放表列，以便它们按您的首选顺序出现。

控件可以将一些模型标记为收藏最喜欢的列。该应用程序保持最喜欢的型号的选择在结果表和模型窗格。与其他列不同，最喜欢的而且型号不能从表中删除列。

若要从表中删除一行，请右键单击该行中的任何条目并单击隐藏的行(或隐藏选定行(s)如果该行被高亮显示)。若要删除连续的行，请单击要删除的第一行中的任何条目，按转变，然后单击要删除的最后一行中的任何条目。然后，右键单击其中一个高亮显示的条目并单击隐藏选定行(s)．若要恢复所有已删除的行，请右键单击表中的任何条目并单击显示所有行．恢复的行被追加到表的底部。

要导出表中的信息，请使用其中一个导出按钮在桌子的右上方。选择将表导出到工作区还是导出到文件。导出的表只包含显示的行和列。

情节分类器的结果

使用散点图检查分类器结果。中选择模型以查看模型的散点图模型窗格。在分类学习者选项卡,情节和解释部分，单击箭头打开图库，然后单击散射在验证结果组。训练分类器后，散点图从显示数据切换到显示模型预测。如果您正在使用抵制或交叉验证，那么这些预测是对抵制(验证)观察结果的预测。换句话说，该软件通过使用一个没有相应观察的训练模型来获得每个预测。

要调查结果，请使用右边的控件。您可以:

选择是绘制模型预测图还是单独绘制数据。
使用下面的复选框显示或隐藏正确或不正确的结果模型的预测．
选择要绘制的特征X而且Y列表下预测．
通过使用下面的复选框显示或隐藏特定的类，按类可视化结果显示．
通过选择下面的一个类来更改所绘制类的堆叠顺序类然后点击移到前面．
放大和缩小，或者在整个情节中平移。要启用缩放或平移，请将鼠标放在散点图上，并单击出现在图右上方的工具栏上的相应按钮。

Fisher虹膜数据的散点图。正确分类的点用o标记，错误分类的点用X标记。

另请参阅研究散点图中的特征．

要将您在应用程序中创建的散点图导出为数字，请参见在分类学习者应用程序中导出情节．

在混淆矩阵中检查每个类别的性能

使用混淆矩阵图来理解当前选择的分类器在每个类中的表现。训练分类模型后，应用程序会自动打开该模型的混淆矩阵。如果你训练一个“所有”模型，应用程序只打开第一个模型的混淆矩阵。中选择另一个模型，可查看该模型的混淆矩阵模型窗格。在分类学习者选项卡,情节和解释部分，单击箭头打开图库，然后单击混淆矩阵(验证)在验证结果组。混淆矩阵帮助您识别分类器表现不佳的区域。

打开图时，行显示真正的类，列显示预测的类。如果您正在使用抵制或交叉验证，则使用抵制(验证)观察结果的预测计算混淆矩阵。对角线单元格显示真实类和预测类匹配的位置。如果这些对角线单元格是蓝色的，则分类器已经正确地对这个真实类的观察结果进行了分类。

默认视图显示每个单元格中的观察数。

要查看分类器对每个类的执行情况，请参见情节,选择真阳性率(TPR)，假负率(FNR)选择。TPR是每一个真实类的正确分类观测的比例。FNR是每一个真实类别中分类错误的观测数据的比例。图中右边的最后两列显示了每个真实类的摘要。

提示

通过检查对角线外显示高百分比且为橙色的单元格，查找分类器表现不佳的区域。百分比越高，细胞颜色的色调越深。在这些橙色的单元格中，真实的类和预测的类不匹配。数据点分类错误。

混淆矩阵评估模型，预测汽车大数据集中的汽车的原产国

在本例中，它使用carbig数据集，从上到下的第五行显示了所有真正的日本级别的汽车。列显示了预测的类。来自日本的汽车中，有77.2%是正确分类的，所以77.2%这类正确分类的点的真实阳性率，在蓝色的单元格中显示TPR列。

日本排的其他汽车被错误分类:5.1%的汽车被错误分类为德国汽车，5.1%的汽车被错误分类为瑞典汽车，12.7%的汽车被错误分类为美国汽车。这类错误分类点的假阴性率为22.8%，如图中橙色的格子所示FNR列。

如果您想查看观察的数量(在本例中是汽车)而不是百分比，则在情节中,选择数量的观察．

如果假阳性在您的分类问题中很重要，绘制每个预测类(而不是真实类)的结果，以调查错误发现率。要查看每个预测类的结果，请在情节,选择阳性预测值(PPV)，错误发现率(FDR)选择。PPV是每个预测类的正确分类观测的比例。FDR是每个预测类别中分类错误的观测的比例。选择此选项后，混淆矩阵现在包括表下面的汇总行。对于每一类中正确预测的点，阳性预测值用蓝色表示，对于每一类中错误预测的点，错误发现率用橙色表示。

如果您认为感兴趣的类中有太多错误分类的点，请尝试更改分类器设置或特征选择，以搜索更好的模型。

要导出您在应用程序中创建的混淆矩阵图，请参见在分类学习者应用程序中导出情节．

检查ROC曲线

在训练模型后查看受试者工作特征(ROC)曲线。在情节和解释部分，单击箭头打开图库，然后单击ROC曲线(验证)在验证结果组。该应用程序创建一个ROC曲线使用rocmetrics函数。

二元分类问题的ROC曲线

ROC曲线显示了由当前选择的分类器计算的不同分类分数阈值的真阳性率(TPR)与假阳性率(FPR)。的模型操作点表示分类器用于对观察结果进行分类的阈值对应的假阳性率和真阳性率。例如，假阳性率为0.4表示分类器错误地将40%的负面类观察值分配给正面类。0.9的真阳性率表明分类器正确地将90%的积极类观察值分配给积极类。

的AUC(曲线下面积)值对应于ROC曲线(TPR值)对FPR的积分玻璃钢＝0来玻璃钢＝1．AUC值是分类器整体质量的度量。AUC值在此范围内0来1， AUC值越大，分类器性能越好。比较类和训练过的模型，看看它们在ROC曲线上的表现是否不同。

方法可以为特定类创建ROC曲线显示复选框下情节．然而，在二元分类问题中，您不需要检查两个类的ROC曲线。两条ROC曲线对称，AUC值相同。一个类别的TPR是另一个类别的真负率(TNR)， TNR是1-FPR。因此，一个职业的TPR vs . FPR图与另一个职业的1-FPR vs . 1-TPR图是相同的。

对于多类分类器，应用程序制定了一组一对一对所有的二进制分类问题，每个类有一个二进制问题，并使用对应的二进制问题为每个类找到ROC曲线。每个二元问题都假设一个类是正的，其他的都是负的。图上的模型操作点显示了每个类在一元对全二元问题中的分类器性能。

多类分类问题的ROC曲线

有关更多信息，请参见rocmetrics而且ROC曲线与绩效指标．

要将您在应用程序中创建的ROC曲线图导出为图形，请参见在分类学习者应用程序中导出情节．

用偏相关图解释模型

部分依赖图(pdp)允许您可视化每个预测因子对训练分类模型的预测分数的边际影响。在Classification Learner中训练模型之后，可以查看模型的部分依赖图。在分类学习者选项卡,情节和解释部分，单击箭头打开图库。在解释结果部分中,点击部分依赖．在计算部分依赖值时，应用程序使用最终模型，在完整数据集(包括训练和验证数据，但不包括测试数据)上进行训练。

要调查结果，请使用右边的控件。

下数据，选择是否绘制结果使用训练集数据或测试集数据。训练集是指用于训练最终模型的数据，包括所有不保留用于测试的观察数据。
下功能，选择要绘制的特征X列表。图中的x轴标记对应于所选数据集中的唯一预测器值。
如果你用PCA来训练一个模型，你可以选择主成分从X列表。
将班级预测的分数形象化。图中的每条线对应于特定班级的预测值的平均预测分数。通过检查或清除相应的线来显示或隐藏绘制的线显示框下类．通过单击相应的按钮使绘制的线变粗类下名字类．
放大和缩小，或者在整个情节中平移。要启用缩放或平移，请将鼠标放在PDP上，并单击出现在图右上方的工具栏上的相应按钮。

使用训练数据集比较模型分数和位移值的偏依赖图

示例请参见解释分类器训练的分类学习者应用程序．有关部分依赖图的更多信息，请参见plotPartialDependence．

要将您在应用程序中创建的pdp导出为数字，请参见在分类学习者应用程序中导出情节．

通过改变布局比较模型地块

中的情节选项，将分类学习者中训练的模型的结果可视化情节和解释部分的分类学习者选项卡。中的选项可以重新排列图的布局，以便跨多个模型比较结果布局按钮，拖放图，或者选择位于模型图选项卡右侧的Document Actions箭头提供的选项。

例如，在Classification Learner中训练两个模型后，为每个模型显示一个plot，并通过使用以下程序之一更改plot布局来比较plot:

在情节和解释部分中,点击布局并选择比较模型．
单击第二个模型选项卡名称，然后将第二个模型选项卡拖放到右边。
单击位于模型图选项卡最右边的Document Actions箭头。选择瓷砖都选项并指定1 × 2的布局。

注意，您可以单击Hide plot选项按钮在地块的右上方，为地块腾出更多空间。

评估测试集模型性能

在Classification Learner中训练模型之后，您可以在应用程序中的测试集上评估模型的性能。这个过程允许您检查验证精度是否为新数据上的模型性能提供了良好的估计。

将测试数据集导入Classification Learner。或者，在将数据导入应用程序时，保留一些数据用于测试(可选)为测试保留数据）.
- 如果测试数据集在MATLAB中^®工作区，则在测试上节分类学习者选项卡上,单击测试数据并选择从工作空间．
- 如果测试数据集在文件中，则在测试部分中,点击测试数据并选择从文件．在列表中选择文件类型，例如电子表格、文本文件或逗号分隔的值(. csv)文件，或选择所有文件浏览其他文件类型，例如.dat．
在“导入测试数据”对话框中，选择测试数据集测试数据集变量列表。测试集必须具有与为训练和验证而导入的预测器相同的变量。测试响应变量中的唯一值必须是完整响应变量中的类的子集。
计算测试集度量。
- 要计算单个模型的测试度量，请在模型窗格。在分类学习者选项卡,测试部分中,点击测试所有并选择测试选择．
- 要计算所有训练过的模型的测试指标，请单击测试所有并选择测试所有在测试部分。
该应用程序计算在完整数据集上训练的每个模型的测试集性能，包括训练和验证数据(但不包括测试数据)。
比较验证精度和测试精度。
在模型中总结选项卡中，应用程序显示验证指标和测试指标培训结果节和测试结果部分,分别。您可以检查验证精度是否为测试精度提供了一个很好的估计。
您还可以使用图来可视化测试结果。
- 显示一个混淆矩阵。在情节和解释上节分类学习者选项卡，单击箭头打开图库，然后单击混淆矩阵(测试)在测试结果组。
- 显示ROC曲线。在情节和解释部分，单击箭头打开图库，然后单击ROC曲线(测试)在测试结果组。

示例请参见在分类学习者应用程序中使用测试集检查分类器性能．有关在超参数优化工作流中使用测试集度量的示例，请参见基于超参数优化的分类学习者应用程序训练分类器．