模型建立与评估

特征选择、特征工程、模型选择、超参数优化、交叉验证、预测性能评估和分类精度对比测试

在构建高质量的预测分类模型时，选择正确的特征(或预测器)和调优超参数(未估计的模型参数)非常重要。

特征选择和超参数调优可以产生多个模型。你可以比较k-fold误分类率，受试者工作特征(ROC)曲线，或模型之间的混淆矩阵。或者，进行统计测试以检测一个分类模型是否显著优于另一个分类模型。

若要在训练分类模型之前设计新特征，请使用gencfeatures。

要交互式地构建和评估分类模型，可以使用分类学习者应用程序。

若要自动选择具有调优超参数的模型，请使用fitcauto。该函数尝试选择具有不同超参数值的分类模型类型，并返回预期在新数据上表现良好的最终模型。使用fitcauto当您不确定哪些分类器类型最适合您的数据时。

要调优特定模型的超参数，请选择超参数值并使用这些值交叉验证模型。例如，要调优SVM模型，需要选择一组框约束和内核尺度，然后对每对值交叉验证模型。某些统计和机器学习工具箱™分类功能通过贝叶斯优化、网格搜索或随机搜索提供自动超参数调优。bayesopt，实现贝叶斯优化的主要函数，对于许多其他应用也足够灵活。看到贝叶斯优化工作流程。

要解释分类模型，您可以使用石灰，沙普利,plotPartialDependence。

应用程序

分类学习者

训练模型使用监督机器学习对数据进行分类

功能

全部展开

特征选择

`fscchi2`	使用卡方检验进行分类的单变量特征排序
`fscmrmr`	利用最小冗余最大相关性(MRMR)算法对分类特征进行排序
`fscnca`	利用邻域成分分析进行特征选择分类
`oobPermutedPredictorImportance`	对分类树的随机森林，用袋外预测器观测值的排列估计预测器重要性
`predictorImportance`	预测因子对分类树重要性的估计
`predictorImportance`	决策树分类集合中预测因子重要性的估计
`sequentialfs`	使用自定义准则进行序列特征选择
`relieff`	使用ReliefF或RReliefF算法对预测因子的重要性进行排序

工程特性

`gencfeatures`	为分类执行自动化特征工程
`描述`	描述生成特性
`变换`	使用生成的特征转换新数据

自动模型选择

fitcauto 自动选择超参数优化的分类模型

Hyperparameter优化

`bayesopt`	使用贝叶斯优化选择最优的机器学习超参数
`hyperparameters`	优化适合函数的变量描述
`optimizableVariable`	变量描述`bayesopt`或其他优化

交叉验证

`crossval`	使用交叉验证估计损失
`cvpartition`	分区数据进行交叉验证
`重新分区`	重新分区数据进行交叉验证
`测验`	测试交叉验证的指标
`培训`	交叉验证的训练指标

模型的解释

局部可解释模型不可知论解释(LIME)

`石灰`	局部可解释模型不可知解释(LIME)
`适合`	拟合局部可解释模型不可知论解释(LIME)的简单模型
`情节`	局部可解释模型不可知论解释(LIME)的绘图结果

沙普利值

`沙普利`	沙普利值
`适合`	计算查询点的Shapley值
`情节`	情节夏普利值

部分依赖

`partialDependence`	计算部分依赖
`plotPartialDependence`	创建偏依赖图(PDP)和个体条件期望图(ICE)

分类性能评价

混淆矩阵

`confusionchart`	为分类问题建立混淆矩阵图
`confusionmat`	计算分类问题的混淆矩阵

受试者工作特征(ROC)曲线

`rocmetrics`	二元和多类分类器的接收机工作特征(ROC)曲线和性能指标
`addMetrics`	计算额外的分类性能指标
`平均`	计算多类问题中平均受试者工作特征(ROC)曲线的性能指标
`情节`	绘制接收机工作特性(ROC)曲线和其他性能曲线
`perfcurve`	接收机工作特征(ROC)曲线或其他性能曲线用于分类器输出

模型精度比较检验

`testcholdout`	比较两种分类模型的预测精度
`testckfold`	通过重复交叉验证比较两种分类模型的准确性

对象

全部展开

特征选择

FeatureSelectionNCAClassification 基于邻域分量分析的分类特征选择

工程特性

FeatureTransformer 生成功能转换

Hyperparameter优化

BayesianOptimization 贝叶斯优化结果

属性

ConfusionMatrixChart属性	混淆矩阵图的外观和行为
ROCCurve属性	受试者工作特征(ROC)曲线的外观和行为

主题

分类学习者应用

在分类学习者应用程序中训练分类模型
培训的工作流程，比较和改进分类模型，包括自动、手动和并行培训。
对分类学习者的分类能力进行可视化和评估
比较模型的准确性分数，通过绘制类预测来可视化结果，并在混淆矩阵中检查每个类的性能。
基于分类学习者App的特征选择与特征转换
使用图或特征排序算法识别有用的预测器，选择要包含的特征，并在分类学习者中使用PCA转换特征。

特征选择

特征选择介绍
了解特征选择算法，并探索用于特征选择的函数。
连续的特征选择
本主题介绍顺序特征选择，并提供一个使用自定义标准和顺序选择特征的示例sequentialfs函数。
邻域成分分析(NCA)特征选择
邻域分量分析(NCA)是一种非参数特征选择方法，其目标是使回归和分类算法的预测精度最大化。
调整正则化参数，利用NCA检测特征进行分类
这个例子展示了如何调优正则化参数fscnca使用交叉验证。
正则化判别分析分类器
通过在不影响模型预测能力的情况下删除预测因子，使模型更健壮、更简单。
选择高维数据分类的特性
此示例演示如何选择用于对高维数据进行分类的特征。

工程特性

分类自动化特征工程
使用gencfeatures在训练分类模型之前设计新的特征。在对新数据进行预测之前，对新数据集应用相同的特征转换。

自动模型选择

基于贝叶斯和ASHA优化的自动分类器选择
使用fitcauto自动尝试选择具有不同超参数值的分类模型类型，给定训练预测器和响应数据。

Hyperparameter优化

贝叶斯优化工作流程
使用拟合函数或调用贝叶斯优化bayesopt直接。
变量的贝叶斯优化
为贝叶斯优化创建变量。
贝叶斯优化目标函数
为贝叶斯优化创建目标函数。
贝叶斯优化中的约束条件
为贝叶斯优化设置不同类型的约束。
使用bayesopt优化交叉验证的分类器
使用贝叶斯优化最小化交叉验证损失。
使用贝叶斯优化优化分类器拟合
方法将交叉验证损失最小化OptimizeParameters拟合函数中的名称-值参数。
贝叶斯优化图函数
直观地监视贝叶斯优化。
贝叶斯优化输出函数
监视贝叶斯优化。
贝叶斯优化算法
理解贝叶斯优化的基本算法。
平行的贝叶斯优化
贝叶斯优化是如何并行工作的。

模型的解释

解释机器学习模型
解释模型预测石灰而且沙普利对象和plotPartialDependence函数。
机器学习模型的Shapley值
使用两个算法计算机器学习模型的Shapley值:kernelSHAP和对kernelSHAP的扩展。

交叉验证

使用并行计算实现交叉验证
使用并行计算加速交叉验证。

分类性能评价

ROC曲线与绩效指标
使用rocmetrics在测试数据集上检验分类算法的性能。
性能曲线perfcurve
学习如何perfcurve函数计算接收机工作特征(ROC)曲线。