模型建立与评估
特征选择、特征工程、模型选择、超参数优化、交叉验证、预测性能评估和分类精度对比测试
在构建高质量的预测分类模型时,选择正确的特征(或预测器)和调优超参数(未估计的模型参数)非常重要。
特征选择和超参数调优可以产生多个模型。你可以比较k-fold误分类率,受试者工作特征(ROC)曲线,或模型之间的混淆矩阵。或者,进行统计测试以检测一个分类模型是否显著优于另一个分类模型。
若要在训练分类模型之前设计新特征,请使用gencfeatures
。
要交互式地构建和评估分类模型,可以使用分类学习者应用程序。
若要自动选择具有调优超参数的模型,请使用fitcauto
。该函数尝试选择具有不同超参数值的分类模型类型,并返回预期在新数据上表现良好的最终模型。使用fitcauto
当您不确定哪些分类器类型最适合您的数据时。
要调优特定模型的超参数,请选择超参数值并使用这些值交叉验证模型。例如,要调优SVM模型,需要选择一组框约束和内核尺度,然后对每对值交叉验证模型。某些统计和机器学习工具箱™分类功能通过贝叶斯优化、网格搜索或随机搜索提供自动超参数调优。bayesopt
,实现贝叶斯优化的主要函数,对于许多其他应用也足够灵活。看到贝叶斯优化工作流程。
要解释分类模型,您可以使用石灰
,沙普利
,plotPartialDependence
。
应用程序
分类学习者 | 训练模型使用监督机器学习对数据进行分类 |
功能
对象
属性
ConfusionMatrixChart属性 | 混淆矩阵图的外观和行为 |
ROCCurve属性 | 受试者工作特征(ROC)曲线的外观和行为 |
主题
分类学习者应用
- 在分类学习者应用程序中训练分类模型
培训的工作流程,比较和改进分类模型,包括自动、手动和并行培训。 - 对分类学习者的分类能力进行可视化和评估
比较模型的准确性分数,通过绘制类预测来可视化结果,并在混淆矩阵中检查每个类的性能。 - 基于分类学习者App的特征选择与特征转换
使用图或特征排序算法识别有用的预测器,选择要包含的特征,并在分类学习者中使用PCA转换特征。
特征选择
- 特征选择介绍
了解特征选择算法,并探索用于特征选择的函数。 - 连续的特征选择
本主题介绍顺序特征选择,并提供一个使用自定义标准和顺序选择特征的示例sequentialfs
函数。 - 邻域成分分析(NCA)特征选择
邻域分量分析(NCA)是一种非参数特征选择方法,其目标是使回归和分类算法的预测精度最大化。 - 调整正则化参数,利用NCA检测特征进行分类
这个例子展示了如何调优正则化参数fscnca
使用交叉验证。 - 正则化判别分析分类器
通过在不影响模型预测能力的情况下删除预测因子,使模型更健壮、更简单。 - 选择高维数据分类的特性
此示例演示如何选择用于对高维数据进行分类的特征。
工程特性
- 分类自动化特征工程
使用gencfeatures
在训练分类模型之前设计新的特征。在对新数据进行预测之前,对新数据集应用相同的特征转换。
自动模型选择
- 基于贝叶斯和ASHA优化的自动分类器选择
使用fitcauto
自动尝试选择具有不同超参数值的分类模型类型,给定训练预测器和响应数据。
Hyperparameter优化
- 贝叶斯优化工作流程
使用拟合函数或调用贝叶斯优化bayesopt
直接。 - 变量的贝叶斯优化
为贝叶斯优化创建变量。 - 贝叶斯优化目标函数
为贝叶斯优化创建目标函数。 - 贝叶斯优化中的约束条件
为贝叶斯优化设置不同类型的约束。 - 使用bayesopt优化交叉验证的分类器
使用贝叶斯优化最小化交叉验证损失。 - 使用贝叶斯优化优化分类器拟合
方法将交叉验证损失最小化OptimizeParameters
拟合函数中的名称-值参数。 - 贝叶斯优化图函数
直观地监视贝叶斯优化。 - 贝叶斯优化输出函数
监视贝叶斯优化。 - 贝叶斯优化算法
理解贝叶斯优化的基本算法。 - 平行的贝叶斯优化
贝叶斯优化是如何并行工作的。
模型的解释
- 解释机器学习模型
解释模型预测石灰
而且沙普利
对象和plotPartialDependence
函数。 - 机器学习模型的Shapley值
使用两个算法计算机器学习模型的Shapley值:kernelSHAP和对kernelSHAP的扩展。
交叉验证
- 使用并行计算实现交叉验证
使用并行计算加速交叉验证。
分类性能评价
- ROC曲线与绩效指标
使用rocmetrics
在测试数据集上检验分类算法的性能。 - 性能曲线perfcurve
学习如何perfcurve
函数计算接收机工作特征(ROC)曲线。