主要内容

resubEdge

Resubstitution分类边缘

    描述

    例子

    e= resubEdge (Mdl返回加权替换分类的优势e)为训练后的分类模型Mdl使用存储的预测器数据Mdl。X,对应的真类标签存储在Mdl。Y,存储的观测权值Mdl。W

    例子

    e= resubEdge (Mdl“IncludeInteractions”,includeInteractions指定是否在计算中包含交互项。此语法仅适用于广义加性模型。

    例子

    全部折叠

    加载电离层数据集。该数据集有34个预测器和351个雷达返回二进制响应,坏的(“b”)或好(‘g’).

    负载电离层

    训练支持向量机分类器。标准化数据并指定‘g’是正类。

    SVMModel = fitcsvm (X, Y,“标准化”,真的,“类名”, {“b”‘g’});

    SVMModel是一个培训ClassificationSVM分类器。

    估计再替换边,它是训练样本裕度的平均值。

    e = resubEdge (SVMModel)
    e = 5.0997

    分类器边缘度量分类器边缘的平均值。执行特征选择的一种方法是比较来自多个模型的训练样本边缘。仅根据这个标准,边缘最高的分类器就是最好的分类器。

    加载电离层数据集。去掉前两个稳定性预测因子。

    负载电离层X = X(:, 3:结束);

    定义以下两个数据集:

    • fullX包含所有预测。

    • partX包含10个最重要的预测因素。

    fullX = X;idx = fscmrmr (X, Y);partX = X (:, idx (1:10));

    为每个预测集训练一个朴素贝叶斯分类器。

    FullMdl = fitcnb (fullX Y);PartMdl = fitcnb (partX Y);

    FullMdl而且PartMdl被训练ClassificationNaiveBayes分类器。

    估计每个分类器的训练样本边缘。

    fullEdge = resubEdge (FullMdl)
    fullEdge = 0.6554
    partEdge = resubEdge (PartMdl)
    partEdge = 0.7796

    在10个最重要的预测因子上训练的分类器的边缘更大。这一结果表明,只使用这些预测因子训练的分类器具有更好的样本内拟合。

    通过检查训练样本的边界和边,将具有线性项的广义相加模型(GAM)与同时具有线性项和相互作用项的GAM进行比较。仅根据这种比较,边际和边缘最高的分类器是最好的模型。

    加载存储在中的1994年人口普查数据census1994.mat.该数据集由来自美国人口普查局的人口统计数据组成,用来预测一个人的年收入是否超过5万美元。分类任务是根据人们的年龄、劳动阶层、教育程度、婚姻状况、种族等,拟合一个预测工资类别的模型。

    负载census1994

    census1994包含训练数据集adultdata和测试数据集成人.为了减少本例的运行时间,从adultdata通过使用datasample函数。

    rng (“默认”%的再现性NumSamples = 5 e2;adultdata = datasample (adultdata NumSamples,“替换”、假);

    训练一个包含线性项和相互作用项的预测项的GAM。指定包括所有可用的交互术语p-值不大于0.05。

    Mdl = fitcgam (adultdata,“工资”“互动”“所有”“MaxPValue”, 0.05)
    Mdl = ClassificationGAM PredictorNames: {1x14 cell} ResponseName: 'salary' CategoricalPredictors: [2 4 6 7 8 9 10 14] ClassNames: [<=50K >50K] ScoreTransform: 'logit' Intercept: -28.5594 interaction: [82x2 double] NumObservations: 500 Properties, Methods

    Mdl是一个ClassificationGAM模型对象。Mdl包括82个交互项。

    估计训练样本的边界和边缘Mdl

    M = resubMargin (Mdl);E = resubEdge (Mdl)
    E = 1.0000

    估计训练样本的边界和边缘Mdl不包括交互项。

    M_nointeractions = resubMargin (Mdl,“IncludeInteractions”、假);E_nointeractions = resubEdge (Mdl,“IncludeInteractions”假)
    E_nointeractions = 0.9516

    使用框图显示边缘的分布。

    箱线图([M M_nointeractions],“标签”, {“线性和交互术语”“线性条件仅”})标题(“训练样本边际箱形图”

    图中包含一个axes对象。标题为Box Plots of Training Sample margin的axis对象包含14个类型为line的对象。

    当你在计算中包含交互项时,所有的再替换边际值Mdl为1,而替换边值(边的平均值)为1。当不包括相互作用项时,边界和边减小Mdl

    输入参数

    全部折叠

    分类机器学习模型,指定为一个完整的分类模型对象,如下表所示的支持模型。

    模型 分类模型对象
    广义加性模型 ClassificationGAM
    k最近的邻居模型 ClassificationKNN
    朴素贝叶斯模型 ClassificationNaiveBayes
    神经网络模型 ClassificationNeuralNetwork
    单类和二元分类的支持向量机 ClassificationSVM

    标记以包括模型的交互术语,指定为真正的.这个论点仅对广义加性模型(GAM)有效。也就是说,只有当MdlClassificationGAM

    默认值为真正的如果Mdl包含交互方面。取值必须为如果模型不包含交互项。

    数据类型:逻辑

    更多关于

    全部折叠

    分类的优势

    分类的优势是分类裕度的加权平均值。

    在多个分类器中进行选择(例如执行特征选择)的一种方法是选择产生最大优势的分类器。

    分类保证金

    分类保证金对于二元分类,对于每个观察,是真实类的分类分数与虚假类的分类分数之间的差值。的分类保证金对于多类分类,为真实类的分类分数与虚假类的最大分类分数之差。

    如果差值在相同的刻度上(也就是说,评分值基于相同的评分转换),那么它们就可以作为分类置信度度量。在多个分类器中,利润率更高的分类器更好。

    算法

    resubEdge根据对应的计算分类边边缘对象的函数(Mdl).有关特定于模型的描述,请参见边缘下表中的函数参考页。

    模型 分类模型对象(Mdl 边缘目标函数
    广义加性模型 ClassificationGAM 边缘
    k最近的邻居模型 ClassificationKNN 边缘
    朴素贝叶斯模型 ClassificationNaiveBayes 边缘
    神经网络模型 ClassificationNeuralNetwork 边缘
    单类和二元分类的支持向量机 ClassificationSVM 边缘

    扩展功能

    版本历史

    介绍了R2012a

    全部展开

    Baidu
    map