testcholdout年代p一个n>
比较两种分类模型的预测精度
语法
描述
testcholdout
统计上评估两种分类模型的准确性。该函数首先将他们的预测标签与真实标签进行比较,然后检测误分类率之间的差异是否具有统计学意义。
您可以评估分类模型的准确性是否不同,或者一个分类模型是否比另一个更好。testcholdout
可以进行一些<一个href="//www.ru-cchi.com/help/stats/testcholdout.html" class="intrnllnk">McNemar检验法检验一个>变异,包括渐近检验,确切条件检验,和中间
通过执行中间操作返回测试决策h
= testcholdout (<一个href="#bupt6wj-YHat1" class="intrnllnk">YHat1
,<一个href="#bupt6wj-YHat2" class="intrnllnk">YHat2
,<一个href="#bupt6wj-Y" class="intrnllnk">Y
)YHat1
而且YHat2
是否有同样的准确性来预测真正的类别标签Y
.另一种假设是,这些标签的准确性不相等。
h
=1
表示在5%显著性水平上拒绝原假设。h
=0
表示在5%的水平上不拒绝零假设。
返回带有一个或多个指定的附加选项的假设检验结果h
= testcholdout (<一个href="#bupt6wj-YHat1" class="intrnllnk">YHat1
,<一个href="#bupt6wj-YHat2" class="intrnllnk">YHat2
,<一个href="#bupt6wj-Y" class="intrnllnk">Y
,<一个href="#namevaluepairarguments" class="intrnllnk">名称,值
)名称,值
对参数。例如,您可以指定备选假设的类型,指定检验的类型,或者提供一个成本矩阵。
[<一个href="#bupt6wj_sep_shared-h" class="intrnllnk">
返回h
,<一个href="#bupt6wj_sep_shared-p" class="intrnllnk">p
,<一个href="#bupt6wj-e1" class="intrnllnk">e1
,<一个href="#bupt6wj-e2" class="intrnllnk">e2
) = testcholdout (<年代p一个nclass="argument_placeholder">___年代p一个n>)p
)及各自的<一个href="//www.ru-cchi.com/help/stats/testcholdout.html" class="intrnllnk">分类损失一个>每组预测类别标签(e1
而且e2
)使用前面语法中的任何输入参数。
例子
比较两种不同分类模型的准确性
用不同的算法训练两种分类模型。进行统计检验,比较两种模型在保留集上的误分类率。
加载电离层
数据集。
负载<年代p一个n年代tyle="color:#A020F0">电离层年代p一个n>
创建一个分区,将数据平均地划分为训练集和测试集。
rng (1);<年代p一个n年代tyle="color:#228B22">%的再现性年代p一个n>本量利= cvpartition (Y,<年代p一个n年代tyle="color:#A020F0">“坚持”年代p一个n>, 0.5);idxTrain =培训(CVP);<年代p一个n年代tyle="color:#228B22">%训练集指数年代p一个n>idxTest =测试(CVP);<年代p一个n年代tyle="color:#228B22">%测试集指数年代p一个n>
本量利
是一个指定训练集和测试集的交叉验证分区对象。
训练支持向量机模型和100个袋装分类树的集合。对于支持向量机模型,指定使用径向基函数核和启发式方法确定核尺度。
MdlSVM = fitcsvm (X (idxTrain:), Y (idxTrain),<年代p一个n年代tyle="color:#A020F0">“标准化”年代p一个n>,真的,<年代p一个n年代tyle="color:#0000FF">...年代p一个n>“KernelFunction”年代p一个n>,<年代p一个n年代tyle="color:#A020F0">“RBF”年代p一个n>,<年代p一个n年代tyle="color:#A020F0">“KernelScale”年代p一个n>,<年代p一个n年代tyle="color:#A020F0">“汽车”年代p一个n>);t = templateTree (<年代p一个n年代tyle="color:#A020F0">“复制”年代p一个n>,真正的);<年代p一个n年代tyle="color:#228B22">随机预测器选择的再现性。年代p一个n>MdlBag = fitcensemble (X (idxTrain:), Y (idxTrain),<年代p一个n年代tyle="color:#A020F0">“方法”年代p一个n>,<年代p一个n年代tyle="color:#A020F0">“包”年代p一个n>,<年代p一个n年代tyle="color:#A020F0">“学习者”年代p一个n>t);
MdlSVM
是一个培训ClassificationSVM
模型。MdlBag
是一个培训ClassificationBaggedEnsemble
模型。
使用训练过的模型标记测试集观测值。
YhatSVM =预测(MdlSVM X (idxTest:));YhatBag =预测(MdlBag X (idxTest:));
YhatSVM
而且YhatBag
是延续各自模型的预测类标签的向量。
测试两个模型是否具有相同的预测精度。
h = testcholdout (YhatSVM YhatBag Y (idxTest))
h =<年代p一个nclass="emphasis">逻辑0
h = 0
表示不拒绝零假设,即两个模型具有相等的预测精度。
评估一种分类模型是否比另一种分类更好
使用相同的算法训练两个分类模型,但调整一个超参数使算法更复杂。进行统计测试,以评估更简单的模型是否比更复杂的模型在持有数据方面有更好的准确性。
加载电离层
数据集。
负载<年代p一个n年代tyle="color:#A020F0">电离层年代p一个n>;
创建一个分区,将数据平均地划分为训练集和测试集。
rng (1);<年代p一个n年代tyle="color:#228B22">%的再现性年代p一个n>本量利= cvpartition (Y,<年代p一个n年代tyle="color:#A020F0">“坚持”年代p一个n>, 0.5);idxTrain =培训(CVP);<年代p一个n年代tyle="color:#228B22">%训练集指数年代p一个n>idxTest =测试(CVP);<年代p一个n年代tyle="color:#228B22">%测试集指数年代p一个n>
本量利
是一个指定训练集和测试集的交叉验证分区对象。
训练两个SVM模型:一个使用线性核(二进制分类的默认值),另一个使用径向基函数核。使用默认的内核刻度1。
MdlLinear = fitcsvm (X (idxTrain:), Y (idxTrain),<年代p一个n年代tyle="color:#A020F0">“标准化”年代p一个n>,真正的);MdlRBF = fitcsvm (X (idxTrain:), Y (idxTrain),<年代p一个n年代tyle="color:#A020F0">“标准化”年代p一个n>,真的,<年代p一个n年代tyle="color:#0000FF">...年代p一个n>“KernelFunction”年代p一个n>,<年代p一个n年代tyle="color:#A020F0">“RBF”年代p一个n>);
MdlLinear
而且MdlRBF
被训练ClassificationSVM
模型。
使用训练过的模型标记测试集观测值。
YhatLinear =预测(MdlLinear X (idxTest:));YhatRBF =预测(MdlRBF X (idxTest:));
YhatLinear
而且YhatRBF
是延续各自模型的预测类标签的向量。
测试零假设,更简单的模型(MdlLinear
)最多与更复杂的模型(MdlRBF
).由于测试集规模较大,进行渐近麦克内马尔检验,并将结果与中-进行比较<年代p一个nclass="emphasis">p-value test(不区分成本的测试默认值)。请求返回<年代p一个nclass="emphasis">p-值和错误分类率。
Asymp = 0 (4,1);<年代p一个n年代tyle="color:#228B22">%预先配置年代p一个n>MidP = 0 (4,1);[Asymp (1) Asymp (2), Asymp (3), Asymp (4)] = testcholdout (YhatLinear YhatRBF Y (idxTest),<年代p一个n年代tyle="color:#0000FF">...年代p一个n>“替代”年代p一个n>,<年代p一个n年代tyle="color:#A020F0">“更大的”年代p一个n>,<年代p一个n年代tyle="color:#A020F0">“测试”年代p一个n>,<年代p一个n年代tyle="color:#A020F0">渐近的年代p一个n>);(MidP MidP (1), (2), MidP (3), MidP (4)] = testcholdout (YhatLinear YhatRBF Y (idxTest),<年代p一个n年代tyle="color:#0000FF">...年代p一个n>“替代”年代p一个n>,<年代p一个n年代tyle="color:#A020F0">“更大的”年代p一个n>);表(MidP Asymp,<年代p一个n年代tyle="color:#A020F0">“RowNames”年代p一个n>,{<年代p一个n年代tyle="color:#A020F0">“h”年代p一个n>“p”年代p一个n>“e1”年代p一个n>“e2”年代p一个n>})
ans =<年代p一个nclass="emphasis">4×2表Asymp MidP __________ __________ h 1 1 p 7.2801e-09 2.7649e-10 e1 0.13714 0.13714 e2 0.33143 0.33143
的<年代p一个nclass="emphasis">p-value在两个检验中都接近于零,这表明有强有力的证据拒绝零假设,即更简单的模型不如更复杂的模型准确。无论指定什么测试,testcholdout
为两个模型返回相同类型的错误分类度量。
对两种分类模型进行成本敏感比较
对于类表示不平衡的数据集,或者假阳性和假阴性成本不平衡的数据集,可以通过在分析中包含成本矩阵来统计比较两种分类模型的预测性能。
加载心律失常
数据集。确定数据中的类表示。
负载<年代p一个n年代tyle="color:#A020F0">心律失常年代p一个n>;Y =分类(Y);汇总(Y);
数值计数百分比1 245 54.20% 2 44 9.73% 3 15 3.32% 4 15 3.32% 5 13 2.88% 6 25 5.53% 73 0.66% 8 2 0.44% 99 1.99% 10 50 11.06% 14 4 0.88% 15 5 1.11% 16 22 4.87%
有16个类,但是有些没有在数据集中表示(例如,类13)。大多数观察结果被归类为无心律失常(第1类)。数据集高度离散,类别不平衡。
将所有心律失常的观察结果(2 - 15班)合并到一个班。从数据集中删除心律失常状态未知的观察结果(第16类)。
idx = (Y ~=<年代p一个n年代tyle="color:#A020F0">“16”年代p一个n>);Y = Y (idx);X = X (idx:);Y (Y ~ =<年代p一个n年代tyle="color:#A020F0">' 1 '年代p一个n>) =<年代p一个n年代tyle="color:#A020F0">“WithArrhythmia”年代p一个n>;Y (Y = =<年代p一个n年代tyle="color:#A020F0">' 1 '年代p一个n>) =<年代p一个n年代tyle="color:#A020F0">“NoArrhythmia”年代p一个n>;Y = removecats (Y);
创建一个分区,将数据平均地划分为训练集和测试集。
rng (1);<年代p一个n年代tyle="color:#228B22">%的再现性年代p一个n>本量利= cvpartition (Y,<年代p一个n年代tyle="color:#A020F0">“坚持”年代p一个n>, 0.5);idxTrain =培训(CVP);<年代p一个n年代tyle="color:#228B22">%训练集指数年代p一个n>idxTest =测试(CVP);<年代p一个n年代tyle="color:#228B22">%测试集指数年代p一个n>
本量利
是一个指定训练集和测试集的交叉验证分区对象。
创建一个成本矩阵,将一个有心律失常的病人错误地划分为“没有心律失常”的级别,其后果是将一个没有心律失常的病人错误地划分为心律失常级别的5倍。正确的分类不会产生任何成本。行表示真实类,列表示预测类。当您进行成本敏感的分析时,一个好的实践是指定类的顺序。
成本= [0 1;5 0];一会= {<年代p一个n年代tyle="color:#A020F0">“NoArrhythmia”年代p一个n>,<年代p一个n年代tyle="color:#A020F0">“WithArrhythmia”年代p一个n>};
训练两个包含50个分类树的增强集成,一个使用AdaBoostM1,另一个使用LogitBoost。因为数据集中缺少值,所以指定使用代理分割。使用成本矩阵训练模型。
t = templateTree (<年代p一个n年代tyle="color:#A020F0">“代孕”年代p一个n>,<年代p一个n年代tyle="color:#A020F0">“上”年代p一个n>);numTrees = 50;MdlAda = fitcensemble (X (idxTrain:), Y (idxTrain),<年代p一个n年代tyle="color:#A020F0">“方法”年代p一个n>,<年代p一个n年代tyle="color:#A020F0">“AdaBoostM1”年代p一个n>,<年代p一个n年代tyle="color:#0000FF">...年代p一个n>“NumLearningCycles”年代p一个n>numTrees,<年代p一个n年代tyle="color:#A020F0">“学习者”年代p一个n>t<年代p一个n年代tyle="color:#0000FF">...年代p一个n>“成本”年代p一个n>、成本、<年代p一个n年代tyle="color:#A020F0">“类名”年代p一个n>类名);MdlLogit = fitcensemble (X (idxTrain:), Y (idxTrain),<年代p一个n年代tyle="color:#A020F0">“方法”年代p一个n>,<年代p一个n年代tyle="color:#A020F0">“LogitBoost”年代p一个n>,<年代p一个n年代tyle="color:#0000FF">...年代p一个n>“NumLearningCycles”年代p一个n>numTrees,<年代p一个n年代tyle="color:#A020F0">“学习者”年代p一个n>t<年代p一个n年代tyle="color:#0000FF">...年代p一个n>“成本”年代p一个n>、成本、<年代p一个n年代tyle="color:#A020F0">“类名”年代p一个n>类名);
MdlAda
而且MdlLogit
被训练ClassificationEnsemble
模型。
使用训练过的模型标记测试集观测值。
YhatAda =预测(MdlAda X (idxTest:));YhatLogit =预测(MdlLogit X (idxTest:));
YhatLinear
而且YhatRBF
是包含各自模型的预测类标签的向量。
测试AdaBoostM1集合(MdlAda
)和LogitBoost合集(MdlLogit
)具有相同的预测精度。提供成本矩阵。执行渐近、似然比、成本敏感测试(通过成本矩阵时的默认值)。请求返回<年代p一个nclass="emphasis">p-值和错误分类成本。
(h p e1, e2) = testcholdout (YhatAda YhatLogit Y (idxTest),<年代p一个n年代tyle="color:#0000FF">...年代p一个n>“成本”年代p一个n>、成本、<年代p一个n年代tyle="color:#A020F0">“类名”年代p一个n>类名)
h =<年代p一个nclass="emphasis">逻辑0
p = 0.1180
e1 = 0.6698
e2 = 0.8093
h = 0
表示不拒绝零假设,即两个模型具有相等的预测精度。
输入参数
YHat1
- - - - - -<年代p一个n我te米prop="purpose">预测类标签年代p一个n>
分类数组年代p一个n>|<年代p一个n我te米prop="inputvalue">字符数组年代p一个n>|<年代p一个n我te米prop="inputvalue">字符串数组年代p一个n>|<年代p一个n我te米prop="inputvalue">逻辑向量年代p一个n>|<年代p一个n我te米prop="inputvalue">数值向量年代p一个n>|<年代p一个n我te米prop="inputvalue">字符向量的单元格数组年代p一个n>
第一个分类模型的预测类标签,指定为类别、字符或字符串数组、逻辑或数字向量或字符向量的单元格数组。
如果YHat1
是字符数组,则每个元素必须对应于数组的一行。
YHat1
,<一个href="#bupt6wj-YHat2" class="intrnllnk">YHat2
,<一个href="#bupt6wj-Y" class="intrnllnk">Y
长度必须相等。
这是一种最佳实践YHat1
,YHat2
,Y
共享相同的数据类型。
数据类型:年代trong>分类
|字符
|字符串
|逻辑
|单
|双
|细胞
YHat2
- - - - - -<年代p一个n我te米prop="purpose">预测类标签年代p一个n>
分类数组年代p一个n>|<年代p一个n我te米prop="inputvalue">字符数组年代p一个n>|<年代p一个n我te米prop="inputvalue">字符串数组年代p一个n>|<年代p一个n我te米prop="inputvalue">逻辑向量年代p一个n>|<年代p一个n我te米prop="inputvalue">数值向量年代p一个n>|<年代p一个n我te米prop="inputvalue">字符向量的单元格数组年代p一个n>
第二个分类模型的预测类标签,指定为类别、字符或字符串数组、逻辑或数字向量或字符向量的单元格数组。
如果YHat2
是字符数组,则每个元素必须对应于数组的一行。
YHat1
,YHat2
,<一个href="#bupt6wj-Y" class="intrnllnk">Y
长度必须相等。
这是一种最佳实践YHat1
,YHat2
,Y
共享相同的数据类型。
数据类型:年代trong>分类
|字符
|字符串
|逻辑
|单
|双
|细胞
Y
- - - - - -<年代p一个n我te米prop="purpose">真正的类标签年代p一个n>
分类数组年代p一个n>|<年代p一个n我te米prop="inputvalue">字符数组年代p一个n>|<年代p一个n我te米prop="inputvalue">字符串数组年代p一个n>|<年代p一个n我te米prop="inputvalue">逻辑向量年代p一个n>|<年代p一个n我te米prop="inputvalue">数值向量年代p一个n>|<年代p一个n我te米prop="inputvalue">字符向量的单元格数组年代p一个n>
True类标签,指定为类别、字符或字符串数组、逻辑或数字向量或字符向量的单元格数组。
如果Y
是字符数组,则每个元素必须对应于数组的一行。
YHat1
,<一个href="#bupt6wj-YHat2" class="intrnllnk">YHat2
,Y
长度必须相等。
这是一种最佳实践YHat1
,YHat2
,Y
共享相同的数据类型。
数据类型:年代trong>分类
|字符
|字符串
|逻辑
|单
|双
|细胞
名称-值参数
指定可选参数对为Name1 = Value1,…,以=家
,在那里的名字
参数名称和价值
对应的值。名-值参数必须出现在其他参数之后,但对的顺序并不重要。
在R2021a之前,名称和值之间用逗号隔开,并括起来的名字
在报价。
例子:年代trong>“替代”、“大”、“测试”、“渐近”,“成本”,[0 2;1 0]
指定测试第一组预测类标签的第一组是否比第二组更准确,进行渐近麦克内马尔检验,并惩罚使用真实标签的错误分类观察一会{1}
是用真实标签对观察结果进行错误分类的两倍一会{2}
.年代p一个n>
α
- - - - - -<年代p一个n我te米prop="purpose">假设检验显著性水平年代p一个n>
0.05
(默认)|<年代p一个n我te米prop="inputvalue">区间(0,1)中的标量值年代p一个n>
假设检验显著性水平,指定为逗号分隔对组成“α”
和区间(0,1)中的一个标量值。
例子:年代trong>“阿尔法”,0.1
数据类型:年代trong>单
|双
替代
- - - - - -<年代p一个n我te米prop="purpose">评估的备选假设年代p一个n>
“不平等”
(默认)|<年代p一个n我te米prop="inputvalue">“更大的”
|<年代p一个n我te米prop="inputvalue">“少”
要评估的备选假设,指定为逗号分隔的对,由“替代”
和表中列出的值之一。
价值
备择假设
“不平等”
(默认)
预测<一个href="#bupt6wj-Y" class="intrnllnk">Y
,<一个href="#bupt6wj-YHat1" class="intrnllnk">YHat1
而且<一个href="#bupt6wj-YHat2" class="intrnllnk">YHat2
不平等的精度。
“更大的”
预测Y
,YHat1
比YHat2
.
“少”
预测Y
,YHat1
没有那么准确YHat2
.
例子:年代trong>“替代”、“大”
一会
- - - - - -<年代p一个n我te米prop="purpose">类名年代p一个n>
分类数组年代p一个n>|<年代p一个n我te米prop="inputvalue">字符数组年代p一个n>|<年代p一个n我te米prop="inputvalue">字符串数组年代p一个n>|<年代p一个n我te米prop="inputvalue">逻辑向量年代p一个n>|<年代p一个n我te米prop="inputvalue">数值向量年代p一个n>|<年代p一个n我te米prop="inputvalue">字符向量的单元格数组年代p一个n>
类名,指定为逗号分隔的对,由“类名”
以及类别、字符或字符串数组、逻辑或数字向量或字符向量的单元格数组。必须设置一会
的数据类型<一个href="#bupt6wj-Y" class="intrnllnk">Y
.
如果一会
是字符数组,则每个元素必须对应于数组的一行。
使用一会
:
指定与类顺序对应的任何输入参数维度的顺序。例如,使用一会
指定…尺寸的顺序<一个href="#bupt6wj_sep_shared-Cost" class="intrnllnk">成本
.
选择类的一个子集进行测试。例如,假设所有不同的类名的集合Y
是{' a ', ' b ', ' c '}
.训练和测试模型使用观察班级“一个”
而且“c”
只是,指定“类名”,{' a ', ' c '}
.
中的所有不同的类名的集合Y
.
例子:年代trong>“类名”,{' b ', ' g '}
数据类型:年代trong>单
|双
|逻辑
|字符
|字符串
|细胞
|分类
成本
- - - - - -<年代p一个n我te米prop="purpose">误分类代价年代p一个n>
方阵年代p一个n>|<年代p一个n我te米prop="inputvalue">结构数组年代p一个n>
错误分类代价,指定为逗号分隔的对组成“成本”
和一个方阵或结构数组。
如果你指定了方阵成本
,然后成本(i, j)
将一个点分类到类的成本是多少j
如果它真正的阶级是我
.也就是说,行对应真正的类,列对应预测的类。的相应行和列的类顺序成本
,另外指定<一个href="#d124e939481" class="intrnllnk">一会
名称-值对的论点。
如果指定了结构年代
,然后年代
必须有两个字段:
S.ClassNames
,其中将类名作为数据类型与<一个href="#bupt6wj-Y" class="intrnllnk">Y
.您可以使用此字段指定类的顺序。
S.ClassificationCosts
,其中包含成本矩阵,行和列的顺序为S.ClassNames
.
如果您指定成本
,然后testcholdout
不能进行片面的,准确的,或中间的p 测试。您还必须指定“替代”、“不平等”,“测试”、“渐近”
.有关成本敏感的测试选项,请参阅<一个href="#shared-CostTest" class="intrnllnk">成本
名称-值对的论点。
最佳实践是提供用于训练分类模型的相同成本矩阵。
默认值是成本(i, j) = 1
如果我~ = j
,成本(i, j) = 0
如果我=我
.
例子:年代trong>'Cost',[0 1 2;1 0 2;2 2 0)
数据类型:年代trong>单
|双
|结构体
成本
- - - - - -<年代p一个n我te米prop="purpose">敏感的测试类型年代p一个n>
“可能性”
(默认)|<年代p一个n我te米prop="inputvalue">“chisquare”
代价敏感的测试类型,指定为逗号分隔的对,由“成本”
而且“chisquare”
或“可能性”
.除非你指定一个成本矩阵使用<一个href="#bupt6wj_sep_shared-Cost" class="intrnllnk">成本
名称-值对的论点,testcholdout
忽略了成本
.
下表总结了成本敏感型测试的可用选项。
价值
渐近测试类型
需求
“chisquare”
卡方检验
优化工具箱许可证来实现<一个href="//www.ru-cchi.com/help/optim/ug/quadprog.html">quadprog
(优化工具箱)年代p一个n>
“可能性”
似然比检验
没有一个
有关更多细节,请参见<一个href="//www.ru-cchi.com/help/stats/testcholdout.html" class="intrnllnk">降低成本的测试方案一个>.
例子:年代trong>“成本”、“chisquare”
测试
- - - - - -<年代p一个n我te米prop="purpose">测试进行年代p一个n>
渐近的
|<年代p一个n我te米prop="inputvalue">“准确”
|<年代p一个n我te米prop="inputvalue">midp的
测试,指定为逗号分隔的对,由“测试”
而且渐近的
,“准确”
,midp的
.下表总结了成本不敏感测试的可用选项。
价值
描述
渐近的
渐近McNemar检验法检验
“准确”
Exact-conditional McNemar检验法检验
midp的
(默认)
中期p 价值McNemar检验法检验
有关更多细节,请参见<一个href="//www.ru-cchi.com/help/stats/testcholdout.html" class="intrnllnk">McNemar检验法测试一个>.
厂商在为测试,测试
必须渐近的
.当您指定<一个href="#bupt6wj_sep_shared-Cost" class="intrnllnk">成本
参数,并选择对成本敏感的测试<一个href="#shared-CostTest" class="intrnllnk">成本
名称-值对的论点,渐近的
是默认的。
例子:年代trong>“测试”、“渐近的
请注意年代trong>
南
年代,<定义>
值,空字符向量(”
),空字符串(""
),< >失踪
值表示丢失的数据值。testcholdout
:
处理中缺失的值YHat1
而且YHat2
更进一步的观察。
中删除丢失的值。Y
和对应的值YHat1
而且YHat2
指定可选参数对为Name1 = Value1,…,以=家
,在那里的名字
参数名称和价值
对应的值。名-值参数必须出现在其他参数之后,但对的顺序并不重要。
在R2021a之前,名称和值之间用逗号隔开,并括起来的名字
在报价。
例子:年代trong>“替代”、“大”、“测试”、“渐近”,“成本”,[0 2;1 0]
指定测试第一组预测类标签的第一组是否比第二组更准确,进行渐近麦克内马尔检验,并惩罚使用真实标签的错误分类观察一会{1}
是用真实标签对观察结果进行错误分类的两倍一会{2}
.年代p一个n>
α
- - - - - -<年代p一个n我te米prop="purpose">假设检验显著性水平年代p一个n>
0.05
(默认)|<年代p一个n我te米prop="inputvalue">区间(0,1)中的标量值年代p一个n>
假设检验显著性水平,指定为逗号分隔对组成“α”
和区间(0,1)中的一个标量值。
例子:年代trong>“阿尔法”,0.1
数据类型:年代trong>单
|双
替代
- - - - - -<年代p一个n我te米prop="purpose">评估的备选假设年代p一个n>
“不平等”
(默认)|<年代p一个n我te米prop="inputvalue">“更大的”
|<年代p一个n我te米prop="inputvalue">“少”
要评估的备选假设,指定为逗号分隔的对,由“替代”
和表中列出的值之一。
价值 | 备择假设 |
---|---|
“不平等” (默认) |
预测<一个href="#bupt6wj-Y" class="intrnllnk">Y ,<一个href="#bupt6wj-YHat1" class="intrnllnk">YHat1 而且<一个href="#bupt6wj-YHat2" class="intrnllnk">YHat2 不平等的精度。 |
“更大的” |
预测Y ,YHat1 比YHat2 . |
“少” |
预测Y ,YHat1 没有那么准确YHat2 . |
例子:年代trong>“替代”、“大”
一会
- - - - - -<年代p一个n我te米prop="purpose">类名年代p一个n>
分类数组年代p一个n>|<年代p一个n我te米prop="inputvalue">字符数组年代p一个n>|<年代p一个n我te米prop="inputvalue">字符串数组年代p一个n>|<年代p一个n我te米prop="inputvalue">逻辑向量年代p一个n>|<年代p一个n我te米prop="inputvalue">数值向量年代p一个n>|<年代p一个n我te米prop="inputvalue">字符向量的单元格数组年代p一个n>
类名,指定为逗号分隔的对,由“类名”
以及类别、字符或字符串数组、逻辑或数字向量或字符向量的单元格数组。必须设置一会
的数据类型<一个href="#bupt6wj-Y" class="intrnllnk">Y
.
如果一会
是字符数组,则每个元素必须对应于数组的一行。
使用一会
:
指定与类顺序对应的任何输入参数维度的顺序。例如,使用
一会
指定…尺寸的顺序<一个href="#bupt6wj_sep_shared-Cost" class="intrnllnk">成本
.选择类的一个子集进行测试。例如,假设所有不同的类名的集合
Y
是{' a ', ' b ', ' c '}
.训练和测试模型使用观察班级“一个”
而且“c”
只是,指定“类名”,{' a ', ' c '}
.
中的所有不同的类名的集合Y
.
例子:年代trong>“类名”,{' b ', ' g '}
数据类型:年代trong>单
|双
|逻辑
|字符
|字符串
|细胞
|分类
成本
- - - - - -<年代p一个n我te米prop="purpose">误分类代价年代p一个n>
方阵年代p一个n>|<年代p一个n我te米prop="inputvalue">结构数组年代p一个n>
错误分类代价,指定为逗号分隔的对组成“成本”
和一个方阵或结构数组。
如果你指定了方阵
成本
,然后成本(i, j)
将一个点分类到类的成本是多少j
如果它真正的阶级是我
.也就是说,行对应真正的类,列对应预测的类。的相应行和列的类顺序成本
,另外指定<一个href="#d124e939481" class="intrnllnk">一会
名称-值对的论点。如果指定了结构
年代
,然后年代
必须有两个字段:S.ClassNames
,其中将类名作为数据类型与<一个href="#bupt6wj-Y" class="intrnllnk">Y
.您可以使用此字段指定类的顺序。S.ClassificationCosts
,其中包含成本矩阵,行和列的顺序为S.ClassNames
.
如果您指定成本
,然后testcholdout
不能进行片面的,准确的,或中间的“替代”、“不平等”,“测试”、“渐近”
.有关成本敏感的测试选项,请参阅<一个href="#shared-CostTest" class="intrnllnk">成本
名称-值对的论点。
最佳实践是提供用于训练分类模型的相同成本矩阵。
默认值是成本(i, j) = 1
如果我~ = j
,成本(i, j) = 0
如果我=我
.
例子:年代trong>'Cost',[0 1 2;1 0 2;2 2 0)
数据类型:年代trong>单
|双
|结构体
成本
- - - - - -<年代p一个n我te米prop="purpose">敏感的测试类型年代p一个n>
“可能性”
(默认)|<年代p一个n我te米prop="inputvalue">“chisquare”
代价敏感的测试类型,指定为逗号分隔的对,由“成本”
而且“chisquare”
或“可能性”
.除非你指定一个成本矩阵使用<一个href="#bupt6wj_sep_shared-Cost" class="intrnllnk">成本
名称-值对的论点,testcholdout
忽略了成本
.
下表总结了成本敏感型测试的可用选项。
价值 | 渐近测试类型 | 需求 |
---|---|---|
“chisquare” |
卡方检验 | 优化工具箱许可证来实现<一个href="//www.ru-cchi.com/help/optim/ug/quadprog.html">quadprog (优化工具箱)年代p一个n> |
“可能性” |
似然比检验 | 没有一个 |
有关更多细节,请参见<一个href="//www.ru-cchi.com/help/stats/testcholdout.html" class="intrnllnk">降低成本的测试方案一个>.
例子:年代trong>“成本”、“chisquare”
测试
- - - - - -<年代p一个n我te米prop="purpose">测试进行年代p一个n>
渐近的
|<年代p一个n我te米prop="inputvalue">“准确”
|<年代p一个n我te米prop="inputvalue">midp的
测试,指定为逗号分隔的对,由“测试”
而且渐近的
,“准确”
,midp的
.下表总结了成本不敏感测试的可用选项。
价值 | 描述 |
---|---|
渐近的 |
渐近McNemar检验法检验 |
“准确” |
Exact-conditional McNemar检验法检验 |
midp的 (默认) |
中期 |
有关更多细节,请参见<一个href="//www.ru-cchi.com/help/stats/testcholdout.html" class="intrnllnk">McNemar检验法测试一个>.
厂商在为测试,测试
必须渐近的
.当您指定<一个href="#bupt6wj_sep_shared-Cost" class="intrnllnk">成本
参数,并选择对成本敏感的测试<一个href="#shared-CostTest" class="intrnllnk">成本
名称-值对的论点,渐近的
是默认的。
例子:年代trong>“测试”、“渐近的
请注意年代trong>
南
年代,<定义>
值,空字符向量(”
),空字符串(""
),< >失踪
值表示丢失的数据值。testcholdout
:
处理中缺失的值
YHat1
而且YHat2
更进一步的观察。中删除丢失的值。
Y
和对应的值YHat1
而且YHat2
输出参数
h
-假设检验结果
1
|0
假设检验结果,作为逻辑值返回。
h = 1
表示拒绝原假设<一个href="#bupt6wj_sep_shared-Alpha" class="intrnllnk">α
显著性水平。
h = 0
表示未能拒绝零假设α
显著性水平。
数据类型:年代trong>逻辑
p
- - - - - -p 价值
区间[0,1]中的标量年代p一个n>
p-value,作为间隔[0,1]的标量返回。p
是在零假设成立的前提下,随机检验统计量至少与观察检验统计量极端的概率。
testcholdout
估计p
使用测试统计数据的分布,它随测试类型的不同而变化。有关从McNemar测试的可用变体派生的测试统计信息的详细信息,请参见<一个href="//www.ru-cchi.com/help/stats/testcholdout.html" class="intrnllnk">McNemar检验法测试一个>.有关从成本敏感型测试派生的测试统计信息的详细信息,请参见<一个href="//www.ru-cchi.com/help/stats/testcholdout.html" class="intrnllnk">降低成本的测试方案一个>.
e1
——分类损失
标量年代p一个n>
分类损失一个>总结了第一组类标签(<一个href="#bupt6wj-YHat1" class="intrnllnk">YHat1
)预测真正的类标签(<一个href="#bupt6wj-Y" class="intrnllnk">Y
),作为标量返回。
对于cost-insensitive测试,e1
是误分类率。也就是说,e1
是错误分类观测的比例,它是区间[0,1]中的一个标量。
厂商在为测试,e1
是错误分类的代价。也就是说,e1
为误分类代价的加权平均值,其中权重为各自估计的误分类观测的比例。
e2
——分类损失
标量年代p一个n>
分类损失一个>总结了第二组类标签的准确性(<一个href="#bupt6wj-YHat2" class="intrnllnk">YHat2
)预测真正的类标签(<一个href="#bupt6wj-Y" class="intrnllnk">Y
),作为标量返回。
对于cost-insensitive测试,e2
是误分类率。也就是说,e2
是错误分类观测的比例,它是区间[0,1]中的一个标量。
厂商在为测试,e2
是错误分类的代价。也就是说,e2
为误分类代价的加权平均值,其中权重为各自估计的误分类观测的比例。
更多关于
降低成本的测试方案
行为降低成本的测试方案 当错误分类的代价是不平衡的。通过进行成本敏感的分析,您可以在训练分类模型和对它们进行统计比较时解释成本不平衡。
如果错分类的代价是不平衡的,那么错分类率往往是一个表现不佳的分类损失。用错误分类成本代替比较分类模型。
在应用中,错误分类的成本往往是不平衡的。例如,考虑根据一组预测因素将受试者分为两类:健康的和生病的。将患病的受试者错误地归类为健康的受试者会对受试者的生命造成危险。然而,将健康的受试者错误地归类为病人通常会造成一些不便,但不会造成重大危险。在这种情况下,你分配错误分类的成本,将患病的受试者错误分类为健康的成本比将健康的受试者错误分类为生病的成本更高。
下面的定义总结了成本敏感型测试。的定义:
n<年代ub>ijk年代ub>而且<年代p一个nclass="inlineequation">
为具有以下特征的测试样本观测值的数量和估计比例。k 才是真正的阶级,我 标签是由第一个分类模型分配的,和j 是由第二个分类模型分配的标签。的未知的真实值<年代p一个nclass="inlineequation">
是π<年代ub>ijk年代ub>.测试集样本量为<年代p一个nclass="inlineequation">
此外,<年代p一个nclass="inlineequation">
c<年代ub>ij年代ub>是分配标签的相对成本吗j 对一个真正有品位的观察我 .c<年代ub>2年代ub>= 0,c<年代ub>ij年代ub>≥0,且,对于至少一个(我 ,j ),c<年代ub>ij年代ub>> 0。
所有下标都取从1到1的整数值K ,表示类的数量。
两种分类模型误分类代价的预期差异为
假设检验是
可用的成本敏感测试适用于双尾测试。
可用的解决不平衡代价的渐近检验是一个卡方检验 和一个似然比检验 .
卡方检验——卡方检验统计数据是基于皮尔逊和内曼卡方检验统计数据,但有一个拉普拉斯修正因子来解释任何n<年代ub>ijk年代ub>= 0。测试统计值为
如果<年代p一个nclass="inlineequation">
,然后拒绝H 0年代ub>.
通过最小化来估计<年代p一个nclass="inlineequation">
在约束条件下δ = 0。
是χ 2年代up>一个自由度的CDF值为x .
似然比检验-似然比检验基于N<年代ub>ijk年代ub>,为具有样本量的二项随机变量n<年代ub>测验年代ub>和成功概率π<年代ub>ijk年代ub>.随机变量表示观察值的随机数,具有:真类k 、标签我 由第一分类模型分配,并贴上标签j 由第二个分类模型分配。联合起来,随机变量的分布是多项的。
测试统计值为
如果<年代p一个nclass="inlineequation">
然后拒绝H 0年代ub>.
的无限制MLE是多少π<年代ub>ijk年代ub>.
零假设下的MLE是δ = 0。λ 是解决方案
是χ 2年代up>一个自由度的CDF值为x .
行为
如果错分类的代价是不平衡的,那么错分类率往往是一个表现不佳的分类损失。用错误分类成本代替比较分类模型。
在应用中,错误分类的成本往往是不平衡的。例如,考虑根据一组预测因素将受试者分为两类:健康的和生病的。将患病的受试者错误地归类为健康的受试者会对受试者的生命造成危险。然而,将健康的受试者错误地归类为病人通常会造成一些不便,但不会造成重大危险。在这种情况下,你分配错误分类的成本,将患病的受试者错误分类为健康的成本比将健康的受试者错误分类为生病的成本更高。
下面的定义总结了成本敏感型测试。的定义:
n<年代ub>ijk年代ub>而且<年代p一个nclass="inlineequation"> 为具有以下特征的测试样本观测值的数量和估计比例。
k 才是真正的阶级,我 标签是由第一个分类模型分配的,和j 是由第二个分类模型分配的标签。的未知的真实值<年代p一个nclass="inlineequation"> 是π<年代ub>ijk年代ub>.测试集样本量为<年代p一个nclass="inlineequation"> 此外,<年代p一个nclass="inlineequation"> c<年代ub>ij年代ub>是分配标签的相对成本吗
j 对一个真正有品位的观察我 .c<年代ub>2年代ub>= 0, c<年代ub>ij年代ub>≥0,且,对于至少一个( 我 ,j ),c<年代ub>ij年代ub>> 0。 所有下标都取从1到1的整数值
K ,表示类的数量。两种分类模型误分类代价的预期差异为
假设检验是
可用的成本敏感测试适用于双尾测试。
可用的解决不平衡代价的渐近检验是一个
卡方检验——卡方检验统计数据是基于皮尔逊和内曼卡方检验统计数据,但有一个拉普拉斯修正因子来解释任何
n<年代ub>ijk年代ub>= 0。测试统计值为 如果<年代p一个nclass="inlineequation"> ,然后拒绝
H 0年代ub>.通过最小化来估计<年代p一个nclass="inlineequation"> 在约束条件下
δ = 0。是
χ 2年代up>一个自由度的CDF值为x .
似然比检验-似然比检验基于
N<年代ub>ijk年代ub>,为具有样本量的二项随机变量 n<年代ub>测验年代ub>和成功概率 π<年代ub>ijk年代ub>.随机变量表示观察值的随机数,具有:真类 k 、标签我 由第一分类模型分配,并贴上标签j 由第二个分类模型分配。联合起来,随机变量的分布是多项的。测试统计值为
如果<年代p一个nclass="inlineequation"> 然后拒绝
H 0年代ub>.的无限制MLE是多少
π<年代ub>ijk年代ub>. 零假设下的MLE是
δ = 0。λ 是解决方案是
χ 2年代up>一个自由度的CDF值为x .
McNemar检验法测试
McNemar检验法测试是比较两个总体比例的假设检验,同时处理由两个相互依赖的配对样本产生的问题。
比较两种分类模型预测精度的一种方法是:
将数据划分为训练集和测试集。
使用训练集训练两种分类模型。
使用测试集预测类标签。
在类似于下图的2乘2表中总结结果。
n<年代ub>2年代ub>是一致对的数量,即两个模型以相同的方式分类(正确或不正确)的观察的数量。n<年代ub>ij年代ub>,我 ≠j ,是不一致对的数量,即模型分类不同(正确或不正确)的观察量的数量。
模型1和模型2的误分类率为<年代p一个nclass="inlineequation">
而且<年代p一个nclass="inlineequation">
,分别。比较两个模型的准确性的双面检验是
原假设表明种群表现出边际同质性,使原假设降为<年代p一个nclass="inlineequation">
同样,在零假设下,N 12年代ub>~二项(n 12年代ub>+n 21年代ub>, 0.5)<一个href="//www.ru-cchi.com/help/stats/bibliography.html" class="a">[1]一个>.
这些事实是可用的麦克内马尔测试变体的基础渐近 ,exact-conditional ,mid-p-value McNemar检验法测试。下面的定义总结了可用的变体。
渐近-渐近麦克内马尔检验统计量和拒绝区域(为显著性水平α ):
对于单边测试,测试统计值为
如果<年代p一个nclass="inlineequation">
在哪里Φ 为标准高斯cdf,则拒绝H 0年代ub>.
对于双面检验,检验统计量为
如果<年代p一个nclass="inlineequation">
,在那里<年代p一个nclass="inlineequation">
是χ<年代ub>米年代ub>2年代up>提供评估在x ,然后拒绝H 0年代ub>.
渐近检验需要大样本理论,特别是二项分布的高斯近似。
不一致对的总数,<年代p一个nclass="inlineequation">
,必须大于10 (<一个href="//www.ru-cchi.com/help/stats/bibliography.html" class="a">[1]一个>, Ch。10.1.4)。
一般来说,渐近检验不能保证名义覆盖率。观察到的错误拒绝零假设的概率可能超过α 的模拟研究结果<一个href="//www.ru-cchi.com/help/stats/bibliography.html" class="a">[18]一个>.然而,渐近麦克内马尔检验在统计力方面表现良好。
精确条件-精确条件麦克内马尔检验统计和拒绝区域(为显著性水平α ) (<一个href="//www.ru-cchi.com/help/stats/bibliography.html" class="a">[36]一个>,<一个href="//www.ru-cchi.com/help/stats/bibliography.html" class="a">[38]一个>):
对于单边测试,测试统计值为
如果<年代p一个nclass="inlineequation">
,在那里<年代p一个nclass="inlineequation">
二项CDF是否具有样本量n 和成功概率p 评估在x ,然后拒绝H 0年代ub>.
对于双面检验,检验统计量为
如果<年代p一个nclass="inlineequation">
,然后拒绝H 0年代ub>.
精确条件检验总是达到名义覆盖率。仿真研究<一个href="//www.ru-cchi.com/help/stats/bibliography.html" class="a">[18]一个>说明该检验是保守的,然后表明该检验与其他变量相比缺乏统计力。对于小的或高度离散的测试样本,考虑使用中间p 值测试(<一个href="//www.ru-cchi.com/help/stats/bibliography.html" class="a">[1]一个>, Ch。3.6.3)。
中期p -value test -中间值p -value McNemar检验统计量和拒绝区域(为显著性水平α ) (<一个href="//www.ru-cchi.com/help/stats/bibliography.html" class="a">[32]一个>):
对于单边测试,测试统计值为
如果<年代p一个nclass="inlineequation">
,在那里<年代p一个nclass="inlineequation">
而且<年代p一个nclass="inlineequation">
二项CDF和pdf是否分别具有样本量n 和成功概率p 评估在x ,然后拒绝H 0年代ub>.
对于双面检验,检验统计量为
如果<年代p一个nclass="inlineequation">
,然后拒绝H 0年代ub>.
年代中期p -value检验解决了精确条件检验的过度保守行为。的仿真研究<一个href="//www.ru-cchi.com/help/stats/bibliography.html" class="a">[18]一个>证明该测试达到名义覆盖率,并具有良好的统计能力。
McNemar检验法测试是比较两个总体比例的假设检验,同时处理由两个相互依赖的配对样本产生的问题。
比较两种分类模型预测精度的一种方法是:
将数据划分为训练集和测试集。
使用训练集训练两种分类模型。
使用测试集预测类标签。
在类似于下图的2乘2表中总结结果。
n<年代ub>2年代ub>是一致对的数量,即两个模型以相同的方式分类(正确或不正确)的观察的数量。
n<年代ub>ij年代ub>, 我 ≠j ,是不一致对的数量,即模型分类不同(正确或不正确)的观察量的数量。
模型1和模型2的误分类率为<年代p一个nclass="inlineequation"> 而且<年代p一个nclass="inlineequation"> ,分别。比较两个模型的准确性的双面检验是
原假设表明种群表现出边际同质性,使原假设降为<年代p一个nclass="inlineequation">
同样,在零假设下,
这些事实是可用的麦克内马尔测试变体的基础
渐近-渐近麦克内马尔检验统计量和拒绝区域(为显著性水平
α ):对于单边测试,测试统计值为
如果<年代p一个nclass="inlineequation"> 在哪里
Φ 为标准高斯cdf,则拒绝H 0年代ub>.对于双面检验,检验统计量为
如果<年代p一个nclass="inlineequation"> ,在那里<年代p一个nclass="inlineequation"> 是
χ<年代ub>米年代ub>2年代up>提供评估在 x ,然后拒绝H 0年代ub>.
渐近检验需要大样本理论,特别是二项分布的高斯近似。
不一致对的总数,<年代p一个nclass="inlineequation"> ,必须大于10 (<一个href="//www.ru-cchi.com/help/stats/bibliography.html" class="a">[1]一个>, Ch。10.1.4)。
一般来说,渐近检验不能保证名义覆盖率。观察到的错误拒绝零假设的概率可能超过
α 的模拟研究结果<一个href="//www.ru-cchi.com/help/stats/bibliography.html" class="a">[18]一个>.然而,渐近麦克内马尔检验在统计力方面表现良好。
精确条件-精确条件麦克内马尔检验统计和拒绝区域(为显著性水平
α ) (<一个href="//www.ru-cchi.com/help/stats/bibliography.html" class="a">[36]一个>,<一个href="//www.ru-cchi.com/help/stats/bibliography.html" class="a">[38]一个>):对于单边测试,测试统计值为
如果<年代p一个nclass="inlineequation"> ,在那里<年代p一个nclass="inlineequation"> 二项CDF是否具有样本量
n 和成功概率p 评估在x ,然后拒绝H 0年代ub>.对于双面检验,检验统计量为
如果<年代p一个nclass="inlineequation"> ,然后拒绝
H 0年代ub>.
精确条件检验总是达到名义覆盖率。仿真研究<一个href="//www.ru-cchi.com/help/stats/bibliography.html" class="a">[18]一个>说明该检验是保守的,然后表明该检验与其他变量相比缺乏统计力。对于小的或高度离散的测试样本,考虑使用中间
p 值测试(<一个href="//www.ru-cchi.com/help/stats/bibliography.html" class="a">[1]一个>, Ch。3.6.3)。中期
p -value test -中间值p -value McNemar检验统计量和拒绝区域(为显著性水平α ) (<一个href="//www.ru-cchi.com/help/stats/bibliography.html" class="a">[32]一个>):对于单边测试,测试统计值为
如果<年代p一个nclass="inlineequation"> ,在那里<年代p一个nclass="inlineequation"> 而且<年代p一个nclass="inlineequation"> 二项CDF和pdf是否分别具有样本量
n 和成功概率p 评估在x ,然后拒绝H 0年代ub>.对于双面检验,检验统计量为
如果<年代p一个nclass="inlineequation"> ,然后拒绝
H 0年代ub>.
年代中期
p -value检验解决了精确条件检验的过度保守行为。的仿真研究<一个href="//www.ru-cchi.com/help/stats/bibliography.html" class="a">[18]一个>证明该测试达到名义覆盖率,并具有良好的统计能力。
分类损失
分类损失指出一个分类模型或一组预测标签的准确性。两种分类损失是误分类率和成本。
testcholdout
返回分类损失(参见e1
而且e2
)在备择假设(即不受限制的分类损失)下。n<年代ub>ijk年代ub>测试样本观察数是否具有:真类k 、标签我 由第一分类模型分配,并贴上标签j 由第二个分类模型分配。相应的估计比例为<年代p一个nclass="inlineequation">
测试集样本量为<年代p一个nclass="inlineequation">
指标是从1到K ,类的数量。
的误分类率 ,或分类错误,是区间[0,1]中的一个标量,表示错误分类的观测的比例。即第一个分类模型的误分类率为
对于第二次分类模型的误分类率(e 2年代ub>),切换索引我 而且j 的公式。
当误分类率增加到1时,分类精度降低。
的误分类代价 是一个非负标量,是相对于指定成本矩阵的值的分类质量度量。它的解释取决于错误分类的特定成本。错误分类成本是错误分类成本的加权平均(在成本矩阵中指定,C ),其中权重为各自估计的错误分类观测的比例。第一种分类模型的误分类代价为
在哪里c<年代ub>kj年代ub>将观察结果分类的成本是多少j 如果它真正的阶级是k .对于第二种分类模型的误分类代价(e 2年代ub>),切换索引我 而且j 的公式。
一般来说,对于固定代价矩阵,分类精度随着误分类代价的增加而降低。
分类损失指出一个分类模型或一组预测标签的准确性。两种分类损失是误分类率和成本。
testcholdout
返回分类损失(参见e1
而且e2
)在备择假设(即不受限制的分类损失)下。
的
误分类率 ,或分类错误,是区间[0,1]中的一个标量,表示错误分类的观测的比例。即第一个分类模型的误分类率为对于第二次分类模型的误分类率(
e 2年代ub>),切换索引我 而且j 的公式。当误分类率增加到1时,分类精度降低。
的
误分类代价 是一个非负标量,是相对于指定成本矩阵的值的分类质量度量。它的解释取决于错误分类的特定成本。错误分类成本是错误分类成本的加权平均(在成本矩阵中指定,C ),其中权重为各自估计的错误分类观测的比例。第一种分类模型的误分类代价为在哪里
c<年代ub>kj年代ub>将观察结果分类的成本是多少 j 如果它真正的阶级是k .对于第二种分类模型的误分类代价(e 2年代ub>),切换索引我 而且j 的公式。一般来说,对于固定代价矩阵,分类精度随着误分类代价的增加而降低。
提示
通过传递任何训练过的分类模型和新的预测器数据来获得预测的类标签是一个很好的实践
预测
方法。例如,关于来自支持向量机模型的预测标签,请参见<一个href="//www.ru-cchi.com/help/stats/classreg.learning.classif.compactclassificationsvm.predict.html">预测
.成本敏感测试执行数值优化,这需要额外的计算资源。似然比检验通过在区间内寻找拉格朗日乘子的根来间接进行数值优化。对于某些数据集,如果根位于间隔边界附近,则该方法可能失败。因此,如果您有一个优化工具箱许可证,请考虑执行成本敏感卡方检验。有关更多细节,请参见<一个href="#shared-CostTest" class="intrnllnk">
成本
而且<一个href="//www.ru-cchi.com/help/stats/testcholdout.html" class="intrnllnk">降低成本的测试方案一个>.
参考文献
[1] Agresti,。
法格兰,m.w., s.l aydersen和P. Laake。二元匹配对数据的McNemar检验:中点和渐近优于精确条件。
[3]兰卡斯特,H.O. <离散分布的显著性检验>。
[4] McNemar, Q.“关于相关比例或百分比之间的差异的抽样误差的说明。”
莫斯勒,F. <测量对药物的主观反应的一些统计问题>。
版本历史
介绍了R2015a年代trong>
MATLAB命令
你点击了一个对应于这个MATLAB命令的链接:
在MATLAB命令窗口中输入命令来运行该命令。Web浏览器不支持MATLAB命令。
选择一个网站
选择一个网站,在可用的地方获得翻译的内容,并查看当地的活动和优惠。根据您的地理位置,我们建议您选择:<年代trong class="recommended-country">.
您也可以从以下列表中选择网站:
如何获得最佳的网站性能
选择中国网站(中文或英文)以获得最佳的网站表现。其他MathWorks国家网站没有针对从您的位置访问进行优化。