主要内容

predictorImportance

预测因子对分类树重要性的估计

语法

小鬼= predictorImportance(树)

描述

小鬼= predictorImportance (计算预测器重要性的估计通过将每个预测器上的分裂导致的风险变化相加,并将总和除以分支节点的数量。

输入参数

创建的分类树fitctree,或通过紧凑的方法。

输出参数

小鬼

中的预测符(列)的数量与元素数量相同的行向量.X.条目是预测器重要性的估计,与0代表尽可能小的重要性。

例子

全部展开

载入费雪的虹膜数据集。

负载fisheriris

种植一个分类树。

Mdl = fitctree(量、种类);

计算所有预测变量的预测因子重要性估计值。

小鬼= predictorImportance (Mdl)
小鬼=1×40 0 0.0907 0.0682

的前两个元素小鬼为零。因此,前两个预测器不进入Mdl鸢尾分类的计算。

如果使用代理分割,预测器重要性的估计不依赖于预测器的顺序,但如果不使用代理分割,则依赖于顺序。

排列上一个示例中的数据列的顺序,生长另一个分类树,然后计算预测器重要性估计值。

measPerm = meas(:,[4 1 3 2]);MdlPerm = fitctree (measPerm、物种);impPerm = predictorImportance (MdlPerm)
impPerm =1×40.1515 0 0.0074 0

预测者重要性的估计不是一个排列小鬼

载入费雪的虹膜数据集。

负载fisheriris

种植一个分类树。指定代理拆分的用法。

Mdl = fitctree(量、种类、“代孕”“上”);

计算所有预测变量的预测因子重要性估计值。

小鬼= predictorImportance (Mdl)
小鬼=1×40.0791 0.0374 0.1530 0.1529

所有的预测因素都有一定的重要性。前两个预测因素不如后两个重要。

打乱前一个示例中的数据列的顺序,生长另一个指定代理分割的使用情况的分类树,然后计算预测器重要性估计。

measPerm = meas(:,[4 1 3 2]);MdlPerm = fitctree (measPerm物种,“代孕”“上”);impPerm = predictorImportance (MdlPerm)
impPerm =1×40.1529 0.0791 0.1530 0.0374

预测器重要性的估计是排列的小鬼

加载census1994数据集。考虑到一个人的年龄、工人阶层、教育水平、军事地位、种族、性别、资本收益和损失以及每周工作时间,可以预测其工资类别的模型。

负载census1994X = adultdata (: {“年龄”“workClass”“education_num”“marital_status”“种族”...“性”“capital_gain”“capital_loss”“hours_per_week”“工资”});

显示类别变量中表示的类别数总结

总结(X)
变量:年龄:32561 x1双重价值:17分钟37 Max 90 workClass中位数:32561 x1分类值:Federal-gov 960年地方政府2093年从未22696私人Self-emp-inc 1116 Self-emp-not-inc 2541 State-gov 1298 1836年无薪14 NumMissing education_num: 32561 x1双重价值:1分钟10马克斯16 marital_status中位数:32561 x1分类值:4443 Married-AF-spouse 23 Married-civ-spouse 14976年离婚Married-spouse-absent 418未婚10683分离1025 993年丧偶的种族:32561x1 categorical Values: american -印第安-爱斯基莫人311亚裔- pac - islander 1039黑人3124其他271白人27816性别:32561x1 categorical Values: Female 10771 Male 21790 capital_gain: 32561x1 double value: Min 0 Median 0 Max 99999 capital_loss: 32561x1 double value: Min 0 Median 0 Max 4356 hours_per_week: 32561x1 double value: Min 1 Median 40 Max 99工资:32561x1 categorical Values: <=50K 24720 >50K 7841

因为与连续变量中的级别相比,类别变量中表示的类别较少,标准CART预测器拆分算法更倾向于拆分连续预测器而不是类别变量。

使用整个数据集训练分类树。要生长无偏树,请指定用于分裂预测器的曲率测试的用法。由于数据中缺少观察值,请指定代理分割的用法。

Mdl = fitctree (X,“工资”“PredictorSelection”“弯曲”...“代孕”“上”);

通过将每个预测器上的分裂导致的风险变化相加,并将总和除以分支节点的数量,估计预测器重要性值。用条形图比较估算值。

小鬼= predictorImportance (Mdl);图;酒吧(imp);标题(的预测估计的重要性);ylabel (“估计”);包含(“预测”);甘氨胆酸h =;h.XTickLabel = Mdl.PredictorNames;h.XTickLabelRotation = 45;h.TickLabelInterpreter =“没有”

图中包含一个axes对象。标题为Predictor Importance Estimates的axes对象包含一个类型为bar的对象。

在这种情况下,capital_gain是最重要的预测因素,其次是education_num

更多关于

全部展开

扩展功能

Baidu
map