screenpredictors
为预测价值筛选信用记分卡预测器
描述
返回输出变量,metric_table
= screenpredictors (数据
)metric_table
,一个MATLAB®表中每个预测变量的预测能力的几个措施的计算值数据
.
使用screenpredictors
方法中的预处理步骤信用记分卡建模工作流在创建信用记分卡之前,使用creditscorecard
函数从财务工具箱™。另外,可以使用阈值预测的输出,以交互方式设置信用记分卡预测器阈值screenpredictors
创建信用记分卡之前,请使用creditscorecard
.
除前面语法中的输入参数外,还使用一个或多个名称-值对参数指定选项。metric_table
= screenpredictors (___,名称,值
)
例子
的屏幕预测器creditscorecard
对象
在创建信用记分卡之前,通过筛选预测变量来减少预测变量的数量。
使用CreditCardData.mat
文件来加载数据(使用Refaat 2011的数据集)。
负载CreditCardData.mat
定义“IDVar”
而且“ResponseVar”
.
idvar =“CustID”;responsevar =“状态”;
使用screenpredictors
计算预测因子筛选指标。该函数返回一个包含度量值的表。每个表行对应于输入表数据中的一个预测器。
Metric_table = screenpredictors(数据,“IDVar”idvar,“ResponseVar”responsevar)
metric_table =9×7表InfoValue AccuracyRatio AUROC熵Gini Chi2PValue PercentMissing _________ _____________ ______________ _______ __________ ______________ CustAge 0.18863 0.17095 0.58547 0.88729 0.42626 0.00074524 0 TmWBank 0.15719 0.13612 0.56806 0.89167 0.42864 0.0054591 0 CustIncome 0.15572 0.17758 0.8879 0.891 0.42731 0.0018428 0 TmAtAddress 0.094574 0.010421 0.50521 0.90089 0.43377 0.182 0 UtilRate 0.075086 0.035914 0.51796 0.90405 0.43575 0.45546 0 AMBalance 0.07159 0.087142 0.54357 0.90446 0.435920.48528 0 EmpStatus 0.048038 0.10886 0.55443 0.90814 0.4381 0.00037823 0 OtherCC 0.014301 0.044459 0.52223 0.91347 0.44132 0.047616 0 ResStatus 0.0097738 0.05039 0.5252 0.91422 0.44182 0.27875 0
Metric_table = sortrows(“AccuracyRatio”,“下”)
metric_table =9×7表InfoValue AccuracyRatio AUROC熵Gini Chi2PValue PercentMissing _________ _____________ ______________ _______ __________ ______________ CustIncome 0.15572 0.17758 0.58879 0.891 0.42731 0.0018428 0 CustAge 0.18863 0.17095 0.58547 0.88729 0.42626 0.00074524 0 TmWBank 0.15719 0.13612 0.56806 0.89167 0.42864 0.0054591 0 EmpStatus 0.048038 0.10886 0.55443 0.4381 0.00037823 0 AMBalance 0.07159 0.087142 0.54357 0.90446 0.43592 0.48528 0 ResStatus 0.0097738 0.05039 0.5252 0.91422 0.441820.27875 0 OtherCC 0.014301 0.044459 0.52223 0.91347 0.44132 0.047616 0 UtilRate 0.075086 0.035914 0.51796 0.90405 0.43575 0.45546 0 TmAtAddress 0.094574 0.010421 0.50521 0.90089 0.43377 0.182 0
基于AccuracyRatio
属性时,选择要使用的顶级预测器creditscorecard
对象。
varlist = metric_table. row精度比> 0.09)
varlist =4 x1细胞{'CustIncome'} {'CustAge'} {'TmWBank'} {'EmpStatus'}
使用creditscorecard
要创建createscorecard
仅基于“筛选的”预测器。
Sc =信用记分卡(数据,“IDVar”idvar,“ResponseVar”responsevar,“PredictorVars”varlist)
sc =带有属性的信用记分卡:GoodLabel: 0 responseval:“状态”WeightsVar:“VarNames: {1x11单元格}NumericPredictors: {'CustAge' 'CustIncome' 'TmWBank'} CategoricalPredictors: {'EmpStatus'} BinMissingData: 0 IDVar: 'CustID' PredictorVars: {'CustAge' 'EmpStatus' 'CustIncome' 'TmWBank'} Data: [1200x11表]
输入参数
数据
- - - - - -数据creditscorecard
对象
表格|高表|高的时间表
数据creditscorecard
对象,指定为MATLAB表、高表或高时间表,其中每列数据可以是以下数据类型中的任何一种:
数字
逻辑
字符向量的单元格数组
字符数组
分类
字符串
数据类型:表格
名称-值参数
指定可选参数对为Name1 = Value1,…,以=家
,在那里的名字
参数名称和价值
对应的值。名称-值参数必须出现在其他参数之后,但对的顺序无关紧要。
在R2021a之前,使用逗号分隔每个名称和值,并将其括起来的名字
在报价。
例子:metric_table = screenpredictors(data,'IDVar','CustAge','ResponseVar','status','PredictorVars',{'CustID','CustIncome'})
IDVar
- - - - - -标识符变量的名称
”
(默认)|特征向量
标识符变量的名称,指定为逗号分隔的对,由“IDVar”
和区分大小写的字符向量。的“IDVar”
数据可以是序数或社会保险号。通过指定“IDVar”
时,可以很容易地从预测变量中省略标识符变量。
数据类型:字符
ResponseVar
- - - - - -“好”或“坏”指示器的响应变量名
的最后一列数据
输入(默认)|特征向量
“好”或“坏”指示器的响应变量名,指定为由逗号分隔的对组成“ResponseVar”
和区分大小写的字符向量。响应变量数据必须是二进制的。
如果没有指定,“ResponseVar”
设置为输入的最后一列数据
默认情况下。
数据类型:字符
PredictorVars
- - - - - -预测变量名称
设置差异VarNames
而且{
IDVar
,ResponseVar
}
(默认)|字符向量的单元格数组|字符串数组
预测变量的名称,指定为逗号分隔的对,由“PredictorVars”
以及字符向量或字符串数组的区分大小写的单元格数组。默认情况下,当您创建creditscorecard
对象,所有变量都是预测器,除了IDVar
而且ResponseVar
.使用指定的任何名称“PredictorVars”
必须与IDVar
而且ResponseVar
的名字。
数据类型:细胞
|字符串
WeightsVar
- - - - - -权重变量名称
”
(默认)|特征向量
权重变量的名称,指定为逗号分隔的对,由“WeightsVar”
和区分大小写的字符向量,以指示数据
表包含行权重。
如果您没有指定“WeightsVar”
当你创建creditscorecard
对象,则函数使用单位权重作为观测权重。
数据类型:字符
NumBins
- - - - - -数值预测器的(等频率)箱数
20.
(默认)|标量数值
数值预测器的(等频率)箱数,指定为逗号分隔的对,由“NumBins”
一个标量数值。
数据类型:双
FrequencyShift
- - - - - -表示在包含零项的频率表中出现小的移位
0.5
(默认)|之间的标量数值0
而且1
包含零项的频率表中的小位移,指定为由逗号分隔的对组成的“FrequencyShift”
和一个介于之间的标量数值0
而且1
.
如果一个预测器的频率表包含任何“纯”箱子(包含所有好的或坏的)在你使用的数据autobinning
,则函数添加“FrequencyShift”
值赋给表中的所有箱子。为避免任何扰动,设置“FrequencyShift”
来0
.
数据类型:双
输出参数
metric_table
-预测器筛选指标的计算值
表格
预测器筛选指标的计算值,以表格形式返回。每个表行对应于输入表数据中的一个预测器。表列包含以下指标的计算值:
“InfoValue”
—信息价值。的分布之间的偏差来测量拟合模型中预测器的强度“货物”
而且“坏事”
.“AccuracyRatio”
-准确率。“AUROC”
- ROC曲线下面积。“熵”
——熵。这个指标衡量的是箱子里的不可预测性。您可以使用熵度量来验证风险模型。“基尼”
——基尼系数。该指标测量数据样本中的统计离散性或不平等。“Chi2PValue”
——卡方p价值。该指标由卡方指标计算,是组间统计差异和独立性的度量。“PercentMissing”
-预测器中缺失值的百分比。这个度量用十进制形式表示。
扩展功能
版本历史
在R2019a中引入
MATLAB命令
你点击了一个对应于这个MATLAB命令的链接:
在MATLAB命令窗口中输入该命令来运行该命令。Web浏览器不支持MATLAB命令。
您也可以从以下列表中选择一个网站:
如何获得最佳的网站性能
选择中国站点(中文或英文)以获得最佳站点性能。其他MathWorks国家站点没有针对您所在位置的访问进行优化。