主要内容

screenpredictors

为预测价值筛选信用记分卡预测器

描述

例子

metric_table= screenpredictors (数据返回输出变量,metric_table,一个MATLAB®表中每个预测变量的预测能力的几个措施的计算值数据

使用screenpredictors方法中的预处理步骤信用记分卡建模工作流在创建信用记分卡之前,使用creditscorecard函数从财务工具箱™。另外,可以使用阈值预测的输出,以交互方式设置信用记分卡预测器阈值screenpredictors创建信用记分卡之前,请使用creditscorecard

例子

metric_table= screenpredictors (___名称,值除前面语法中的输入参数外,还使用一个或多个名称-值对参数指定选项。

例子

全部折叠

在创建信用记分卡之前,通过筛选预测变量来减少预测变量的数量。

使用CreditCardData.mat文件来加载数据(使用Refaat 2011的数据集)。

负载CreditCardData.mat

定义“IDVar”而且“ResponseVar”

idvar =“CustID”;responsevar =“状态”

使用screenpredictors计算预测因子筛选指标。该函数返回一个包含度量值的表。每个表行对应于输入表数据中的一个预测器。

Metric_table = screenpredictors(数据,“IDVar”idvar,“ResponseVar”responsevar)
metric_table =9×7表InfoValue AccuracyRatio AUROC熵Gini Chi2PValue PercentMissing _________ _____________ ______________ _______ __________ ______________ CustAge 0.18863 0.17095 0.58547 0.88729 0.42626 0.00074524 0 TmWBank 0.15719 0.13612 0.56806 0.89167 0.42864 0.0054591 0 CustIncome 0.15572 0.17758 0.8879 0.891 0.42731 0.0018428 0 TmAtAddress 0.094574 0.010421 0.50521 0.90089 0.43377 0.182 0 UtilRate 0.075086 0.035914 0.51796 0.90405 0.43575 0.45546 0 AMBalance 0.07159 0.087142 0.54357 0.90446 0.435920.48528 0 EmpStatus 0.048038 0.10886 0.55443 0.90814 0.4381 0.00037823 0 OtherCC 0.014301 0.044459 0.52223 0.91347 0.44132 0.047616 0 ResStatus 0.0097738 0.05039 0.5252 0.91422 0.44182 0.27875 0
Metric_table = sortrows(“AccuracyRatio”“下”
metric_table =9×7表InfoValue AccuracyRatio AUROC熵Gini Chi2PValue PercentMissing _________ _____________ ______________ _______ __________ ______________ CustIncome 0.15572 0.17758 0.58879 0.891 0.42731 0.0018428 0 CustAge 0.18863 0.17095 0.58547 0.88729 0.42626 0.00074524 0 TmWBank 0.15719 0.13612 0.56806 0.89167 0.42864 0.0054591 0 EmpStatus 0.048038 0.10886 0.55443 0.4381 0.00037823 0 AMBalance 0.07159 0.087142 0.54357 0.90446 0.43592 0.48528 0 ResStatus 0.0097738 0.05039 0.5252 0.91422 0.441820.27875 0 OtherCC 0.014301 0.044459 0.52223 0.91347 0.44132 0.047616 0 UtilRate 0.075086 0.035914 0.51796 0.90405 0.43575 0.45546 0 TmAtAddress 0.094574 0.010421 0.50521 0.90089 0.43377 0.182 0

基于AccuracyRatio属性时,选择要使用的顶级预测器creditscorecard对象。

varlist = metric_table. row精度比> 0.09)
varlist =4 x1细胞{'CustIncome'} {'CustAge'} {'TmWBank'} {'EmpStatus'}

使用creditscorecard要创建createscorecard仅基于“筛选的”预测器。

Sc =信用记分卡(数据,“IDVar”idvar,“ResponseVar”responsevar,“PredictorVars”varlist)
sc =带有属性的信用记分卡:GoodLabel: 0 responseval:“状态”WeightsVar:“VarNames: {1x11单元格}NumericPredictors: {'CustAge' 'CustIncome' 'TmWBank'} CategoricalPredictors: {'EmpStatus'} BinMissingData: 0 IDVar: 'CustID' PredictorVars: {'CustAge' 'EmpStatus' 'CustIncome' 'TmWBank'} Data: [1200x11表]

输入参数

全部折叠

数据creditscorecard对象,指定为MATLAB表、高表或高时间表,其中每列数据可以是以下数据类型中的任何一种:

  • 数字

  • 逻辑

  • 字符向量的单元格数组

  • 字符数组

  • 分类

  • 字符串

数据类型:表格

名称-值参数

指定可选参数对为Name1 = Value1,…,以=家,在那里的名字参数名称和价值对应的值。名称-值参数必须出现在其他参数之后,但对的顺序无关紧要。

在R2021a之前,使用逗号分隔每个名称和值,并将其括起来的名字在报价。

例子:metric_table = screenpredictors(data,'IDVar','CustAge','ResponseVar','status','PredictorVars',{'CustID','CustIncome'})

标识符变量的名称,指定为逗号分隔的对,由“IDVar”和区分大小写的字符向量。的“IDVar”数据可以是序数或社会保险号。通过指定“IDVar”时,可以很容易地从预测变量中省略标识符变量。

数据类型:字符

“好”或“坏”指示器的响应变量名,指定为由逗号分隔的对组成“ResponseVar”和区分大小写的字符向量。响应变量数据必须是二进制的。

如果没有指定,“ResponseVar”设置为输入的最后一列数据默认情况下。

数据类型:字符

预测变量的名称,指定为逗号分隔的对,由“PredictorVars”以及字符向量或字符串数组的区分大小写的单元格数组。默认情况下,当您创建creditscorecard对象,所有变量都是预测器,除了IDVar而且ResponseVar.使用指定的任何名称“PredictorVars”必须与IDVar而且ResponseVar的名字。

数据类型:细胞|字符串

权重变量的名称,指定为逗号分隔的对,由“WeightsVar”和区分大小写的字符向量,以指示数据表包含行权重。

如果您没有指定“WeightsVar”当你创建creditscorecard对象,则函数使用单位权重作为观测权重。

数据类型:字符

数值预测器的(等频率)箱数,指定为逗号分隔的对,由“NumBins”一个标量数值。

数据类型:

包含零项的频率表中的小位移,指定为由逗号分隔的对组成的“FrequencyShift”和一个介于之间的标量数值0而且1

如果一个预测器的频率表包含任何“纯”箱子(包含所有好的或坏的)在你使用的数据autobinning,则函数添加“FrequencyShift”值赋给表中的所有箱子。为避免任何扰动,设置“FrequencyShift”0

数据类型:

输出参数

全部折叠

预测器筛选指标的计算值,以表格形式返回。每个表行对应于输入表数据中的一个预测器。表列包含以下指标的计算值:

  • “InfoValue”—信息价值。的分布之间的偏差来测量拟合模型中预测器的强度“货物”而且“坏事”

  • “AccuracyRatio”-准确率。

  • “AUROC”- ROC曲线下面积。

  • “熵”——熵。这个指标衡量的是箱子里的不可预测性。您可以使用熵度量来验证风险模型。

  • “基尼”——基尼系数。该指标测量数据样本中的统计离散性或不平等。

  • “Chi2PValue”——卡方p价值。该指标由卡方指标计算,是组间统计差异和独立性的度量。

  • “PercentMissing”-预测器中缺失值的百分比。这个度量用十进制形式表示。

扩展功能

版本历史

在R2019a中引入

Baidu
map