主要内容

描述

描述生成特性

    描述

    描述(变压器生成的特性的描述变压器.创建FeatureTransformer对象变压器通过使用gencfeaturesgenrfeatures函数。

    描述(变压器指数打印标识的特征的描述指数

    例子

    信息=描述(___返回表中的特性描述。行名称信息对应特性的名称。

    例子

    全部折叠

    从预测器数据表中生成特征gencfeatures.方法检查生成的特征描述对象的功能。

    将停电数据作为表读入工作空间。删除缺少值的观察值,并显示表的前几行。

    中断= readtable (“outages.csv”);台= rmmissing(中断);头(台)
    地区OutageTime RestorationTime造成损失客户  _____________ ________________ ______ __________ ________________ ___________________ {' 西南的}2002-02-01 12:18 458.98 - 1.8202 e + 06 2002-02-01 16:50{“暴风雪”}{“东南”}2003-02-07)21:15 289.4 - 1.4294 e + 05 2003-02-07 08:14{“暴风雪”}{‘西方’}2004-04-06 05:44 434.81 - 3.4037 e + 05 2004-04-06 06:10{“设备故障”}{“中西部”}2002-03-16 06:18 186.44 - 2.1275 e + 05 2002-03-16 23:23{“暴风”}{‘西方’}2003-06-18 02:4900 2003-06-18 10:54{'攻击'}{'东北'}2003-07-16 16:23 239.93 49434 2003-07-17 01:12{'火'}{'中西部'}2004-09-27 11:09 286.72 66104 2004-09-27 16:37{'设备故障'}{'东南'}2004-09-05 17:48 73.387 36073 2004-09-05 20:46{'设备故障'}

    一些变量,比如OutageTime而且RestorationTime,具有分类器训练函数不支持的数据类型,如fitcensemble

    中的预测器生成25个特征资源描述这可以用来训练一群人。指定地区表变量作为响应。

    变压器= gencfeatures(资源描述,“地区”25岁的TargetLearner =“包”
    Transformer = FeatureTransformer与属性:类型:'classification' TargetLearner: 'bag' NumEngineeredFeatures: 22 NumOriginalFeatures: 3 TotalNumFeatures: 25

    变压器对象包含关于生成的特性和用于创建它们的转换的信息。

    要更好地理解生成的特性,请使用描述对象的功能。

    信息=描述(变压器)
    信息=25×4表类型IsOriginal数据源转换  ___________ __________ ___________________________ _________________________________________________________________________________________________________________ 损失数字真的损失”“客户数字真实客户”“c(原因)直言真正原因”类型的变量分类从一个单元格的数据类型转换”RestorationTime-OutageTime数字虚假OutageTime,RestorationTime"在OutageTime和RestorationTime之间的经过时间,以秒为单位" sdn(OutageTime) Numeric false OutageTime "序列号从01- 02 -2002 12:18:00" woe3(c(Cause)) Numeric false Cause "类型类别从单元数据类型转换的变量->证据权重(positive class = SouthEast)" doy(OutageTime) Numeric false OutageTime "一年中的一天" year(OutageTime) Numeric false OutageTime " year" kmd1 Numeric false Loss,客户“到质心1的欧氏距离(kmeans聚类k = 10)”客户"到质心5的欧Euclidean距离(kmeans聚类,k = 10)" quarter(OutageTime)数字错误OutageTime "一年中的季度" woe2(c(Cause))数字错误原因"从单元数据类型分类转换的类型变量->证据权重(正类=东北)" year(RestorationTime)数字错误restationtime " year" month(OutageTime)数字错误OutageTime "一年中的月份"损失。*Customers数字错误损耗,客户“损耗”。*Customers tods(OutageTime)数字错误损耗时间“以秒为单位的一天时间”

    信息表显示如下:

    • 生成的前三个特征是原始的资源描述尽管该软件会将原始文件进行转换导致变量转换为类别变量c(原因)

    • OutageTime而且RestorationTime变量没有被包含为生成的特性,因为它们是datetime变量,不能用于训练袋装集成模型。然而,软件从这些变量中派生出许多生成的特征,例如第四个特征RestorationTime-OutageTime

    • 一些生成的特性是多个转换的组合。例如,软件生成第六个特征woe3 (c(原因)通过转换导致变量转换为类别变量,然后计算结果变量的证据权重值。

    从预测器数据表中生成特征genrfeatures.方法检查生成的特征描述对象的功能。

    将停电数据作为表读入工作空间。删除缺少值的观察值,并显示表的前几行。

    中断= readtable (“outages.csv”);台= rmmissing(中断);头(台)
    地区OutageTime RestorationTime造成损失客户  _____________ ________________ ______ __________ ________________ ___________________ {' 西南的}2002-02-01 12:18 458.98 - 1.8202 e + 06 2002-02-01 16:50{“暴风雪”}{“东南”}2003-02-07)21:15 289.4 - 1.4294 e + 05 2003-02-07 08:14{“暴风雪”}{‘西方’}2004-04-06 05:44 434.81 - 3.4037 e + 05 2004-04-06 06:10{“设备故障”}{“中西部”}2002-03-16 06:18 186.44 - 2.1275 e + 05 2002-03-16 23:23{“暴风”}{‘西方’}2003-06-18 02:4900 2003-06-18 10:54{'攻击'}{'东北'}2003-07-16 16:23 239.93 49434 2003-07-17 01:12{'火'}{'中西部'}2004-09-27 11:09 286.72 66104 2004-09-27 16:37{'设备故障'}{'东南'}2004-09-05 17:48 73.387 36073 2004-09-05 20:46{'设备故障'}

    一些变量,比如OutageTime而且RestorationTime,具有回归模型训练函数不支持的数据类型,如fitrensemble

    中的预测器生成25个特征资源描述这可以用来训练一群人。指定损失表变量作为响应。

    rng (“默认”%的再现性变压器= genrfeatures(资源描述,“损失”25岁的TargetLearner =“包”
    Transformer =属性:Type: 'regression' TargetLearner: 'bag' NumEngineeredFeatures: 22 NumOriginalFeatures: 3 TotalNumFeatures: 25

    变压器对象包含关于生成的特性和用于创建它们的转换的信息。

    要更好地理解生成的特性,请使用描述对象的功能。

    信息=描述(变压器)
    信息=25×4表Type IsOriginal InputVariables transforms ________________________________________________ ___________________________________________________________________ c(Region)分类真区域“类型类别转换为单元格数据类型的变量”Customers数值真客户”“c(Cause)类别真原因”类型类别转换为单元格数据类型的变量“kmd2数值假客户”到质心2的欧欧式距离(kmeans聚类,k = 10)“kmd1数值型假客户"到质心的欧氏距离1 (kmeans聚类,k = 10)" kmd4数值型假客户"到质心的欧氏距离4 (kmeans聚类,k = 10)" kmd5数值型假客户"到质心的欧氏距离5 (kmeans聚类,k = 10)" kmd9数值型假客户"到质心的欧氏距离9 (kmeans聚类,k = 10)" cos(客户)数值型假客户"cos()" RestorationTime-OutageTime数值型假客户,restationtime“OutageTime与恢复期之间的经过时间(以秒为单位)”kmd6数值假客户“到质心6的欧氏距离(kmeans聚类,k = 10)”kmi分类假客户“聚类索引编码(kmeans聚类,k = 10)”kmd7数值假客户“到质心7的欧氏距离(kmeans聚类,k = 10)”kmd3数值假客户“到质心3的欧氏距离(kmeans聚类,k = 10)”kmd10数值假客户”欧氏距离到质心10的距离(kmean聚类,k = 10)"小时(恢复期)数值假恢复期"一天中的小时"

    生成的前三个特征是原始的资源描述尽管该软件会将原始文件进行转换地区而且导致变量分类变量。

    :信息(1:3)%描述(变压器,1:3)
    ans =3×4表类型IsOriginal InputVariables转换___________________________________ ______________________________________________________________ c(Region)类别真区域“类型类别转换为单元格数据类型的变量”“客户数字真客户”“c(Cause)类别真原因”“类型类别转换为单元格数据类型的变量”

    OutageTime而且RestorationTime变量没有被包含为生成的特性,因为它们是datetime变量,不能用于训练袋装集成模型。然而,软件从这些变量中衍生出一些生成的特征,例如第10个特征RestorationTime-OutageTime

    :信息(10日)%描述(变压器、10)
    ans =1×4表类型IsOriginal数据源转换  _______ __________ ___________________________ ________________________________________________________________ RestorationTime-OutageTime数字虚假OutageTime RestorationTime“OutageTime之间时间间隔,以秒为单位和RestorationTime”

    一些生成的特性是多个转换的组合。例如,软件生成第19个特征fenc (c(原因)通过转换导致变量转换为具有10个类别的类别变量,然后计算类别出现的频率。

    :信息(19日)%描述(变压器、19)
    ans =1×4表类型IsOriginal数据源转换  _______ __________ ______________ ____________________________________________________________________________________________________________ fenc (c(原因))数字错误原因”类型的变量分类从一个细胞转换数据类型- >频率编码(层数= 10)"

    输入参数

    全部折叠

    特性转换器,指定为FeatureTransformer对象。

    要描述的特征,指定为指示特征位置的数字或逻辑向量,或指示特征名称的字符向量的字符串数组或单元格数组。

    例子:1:12

    数据类型:||逻辑|字符串|细胞

    输出参数

    全部折叠

    特性描述,作为表返回。每一行对应一个生成的特性,每一列提供以下信息。

    列名 描述
    类型 也表示特性的数据类型数字分类
    IsOriginal 指示该特性是否为原始特性(真正的)或设计的功能(
    数据源 表示用于生成特性的原始特性
    转换 描述用于生成特性的转换,按它们的应用顺序-有关更多信息,请参见功能转换

    算法

    全部折叠

    功能转换

    中一些更复杂的特性转换描述的附加信息信息。转换

    样品功能名称 中的样本转换描述信息 额外的信息
    eb4(变量) 等宽装箱(装箱数量= 4) 该软件将变量值到4宽度相等的箱子。得到的特征是一个类别变量。
    fenc(变量) 频率编码(级别数= 10) 该软件计算的频率10中的类别(或级别)变量.在生成的特性中,软件用相应的类别频率替换每个类别值,创建一个数值变量。
    kmc1 质心编码(成分#1)(kmeans聚类,k = 10) 软件使用k-表示聚类,将每个观察值分配到其中一个10集群。结果特征中的每一行都对应于一个观察值1与该观测相关联的聚类质心的St分量。得到的特征是一个数值变量。
    kmd4 到质心4的欧氏距离(kmean聚类,k = 10) 软件使用k-表示聚类,将每个观察值分配到其中一个10集群。得到的特征中的每一行都是从对应的观测点到质心的欧氏距离4集群。得到的特征是一个数值变量。
    kmi 聚类索引编码(kmeans聚类,k = 10) 软件使用k-表示聚类,将每个观察值分配到其中一个10集群。结果特征中的每一行都是对应观察的聚类索引。得到的特征是一个类别变量。
    q50(变量) 等概率箱(箱数= 50) 该软件将变量值到50概率相等的箱子。得到的特征是一个类别变量。
    woe5(变量) 证据权重(阳性等级= 5)

    此转换仅适用于分类问题。

    该软件执行以下步骤来创建结果特性:

    • 计算总共有多少观察Class5作为回应(一个)以及有多少人有不同的反应(b).

    • 假设变量是一个名义类别变量。然后,对每一个类别变量,确定该类别有多少观察结果Class5作为回应(c)以及有多少人有不同的反应(d).

      假设变量是一个序数类别变量。然后,对每一个类别变量,找到该类别或更小类别中的所有观测值,并确定这些观测值中有多少Class5作为回应(c)以及有多少人有不同的反应(d).

    • 对于每个类别,计算证据权重(WoE)为

      ln c + 0.5 / 一个 d + 0.5 / b

    • 用对应的WoE替换每个分类值,创建一个数值变量。

    版本历史

    介绍了R2021a

    Baidu
    map