描述
描述生成特性
描述
描述(
生成的特性的描述变压器
)变压器
.创建FeatureTransformer
对象变压器
通过使用gencfeatures
或genrfeatures
函数。
例子
分类问题的特征生成与检验
从预测器数据表中生成特征gencfeatures
.方法检查生成的特征描述
对象的功能。
将停电数据作为表读入工作空间。删除缺少值的观察值,并显示表的前几行。
中断= readtable (“outages.csv”);台= rmmissing(中断);头(台)
地区OutageTime RestorationTime造成损失客户 _____________ ________________ ______ __________ ________________ ___________________ {' 西南的}2002-02-01 12:18 458.98 - 1.8202 e + 06 2002-02-01 16:50{“暴风雪”}{“东南”}2003-02-07)21:15 289.4 - 1.4294 e + 05 2003-02-07 08:14{“暴风雪”}{‘西方’}2004-04-06 05:44 434.81 - 3.4037 e + 05 2004-04-06 06:10{“设备故障”}{“中西部”}2002-03-16 06:18 186.44 - 2.1275 e + 05 2002-03-16 23:23{“暴风”}{‘西方’}2003-06-18 02:4900 2003-06-18 10:54{'攻击'}{'东北'}2003-07-16 16:23 239.93 49434 2003-07-17 01:12{'火'}{'中西部'}2004-09-27 11:09 286.72 66104 2004-09-27 16:37{'设备故障'}{'东南'}2004-09-05 17:48 73.387 36073 2004-09-05 20:46{'设备故障'}
一些变量,比如OutageTime
而且RestorationTime
,具有分类器训练函数不支持的数据类型,如fitcensemble
.
中的预测器生成25个特征资源描述
这可以用来训练一群人。指定地区
表变量作为响应。
变压器= gencfeatures(资源描述,“地区”25岁的TargetLearner =“包”)
Transformer = FeatureTransformer与属性:类型:'classification' TargetLearner: 'bag' NumEngineeredFeatures: 22 NumOriginalFeatures: 3 TotalNumFeatures: 25
的变压器
对象包含关于生成的特性和用于创建它们的转换的信息。
要更好地理解生成的特性,请使用描述
对象的功能。
信息=描述(变压器)
信息=25×4表类型IsOriginal数据源转换 ___________ __________ ___________________________ _________________________________________________________________________________________________________________ 损失数字真的损失”“客户数字真实客户”“c(原因)直言真正原因”类型的变量分类从一个单元格的数据类型转换”RestorationTime-OutageTime数字虚假OutageTime,RestorationTime"在OutageTime和RestorationTime之间的经过时间,以秒为单位" sdn(OutageTime) Numeric false OutageTime "序列号从01- 02 -2002 12:18:00" woe3(c(Cause)) Numeric false Cause "类型类别从单元数据类型转换的变量->证据权重(positive class = SouthEast)" doy(OutageTime) Numeric false OutageTime "一年中的一天" year(OutageTime) Numeric false OutageTime " year" kmd1 Numeric false Loss,客户“到质心1的欧氏距离(kmeans聚类k = 10)”客户"到质心5的欧Euclidean距离(kmeans聚类,k = 10)" quarter(OutageTime)数字错误OutageTime "一年中的季度" woe2(c(Cause))数字错误原因"从单元数据类型分类转换的类型变量->证据权重(正类=东北)" year(RestorationTime)数字错误restationtime " year" month(OutageTime)数字错误OutageTime "一年中的月份"损失。*Customers数字错误损耗,客户“损耗”。*Customers tods(OutageTime)数字错误损耗时间“以秒为单位的一天时间”
的信息
表显示如下:
生成的前三个特征是原始的
资源描述
尽管该软件会将原始文件进行转换导致
变量转换为类别变量c(原因)
.的
OutageTime
而且RestorationTime
变量没有被包含为生成的特性,因为它们是datetime
变量,不能用于训练袋装集成模型。然而,软件从这些变量中派生出许多生成的特征,例如第四个特征RestorationTime-OutageTime
.一些生成的特性是多个转换的组合。例如,软件生成第六个特征
woe3 (c(原因)
通过转换导致
变量转换为类别变量,然后计算结果变量的证据权重值。
回归问题特征的生成与检验
从预测器数据表中生成特征genrfeatures
.方法检查生成的特征描述
对象的功能。
将停电数据作为表读入工作空间。删除缺少值的观察值,并显示表的前几行。
中断= readtable (“outages.csv”);台= rmmissing(中断);头(台)
地区OutageTime RestorationTime造成损失客户 _____________ ________________ ______ __________ ________________ ___________________ {' 西南的}2002-02-01 12:18 458.98 - 1.8202 e + 06 2002-02-01 16:50{“暴风雪”}{“东南”}2003-02-07)21:15 289.4 - 1.4294 e + 05 2003-02-07 08:14{“暴风雪”}{‘西方’}2004-04-06 05:44 434.81 - 3.4037 e + 05 2004-04-06 06:10{“设备故障”}{“中西部”}2002-03-16 06:18 186.44 - 2.1275 e + 05 2002-03-16 23:23{“暴风”}{‘西方’}2003-06-18 02:4900 2003-06-18 10:54{'攻击'}{'东北'}2003-07-16 16:23 239.93 49434 2003-07-17 01:12{'火'}{'中西部'}2004-09-27 11:09 286.72 66104 2004-09-27 16:37{'设备故障'}{'东南'}2004-09-05 17:48 73.387 36073 2004-09-05 20:46{'设备故障'}
一些变量,比如OutageTime
而且RestorationTime
,具有回归模型训练函数不支持的数据类型,如fitrensemble
.
中的预测器生成25个特征资源描述
这可以用来训练一群人。指定损失
表变量作为响应。
rng (“默认”)%的再现性变压器= genrfeatures(资源描述,“损失”25岁的TargetLearner =“包”)
Transformer =属性:Type: 'regression' TargetLearner: 'bag' NumEngineeredFeatures: 22 NumOriginalFeatures: 3 TotalNumFeatures: 25
的变压器
对象包含关于生成的特性和用于创建它们的转换的信息。
要更好地理解生成的特性,请使用描述
对象的功能。
信息=描述(变压器)
信息=25×4表Type IsOriginal InputVariables transforms ________________________________________________ ___________________________________________________________________ c(Region)分类真区域“类型类别转换为单元格数据类型的变量”Customers数值真客户”“c(Cause)类别真原因”类型类别转换为单元格数据类型的变量“kmd2数值假客户”到质心2的欧欧式距离(kmeans聚类,k = 10)“kmd1数值型假客户"到质心的欧氏距离1 (kmeans聚类,k = 10)" kmd4数值型假客户"到质心的欧氏距离4 (kmeans聚类,k = 10)" kmd5数值型假客户"到质心的欧氏距离5 (kmeans聚类,k = 10)" kmd9数值型假客户"到质心的欧氏距离9 (kmeans聚类,k = 10)" cos(客户)数值型假客户"cos()" RestorationTime-OutageTime数值型假客户,restationtime“OutageTime与恢复期之间的经过时间(以秒为单位)”kmd6数值假客户“到质心6的欧氏距离(kmeans聚类,k = 10)”kmi分类假客户“聚类索引编码(kmeans聚类,k = 10)”kmd7数值假客户“到质心7的欧氏距离(kmeans聚类,k = 10)”kmd3数值假客户“到质心3的欧氏距离(kmeans聚类,k = 10)”kmd10数值假客户”欧氏距离到质心10的距离(kmean聚类,k = 10)"小时(恢复期)数值假恢复期"一天中的小时"
生成的前三个特征是原始的资源描述
尽管该软件会将原始文件进行转换地区
而且导致
变量分类
变量。
:信息(1:3)%描述(变压器,1:3)
ans =3×4表类型IsOriginal InputVariables转换___________________________________ ______________________________________________________________ c(Region)类别真区域“类型类别转换为单元格数据类型的变量”“客户数字真客户”“c(Cause)类别真原因”“类型类别转换为单元格数据类型的变量”
的OutageTime
而且RestorationTime
变量没有被包含为生成的特性,因为它们是datetime
变量,不能用于训练袋装集成模型。然而,软件从这些变量中衍生出一些生成的特征,例如第10个特征RestorationTime-OutageTime
.
:信息(10日)%描述(变压器、10)
ans =1×4表类型IsOriginal数据源转换 _______ __________ ___________________________ ________________________________________________________________ RestorationTime-OutageTime数字虚假OutageTime RestorationTime“OutageTime之间时间间隔,以秒为单位和RestorationTime”
一些生成的特性是多个转换的组合。例如,软件生成第19个特征fenc (c(原因)
通过转换导致
变量转换为具有10个类别的类别变量,然后计算类别出现的频率。
:信息(19日)%描述(变压器、19)
ans =1×4表类型IsOriginal数据源转换 _______ __________ ______________ ____________________________________________________________________________________________________________ fenc (c(原因))数字错误原因”类型的变量分类从一个细胞转换数据类型- >频率编码(层数= 10)"
输入参数
变压器
- - - - - -变压器特性
FeatureTransformer
对象
特性转换器,指定为FeatureTransformer
对象。
指数
- - - - - -功能描述
数值向量|逻辑向量|字符串数组|字符向量的单元格数组
要描述的特征,指定为指示特征位置的数字或逻辑向量,或指示特征名称的字符向量的字符串数组或单元格数组。
例子:1:12
数据类型:单
|双
|逻辑
|字符串
|细胞
输出参数
算法
功能转换
中一些更复杂的特性转换描述的附加信息信息。转换
.
样品功能名称 | 中的样本转换描述信息 |
额外的信息 |
---|---|---|
eb4(变量) |
等宽装箱(装箱数量= 4) |
该软件将变量 值到4 宽度相等的箱子。得到的特征是一个类别变量。 |
fenc(变量) |
频率编码(级别数= 10) |
该软件计算的频率10 中的类别(或级别)变量 .在生成的特性中,软件用相应的类别频率替换每个类别值,创建一个数值变量。 |
kmc1 |
质心编码(成分#1)(kmeans聚类,k = 10) |
软件使用k-表示聚类,将每个观察值分配到其中一个10 集群。结果特征中的每一行都对应于一个观察值1 与该观测相关联的聚类质心的St分量。得到的特征是一个数值变量。 |
kmd4 |
到质心4的欧氏距离(kmean聚类,k = 10) |
软件使用k-表示聚类,将每个观察值分配到其中一个10 集群。得到的特征中的每一行都是从对应的观测点到质心的欧氏距离4 集群。得到的特征是一个数值变量。 |
kmi |
聚类索引编码(kmeans聚类,k = 10) |
软件使用k-表示聚类,将每个观察值分配到其中一个10 集群。结果特征中的每一行都是对应观察的聚类索引。得到的特征是一个类别变量。 |
q50(变量) |
等概率箱(箱数= 50) |
该软件将变量 值到50 概率相等的箱子。得到的特征是一个类别变量。 |
woe5(变量) |
证据权重(阳性等级= 5) |
此转换仅适用于分类问题。 该软件执行以下步骤来创建结果特性:
|
版本历史
介绍了R2021a
MATLAB命令
你点击了一个对应于这个MATLAB命令的链接:
在MATLAB命令窗口中输入命令来运行该命令。Web浏览器不支持MATLAB命令。
您也可以从以下列表中选择网站:
如何获得最佳的网站性能
选择中国网站(中文或英文)以获得最佳的网站表现。其他MathWorks国家网站没有针对从您的位置访问进行优化。