数据更清洁
预处理和组织面向列的数据
打开数据清理程序
MATLAB工具条:在应用程序选项卡,在MATLAB,单击数据更清洁图标.
MATLAB命令窗口:输入
dataCleaner
.
例子
参数
清洁缺失的数据选择指标
-作为缺失处理的值
只使用标准指标
|指定标准的指标
选择其中一个值来指定缺少的值指示符:
指标 | 指标参数 | 描述 |
---|---|---|
只使用标准指标 |
不适用 | 仅使用标准指示符来检测缺失的值。 标准缺失值取决于数据类型:
|
指定标准的指标 |
指标 |
在单引号内,列出非标准的指标值,以逗号分隔。例如,' -99,"N/A" ' |
清洗方法
—丢失数据的处理方法
填补缺失
|删除丢失
选择其中一个方法值,如果需要,还可以选择其他方法参数,以指定如何处理丢失的数据:
方法 | 方法参数 | 描述 |
---|---|---|
填补缺失 |
最大需要填补的空白 |
填补缺失值。大于此指定值的数据中的空白不被填充(正标量)。看到填补方法 参数。 |
单位 |
填补缺失值。指定间隙大小单元类型。 | |
删除丢失 |
不适用 | 删除缺少条目的数据行。 |
填补方法
—缺失数据的替换方法
恒定值
|之前的值
|下一个值
|……
选择其中一个方法值,如果需要,还可以选择其他方法参数,以指定如何填充缺失的数据:
方法 | 方法参数 | 描述 |
---|---|---|
恒定值 |
恒定值 |
使用固定的标量值。 |
之前的值 |
不适用 | 使用前面的非缺失值。 |
下一个值 |
不适用 | 使用下一个非缺失值。 |
最近的价值 |
不适用 | 使用最近的非缺失值。 |
线性插值 |
不适用 | 使用相邻的非缺失值的线性插值。 |
样条插值 |
不适用 | 使用分段三次样条插值。 |
保形立方插值(PCHIP) |
不适用 | 使用保持形状的分段三次样条插值。 |
改进的Akima三次插值 |
不适用 | 使用改进的Akima立方Hermite插值。 |
移动平均 |
动窗口式 |
围绕当前元素居中或不对称对齐移动窗口。 |
窗口长度 |
指定移动窗口的长度(正标量)。 | |
右半窗长度 (如果移动窗口类型为不对称 ) |
指定当前元素后面的窗口单元数,以定义窗口对齐(正标量)。 | |
单位 |
指定移动窗口单元类型。 | |
移动的意思 |
动窗口式 |
围绕当前元素居中或不对称对齐移动窗口。 |
窗口长度 |
指定移动窗口的长度(正标量)。 | |
右半窗长度 (如果移动窗口类型为不对称 ) |
指定当前元素后面的窗口单元数,以定义窗口对齐(正标量)。 | |
单位 |
指定移动窗口单元类型。 |
清洗方法
—异常数据的处理方法
填补离群值
|删除离群值
选择其中一个方法值来指定如何处理离群数据:
方法 | 描述 |
---|---|
填补离群值 |
填补异常值。看到填补方法 参数。 |
删除离群值 |
删除具有离群值的数据行。 |
填补方法
—异常值数据替换方法
恒定值
|中心值
|剪辑到阈值
|……
选择其中一个方法值来指定替换离群数据的填充方法:
方法 | 描述 |
---|---|
恒定值 |
使用指定的常数标量值。 |
中心值 |
参数确定的中心值找到 方法。 |
剪辑到阈值 |
方法确定的较低阈值以下的元素使用较低的阈值找到 方法。方法确定的上阈值大于元素的上阈值找到 方法。 |
之前的值 |
使用前面的非离群值。 |
下一个值 |
使用下一个非离群值。 |
最近的价值 |
使用最近的非离群值。 |
线性插值 |
使用相邻的非离群值的线性插值。 |
样条插值 |
使用分段三次样条插值。 |
保形立方插值(PCHIP) |
使用保持形状的分段三次样条插值。 |
改进的Akima三次插值 |
使用改进的Akima立方Hermite插值。 |
检测方法
-识别离群数据的方法
中位数
|的意思是
|四分位数
|……
选择其中一个方法值和其他方法参数,以指定识别离群数据的检测方法:
方法 | 方法参数 | 描述 |
---|---|---|
中位数 |
阈值的因素 |
离群值被定义为大于中值的比例中值绝对偏差(MAD)的指定阈值的元素。对输入数据一个 ,标度MAD定义为c *值(abs(中位数(A))) ,在那里c = 1 /(√(2)* erfcinv (3/2)) . |
的意思是 |
阈值的因素 |
离群值被定义为超过与平均值的标准偏差的指定阈值的元素。这种方法更快,但健壮性不如中位数 . |
四分位数 |
阈值的因素 |
异常值被定义为超过指定的四分位数范围阈值的元素,高于上四分位数(75%)或低于下四分位数(25%)。当输入数据不是正态分布时,这种方法很有用。 |
格拉布 |
阈值的因素 |
用Grubbs检验来检测离群点,该检验基于假设检验每次迭代去除一个离群点。该方法假设输入数据是正态分布的。 |
广义极端学生化偏差 |
阈值的因素 |
使用异常值的广义极端学生化偏差检验来检测异常值。这种迭代法类似于格拉布 但当多个异常值相互掩盖时,可以更好地执行。 |
移动平均 |
阈值的因素 |
异常值被定义为在指定窗口上从局部中值得到的高于局部缩放MAD的指定阈值的元素。 |
动窗口式 |
围绕当前元素居中或不对称对齐移动窗口。 | |
窗口长度 |
指定移动窗口的长度(正标量)。 | |
右半窗长度 (如果移动窗口类型为不对称 ) |
指定当前元素后面的窗口单元数,以定义窗口对齐(正标量)。 | |
单位 |
指定移动窗口单元类型。 | |
移动的意思 |
阈值的因素 |
离群值被定义为在指定窗口内超出局部均值的局部标准差的指定阈值的元素。 |
动窗口式 |
围绕当前元素居中或不对称对齐移动窗口。 | |
窗口长度 |
指定移动窗口的长度(正标量)。 | |
右半窗长度 (如果移动窗口类型为不对称 ) |
指定当前元素后面的窗口单元数,以定义窗口对齐(正标量)。 | |
单位 |
指定移动窗口单元类型。 | |
百分位数 |
低阈值 |
异常值定义为在上下限阈值指定的百分位范围之外的元素。 |
上阈值 |
异常值定义为在上下限阈值指定的百分位范围之外的元素。 |
归一化法
—数据归一化方法
z分数
|规范
|范围
|……
选择其中一个方法值,如果需要,还可以选择其他方法参数,以指定规范化数据的方法:
方法 | 方法参数 | 描述 |
---|---|---|
z分数 |
z分数类型 |
通过指定,中心和刻度具有平均值0和标准差1 居中和缩放的中值为0和平均绝对偏差1通过指定 |
规范 |
P-Norm |
规模数据p规范(积极的标量或正 无穷范数)。 |
范围 |
左极限 |
重新调节左右范围的数据范围限制在表单的一个区间内[b] ,在那里< b . |
权利限制 |
重新调节左右范围的数据范围限制在表单的一个区间内[b] ,在那里< b . |
|
平均差 |
不适用 | 居中并缩放数据,使中位数为0和四分位范围1. |
中心 |
中心型 |
中心通过从输入数据中减去平均值使均值为0 通过从输入数据中减去中位数得到中位数0 以指定的数值移动中心 |
规模 |
规模类型 |
用标准偏差刻度数据 规模数据平均绝对偏差与 用的数据的第一个元素缩放数据 规模数据四分位范围与 通过除以指定的数值因子(正标量)来缩放数据 |
中心和规模 |
中心型 |
中心通过从输入数据中减去平均值使均值为0 通过从输入数据中减去中位数得到中位数0 以指定的数值移动中心 |
规模类型 |
用标准偏差刻度数据 规模数据平均绝对偏差与 用的数据的第一个元素缩放数据 规模数据四分位范围与 通过除以指定的数值因子(正标量)来缩放数据 |
平滑方法
-平滑噪声数据的方法
移动的意思
|移动平均
|高斯滤波器
|……
选择其中一个方法值来指定有噪声数据的平滑方法:
方法 | 描述 |
---|---|
移动的意思 |
使用移动平均线。这种方法有助于减少数据的周期性趋势。 |
移动平均 |
使用移动中位数。当存在异常值时,这种方法有助于减少数据的周期性趋势。 |
高斯滤波器 |
使用高斯加权移动平均。 |
局部线性回归(Lowess) |
使用线性回归。这种方法在计算上可能比较昂贵,但它会导致较少的不连续。 |
局部二次回归(黄土) |
利用二次回归。这种方法比局部线性回归的计算成本略高。 |
健壮的洛斯 |
使用稳健线性回归。这种方法是局部线性回归的一个计算量更大的版本,但它对异常值更健壮。 |
健壮的黄土 |
使用稳健的二次回归。该方法是局部二次回归的一种计算量更大的方法,但对异常值的鲁棒性更强。 |
Savitzky-Golay多项式滤波器 |
使用Savitzky-Golay多项式滤波器,它根据指定的多项式度进行平滑,并对每个窗口进行拟合。当数据变化迅速时,这种方法比其他方法更有效。 |
平滑参数
—数据平滑选项
平滑系数
|移动窗口
选择其中一个参数值和其他参数选项,以指定数据平滑的选项:
参数 | 参数选项 | 描述 |
---|---|---|
平滑系数 |
平滑系数 |
指定平滑量(正标量)。 |
移动窗口 |
动窗口式 |
围绕当前元素居中或不对称对齐移动窗口。 |
窗口长度 |
指定移动窗口的长度(正标量)。 | |
右半窗长度 (如果移动窗口类型为不对称 ) |
指定当前元素后面的窗口单元数,以定义窗口对齐(正标量)。 | |
单位 |
指定移动窗口单元类型。 |
选择方法
—指定行次数的方法
时间步长
|采样率
选择其中一个方法值和其他方法参数,以指定重计时行时间的选择方法:
方法 | 方法参数 | 描述 |
---|---|---|
时间步长 |
时间步长 |
指定输出表中连续有规律间隔的行时间之间的时间长度(正标量)。 |
单位时间步 |
指定时间步长单位。 | |
采样率 |
采样率 |
指定输出表中每单位时间(正标量)的样本数量。 |
采样率的单位 |
指定抽样速率单位。 |
方法
-重计时方法
充满思念
|充满常数
|用以前的值填充
|……
选择其中一个方法值来指定重计时方法:
方法 | 描述 |
---|---|
充满思念 |
使用缺失的数据指示器(例如,南 对于数值型变量)。 |
充满常数 |
使用指定的常量值。缺省值为0。 |
用以前的值填充 |
从输入时间表中最近的上一个近邻复制数据,从行时间向量的末尾开始。如果有重复的行时间,则使用最后一个重复的行时间。 |
用下一个值填充 |
在输入时间表中,从行时间向量的开头开始,从下面最近的邻居复制数据。如果有重复的行时间,则使用第一个重复的行时间。 |
用最近的值填充 |
从输入时间表中最近的位置复制数据。 |
线性插值 |
使用线性插值。 |
样条插值 |
使用分段三次样条插值。 |
保形立方插值(PCHIP) |
使用保持形状的分段三次插值。 |
改进的Akima三次插值 |
使用改进的Akima立方Hermite插值。 |
总和 |
使用每个时间库中的值的和。 |
的意思是 |
使用每个时间箱中值的平均值。 |
产品 |
使用每个时间箱中的值的乘积。 |
最低 |
使用每个时间箱中的最小值。 |
最大 |
使用每个时间箱中的最大值。 |
值的数量 |
使用每个时间箱中的值的数量。 |
bin中的第一个值 |
在每个时间箱中使用第一个值。 |
bin中最后一个值 |
使用每个时间bin中的最后一个值。 |
自定义 |
使用函数句柄指定的函数。 |
堆栈变量
-要合并的变量
表变量
选择要组合的一个或多个表变量。
新表变量的名称
-包含新表变量名称的变量
表变量
选择一个包含新表变量名称的表变量。
新表变量中的值
-变量解栈为多个变量
表变量
选择一个表变量,将其分解为多个表变量。
集团
-定义行组的变量
表变量
选择一个或多个表变量来定义行组。
用于新表变量值的聚合器
-将数据值聚合为单个值的函数
总和
|的意思是
|中位数
|……
选择其中一个值来指定将数据值聚合为单个值的函数:
函数 | 描述 |
---|---|
总和 |
使用每组值的和。 |
的意思是 |
使用每组值的平均值。 |
中位数 |
使用每组值的中位数。 |
模式 |
使用每组值的模式。 |
最大 |
使用每组值的最大值。 |
最低 |
使用每组值中的最小值。 |
第一个 |
使用每组值的第一个值。 |
独特的 |
在每组值中使用唯一值的数量。 |
数 |
使用每组值中的值的数量。 |
自定义 |
使用函数句柄指定的函数。 |
提示
要按数据变量进行交互排序,请单击箭头访问排序选项的变量头中数据选项卡。的步骤中显示排序清洗步骤面板。
中以交互方式重命名数据中的变量,请双击变量名变量面板。的步骤中显示重命名清洗步骤面板。
控件中的变量名,单击右键可从数据中以交互方式删除变量变量面板并选择删除.删除似乎是一个步骤清洗步骤面板。
要更改以前执行的清理步骤,请执行以下操作之一:
中的步骤来查看或编辑清理参数清洗步骤面板。
控件中的新位置拖拽步骤,以更改执行清理步骤的顺序清洗步骤面板。
通过清除清除步骤或右键单击步骤并选择禁用清除步骤禁用下面的步骤在清洗步骤面板。
控件中的图例中的元素,若要仅查看输入数据或已清理的数据,请选择或清除其中的元素可视化选项卡。