数据更清洁

预处理和组织面向列的数据

在页面中全部展开

描述

的数据更清洁App是一个交互式工具，用于识别杂乱的面向列的数据，一次清理多个数据变量，并迭代和改进清理过程。

使用这个应用程序，你可以:

在MATLAB中访问面向列的数据^®工作区或从文件导入面向列的数据。
通过使用可视化视图、数据视图和摘要视图来研究数据。
按变量排序、重命名变量或删除变量。
对时间表中的数据重新计时、对表变量进行堆栈或取消堆栈、清除缺失数据、清除离群数据、平滑数据或规范化数据。
编辑以前执行的清理步骤。
将清理过的数据导出到MATLAB工作区，或将数据清理的代码导出为脚本或函数。

打开数据清理程序

MATLAB工具条:在应用程序选项卡,在MATLAB,单击数据更清洁图标．
MATLAB命令窗口:输入dataCleaner．

例子

全部展开

导入和清理时间表数据

使用数据更清洁应用程序预处理和组织混乱的时间表数据，通过删除一个变量和重新计时，平滑和规范化数据。然后，将清理后的数据导出到MATLAB工作区。您可以按照这些步骤来预处理和组织混乱的时间表数据，但请注意，数据可能需要不同的清理步骤集。

这个例子展示了如何预处理和组织带有时间戳的自行车交通数据。数据集来自马萨诸塞州剑桥市百老汇街的传感器。剑桥市向公众提供完整的数据集剑桥大学公开数据网站。

开放的时间表数据更清洁应用程序
使用MATLAB工具条或MATLAB命令窗口打开数据更清洁应用程序。
加载带有时间戳的自行车交通数据bikeData = readtimetable(“BicycleCounts.csv”)在命令窗口中。然后,选择导入>从工作区导入在数据更清洁App，并指定时间表bikeData．或者，通过选择导入数据从文件中导入>在数据更清洁应用程序。
时间表加载到应用程序后，查看原始数据数据选项卡中的数据摘要总结选项卡。

中的时间表数据可视化选项卡。选择总计，西行,往东的的时间表变数变量面板。
这些图表明，一年中的时间和自行车交通之间是有关联的。
从时间表中删除变量
的一天变量包含冗余数据，因为数据收集的日期反映在时间戳中。交互式地删除一天从时间表使用变量面板。要删除该变量，请右键单击一天并选择删除．变量删除现在作为清洗步骤面板。
调整时间的时间表
数据摘要显示时间表中缺失的和重复的时间戳值。若要对时间表进行排序并建立惟一的行时间，请单击调整时间的时间表在清洗方法部分的首页选项卡。指定唯一的输入行时间作为选择方法和使用总和聚合方法。接受清理参数以添加清理步骤并更新时间表。
在接受重计时参数后，更新的数据汇总显示没有缺失或重复的时间戳值，时间戳按从最早到最近的顺序排序。

如果您的时间表不需要重新计时，您可以交互排序时间戳或者另一个时间表变量。通过单击箭头访问排序选项的变量头中数据选项卡。
平滑的数据
由于自行车流量在每周的某些日子会出现峰值，因此平滑可以减少每周内的噪声，更好地洞察全年的自行车流量趋势。要平滑数据，请使用平滑的数据清洗方法。选择移动的意思平滑方法，并指定一个以中心为中心的7天窗口进行平滑。接受清理参数以添加清理步骤并更新时间表。
规范化的数据
因为这三个数值变量总计，西行,往东的有不同的尺度，采用归一化按标准差进行尺度。点击规范化的数据在清洗方法部分的首页选项卡。选择规模作为归一化方法和标准偏差作为比例类型。
若要更清楚地预览此清理步骤，请清除输入数据在形象化的传说中。接受清理参数以添加清理步骤并更新时间表。
出口的时间表
通过选择将清理后的时间表导出到MATLAB工作区导出>导出到工作区．
或者，通过选择导出时间表清理代码导出>生成脚本或导出>生成函数．

参数

清洁缺失的数据

`选择指标`-作为缺失处理的值
`只使用标准指标`|`指定标准的指标`

选择其中一个值来指定缺少的值指示符:

指标指标参数描述

指标	指标参数	描述
`只使用标准指标`	不适用	仅使用标准指示符来检测缺失的值。标准缺失值取决于数据类型: `南`- - - - - -`双`，`单`，`持续时间`,`calendarDuration` `NaT`- - - - - -`datetime` `< >失踪`- - - - - -`字符串` `<定义>`- - - - - -`分类` `{"}`- - - - - -`细胞`特征向量
`指定标准的指标`	`指标`	在单引号内，列出非标准的指标值，以逗号分隔。例如，' -99，"N/A" '

只使用标准指标

不适用

仅使用标准指示符来检测缺失的值。

标准缺失值取决于数据类型:

南- - - - - -双，单，持续时间,calendarDuration
NaT- - - - - -datetime
< >失踪- - - - - -字符串
<定义>- - - - - -分类
{"}- - - - - -细胞特征向量

指定标准的指标 指标 在单引号内，列出非标准的指标值，以逗号分隔。例如，' -99，"N/A" '

`清洗方法`—丢失数据的处理方法
`填补缺失`|`删除丢失`

选择其中一个方法值，如果需要，还可以选择其他方法参数，以指定如何处理丢失的数据:

方法	方法参数	描述
`填补缺失`	`最大需要填补的空白`	填补缺失值。大于此指定值的数据中的空白不被填充(正标量)。看到`填补方法`参数。
`填补缺失`	`单位`	填补缺失值。指定间隙大小单元类型。
`删除丢失`	不适用	删除缺少条目的数据行。

`填补方法`—缺失数据的替换方法
`恒定值`|`之前的值`|`下一个值`|……

选择其中一个方法值，如果需要，还可以选择其他方法参数，以指定如何填充缺失的数据:

方法	方法参数	描述
`恒定值`	`恒定值`	使用固定的标量值。
`之前的值`	不适用	使用前面的非缺失值。
`下一个值`	不适用	使用下一个非缺失值。
`最近的价值`	不适用	使用最近的非缺失值。
`线性插值`	不适用	使用相邻的非缺失值的线性插值。
`样条插值`	不适用	使用分段三次样条插值。
`保形立方插值(PCHIP)`	不适用	使用保持形状的分段三次样条插值。
`改进的Akima三次插值`	不适用	使用改进的Akima立方Hermite插值。
`移动平均`	`动窗口式`	围绕当前元素居中或不对称对齐移动窗口。
	`窗口长度`	指定移动窗口的长度(正标量)。
	`右半窗长度`(如果移动窗口类型为`不对称`）	指定当前元素后面的窗口单元数，以定义窗口对齐(正标量)。
	`单位`	指定移动窗口单元类型。
`移动的意思`	`动窗口式`	围绕当前元素居中或不对称对齐移动窗口。
	`窗口长度`	指定移动窗口的长度(正标量)。
	`右半窗长度`(如果移动窗口类型为`不对称`）	指定当前元素后面的窗口单元数，以定义窗口对齐(正标量)。
	`单位`	指定移动窗口单元类型。

干净的异常数据

`清洗方法`—异常数据的处理方法
`填补离群值`|`删除离群值`

选择其中一个方法值来指定如何处理离群数据:

方法	描述
`填补离群值`	填补异常值。看到`填补方法`参数。
`删除离群值`	删除具有离群值的数据行。

`填补方法`—异常值数据替换方法
`恒定值`|`中心值`|`剪辑到阈值`|……

选择其中一个方法值来指定替换离群数据的填充方法:

方法	描述
`恒定值`	使用指定的常数标量值。
`中心值`	参数确定的中心值`找到`方法。
`剪辑到阈值`	方法确定的较低阈值以下的元素使用较低的阈值`找到`方法。方法确定的上阈值大于元素的上阈值`找到`方法。
`之前的值`	使用前面的非离群值。
`下一个值`	使用下一个非离群值。
`最近的价值`	使用最近的非离群值。
`线性插值`	使用相邻的非离群值的线性插值。
`样条插值`	使用分段三次样条插值。
`保形立方插值(PCHIP)`	使用保持形状的分段三次样条插值。
`改进的Akima三次插值`	使用改进的Akima立方Hermite插值。

`检测方法`-识别离群数据的方法
`中位数`|`的意思是`|`四分位数`|……

选择其中一个方法值和其他方法参数，以指定识别离群数据的检测方法:

方法	方法参数	描述
`中位数`	`阈值的因素`	离群值被定义为大于中值的比例中值绝对偏差(MAD)的指定阈值的元素。对输入数据`一个`，标度MAD定义为`c 值(abs(中位数(A)))`,在那里`c = 1 /(√(2) erfcinv (3/2))`．
`的意思是`	`阈值的因素`	离群值被定义为超过与平均值的标准偏差的指定阈值的元素。这种方法更快，但健壮性不如`中位数`．
`四分位数`	`阈值的因素`	异常值被定义为超过指定的四分位数范围阈值的元素，高于上四分位数(75%)或低于下四分位数(25%)。当输入数据不是正态分布时，这种方法很有用。
`格拉布`	`阈值的因素`	用Grubbs检验来检测离群点，该检验基于假设检验每次迭代去除一个离群点。该方法假设输入数据是正态分布的。
`广义极端学生化偏差`	`阈值的因素`	使用异常值的广义极端学生化偏差检验来检测异常值。这种迭代法类似于`格拉布`但当多个异常值相互掩盖时，可以更好地执行。
`移动平均`	`阈值的因素`	异常值被定义为在指定窗口上从局部中值得到的高于局部缩放MAD的指定阈值的元素。
	`动窗口式`	围绕当前元素居中或不对称对齐移动窗口。
	`窗口长度`	指定移动窗口的长度(正标量)。
	`右半窗长度`(如果移动窗口类型为`不对称`）	指定当前元素后面的窗口单元数，以定义窗口对齐(正标量)。
	`单位`	指定移动窗口单元类型。
`移动的意思`	`阈值的因素`	离群值被定义为在指定窗口内超出局部均值的局部标准差的指定阈值的元素。
	`动窗口式`	围绕当前元素居中或不对称对齐移动窗口。
	`窗口长度`	指定移动窗口的长度(正标量)。
	`右半窗长度`(如果移动窗口类型为`不对称`）	指定当前元素后面的窗口单元数，以定义窗口对齐(正标量)。
	`单位`	指定移动窗口单元类型。
`百分位数`	`低阈值`	异常值定义为在上下限阈值指定的百分位范围之外的元素。
`百分位数`	`上阈值`	异常值定义为在上下限阈值指定的百分位范围之外的元素。

规范化的数据

`归一化法`—数据归一化方法
`z分数`|`规范`|`范围`|……

选择其中一个方法值，如果需要，还可以选择其他方法参数，以指定规范化数据的方法:

方法	方法参数	描述
`z分数`	`z分数类型`	通过指定，中心和刻度具有平均值0和标准差1`标准偏差`．居中和缩放的中值为0和平均绝对偏差1通过指定`平均绝对偏差`．
`规范`	`P-Norm`	规模数据p规范(积极的标量或`正`无穷范数)。
`范围`	`左极限`	重新调节左右范围的数据范围限制在表单的一个区间内`[b]`,在那里`< b`．
`范围`	`权利限制`	重新调节左右范围的数据范围限制在表单的一个区间内`[b]`,在那里`< b`．
`平均差`	不适用	居中并缩放数据，使中位数为0和四分位范围1.
`中心`	`中心型`	中心通过从输入数据中减去平均值使均值为0`的意思是`．通过从输入数据中减去中位数得到中位数0`中位数`．以指定的数值移动中心`数字标量`．
`规模`	`规模类型`	用标准偏差刻度数据`标准偏差`．规模数据平均绝对偏差与`平均绝对偏差`．用的数据的第一个元素缩放数据`第一个元素`．规模数据四分位范围与`四分位范围`．通过除以指定的数值因子(正标量)来缩放数据`数字标量`．
`中心和规模`	`中心型`	中心通过从输入数据中减去平均值使均值为0`的意思是`．通过从输入数据中减去中位数得到中位数0`中位数`．以指定的数值移动中心`数字标量`．
`中心和规模`	`规模类型`	用标准偏差刻度数据`标准偏差`．规模数据平均绝对偏差与`平均绝对偏差`．用的数据的第一个元素缩放数据`第一个元素`．规模数据四分位范围与`四分位范围`．通过除以指定的数值因子(正标量)来缩放数据`数字标量`．

平滑的数据

`平滑方法`-平滑噪声数据的方法
`移动的意思`|`移动平均`|`高斯滤波器`|……

选择其中一个方法值来指定有噪声数据的平滑方法:

方法	描述
`移动的意思`	使用移动平均线。这种方法有助于减少数据的周期性趋势。
`移动平均`	使用移动中位数。当存在异常值时，这种方法有助于减少数据的周期性趋势。
`高斯滤波器`	使用高斯加权移动平均。
`局部线性回归(Lowess)`	使用线性回归。这种方法在计算上可能比较昂贵，但它会导致较少的不连续。
`局部二次回归(黄土)`	利用二次回归。这种方法比局部线性回归的计算成本略高。
`健壮的洛斯`	使用稳健线性回归。这种方法是局部线性回归的一个计算量更大的版本，但它对异常值更健壮。
`健壮的黄土`	使用稳健的二次回归。该方法是局部二次回归的一种计算量更大的方法，但对异常值的鲁棒性更强。
`Savitzky-Golay多项式滤波器`	使用Savitzky-Golay多项式滤波器，它根据指定的多项式度进行平滑，并对每个窗口进行拟合。当数据变化迅速时，这种方法比其他方法更有效。

`平滑参数`—数据平滑选项
`平滑系数`|`移动窗口`

选择其中一个参数值和其他参数选项，以指定数据平滑的选项:

参数	参数选项	描述
`平滑系数`	`平滑系数`	指定平滑量(正标量)。
`移动窗口`	`动窗口式`	围绕当前元素居中或不对称对齐移动窗口。
	`窗口长度`	指定移动窗口的长度(正标量)。
	`右半窗长度`(如果移动窗口类型为`不对称`）	指定当前元素后面的窗口单元数，以定义窗口对齐(正标量)。
	`单位`	指定移动窗口单元类型。

调整时间的时间表

`选择方法`—指定行次数的方法
`时间步长`|`采样率`

选择其中一个方法值和其他方法参数，以指定重计时行时间的选择方法:

方法	方法参数	描述
`时间步长`	`时间步长`	指定输出表中连续有规律间隔的行时间之间的时间长度(正标量)。
`时间步长`	`单位时间步`	指定时间步长单位。
`采样率`	`采样率`	指定输出表中每单位时间(正标量)的样本数量。
`采样率`	`采样率的单位`	指定抽样速率单位。

`方法`-重计时方法
`充满思念`|`充满常数`|`用以前的值填充`|……

选择其中一个方法值来指定重计时方法:

方法	描述
`充满思念`	使用缺失的数据指示器(例如，`南`对于数值型变量)。
`充满常数`	使用指定的常量值。缺省值为0。
`用以前的值填充`	从输入时间表中最近的上一个近邻复制数据，从行时间向量的末尾开始。如果有重复的行时间，则使用最后一个重复的行时间。
`用下一个值填充`	在输入时间表中，从行时间向量的开头开始，从下面最近的邻居复制数据。如果有重复的行时间，则使用第一个重复的行时间。
`用最近的值填充`	从输入时间表中最近的位置复制数据。
`线性插值`	使用线性插值。
`样条插值`	使用分段三次样条插值。
`保形立方插值(PCHIP)`	使用保持形状的分段三次插值。
`改进的Akima三次插值`	使用改进的Akima立方Hermite插值。
`总和`	使用每个时间库中的值的和。
`的意思是`	使用每个时间箱中值的平均值。
`产品`	使用每个时间箱中的值的乘积。
`最低`	使用每个时间箱中的最小值。
`最大`	使用每个时间箱中的最大值。
`值的数量`	使用每个时间箱中的值的数量。
`bin中的第一个值`	在每个时间箱中使用第一个值。
`bin中最后一个值`	使用每个时间bin中的最后一个值。
`自定义`	使用函数句柄指定的函数。

栈表变量

`堆栈变量`-要合并的变量
表变量

选择要组合的一个或多个表变量。

Unstack表变量

`新表变量的名称`-包含新表变量名称的变量
表变量

选择一个包含新表变量名称的表变量。

`新表变量中的值`-变量解栈为多个变量
表变量

选择一个表变量，将其分解为多个表变量。

`集团`-定义行组的变量
表变量

选择一个或多个表变量来定义行组。

`用于新表变量值的聚合器`-将数据值聚合为单个值的函数
`总和`|`的意思是`|`中位数`|……

选择其中一个值来指定将数据值聚合为单个值的函数:

函数	描述
`总和`	使用每组值的和。
`的意思是`	使用每组值的平均值。
`中位数`	使用每组值的中位数。
`模式`	使用每组值的模式。
`最大`	使用每组值的最大值。
`最低`	使用每组值中的最小值。
`第一个`	使用每组值的第一个值。
`独特的`	在每组值中使用唯一值的数量。
`数`	使用每组值中的值的数量。
`自定义`	使用函数句柄指定的函数。

提示

要按数据变量进行交互排序，请单击箭头访问排序选项的变量头中数据选项卡。的步骤中显示排序清洗步骤面板。
中以交互方式重命名数据中的变量，请双击变量名变量面板。的步骤中显示重命名清洗步骤面板。
控件中的变量名，单击右键可从数据中以交互方式删除变量变量面板并选择删除．删除似乎是一个步骤清洗步骤面板。
要更改以前执行的清理步骤，请执行以下操作之一:
- 中的步骤来查看或编辑清理参数清洗步骤面板。
- 控件中的新位置拖拽步骤，以更改执行清理步骤的顺序清洗步骤面板。
- 通过清除清除步骤或右键单击步骤并选择禁用清除步骤禁用下面的步骤在清洗步骤面板。
控件中的图例中的元素，若要仅查看输入数据或已清理的数据，请选择或清除其中的元素可视化选项卡。

版本历史

介绍了R2022a

全部展开

R2022b:清理表中的数据

从MATLAB工作区或文件导入和清理表中的数据。以前，只能清理时间表数据。

R2022b:查看火花线和汇总统计信息

的数据视图显示火花线和汇总统计信息，以快速可视化和解释每个表或时间表变量中的数据。通过指向火花线显示与特定点相关的更多信息。

另请参阅

住编辑任务

清洁缺失的数据|干净的异常数据|平滑的数据|规范化的数据|调整时间的时间表|栈表变量|Unstack表变量

数据更清洁

描述

更多的

打开数据清理程序

例子

导入和清理时间表数据

参数

选择指标-作为缺失处理的值只使用标准指标|指定标准的指标

清洗方法—丢失数据的处理方法填补缺失|删除丢失

填补方法—缺失数据的替换方法恒定值|之前的值|下一个值|……

清洗方法—异常数据的处理方法填补离群值|删除离群值

填补方法—异常值数据替换方法恒定值|中心值|剪辑到阈值|……

检测方法-识别离群数据的方法中位数|的意思是|四分位数|……

归一化法—数据归一化方法z分数|规范|范围|……

平滑方法-平滑噪声数据的方法移动的意思|移动平均|高斯滤波器|……

平滑参数—数据平滑选项平滑系数|移动窗口

选择方法—指定行次数的方法时间步长|采样率

方法-重计时方法充满思念|充满常数|用以前的值填充|……

堆栈变量-要合并的变量表变量

新表变量的名称-包含新表变量名称的变量表变量

新表变量中的值-变量解栈为多个变量表变量

集团-定义行组的变量表变量

用于新表变量值的聚合器-将数据值聚合为单个值的函数总和|的意思是|中位数|……

提示