主要内容

数据更清洁

预处理和组织面向列的数据

描述

数据更清洁App是一个交互式工具,用于识别杂乱的面向列的数据,一次清理多个数据变量,并迭代和改进清理过程。

使用这个应用程序,你可以:

  • 在MATLAB中访问面向列的数据®工作区或从文件导入面向列的数据。

  • 通过使用可视化视图、数据视图和摘要视图来研究数据。

  • 按变量排序、重命名变量或删除变量。

  • 对时间表中的数据重新计时、对表变量进行堆栈或取消堆栈、清除缺失数据、清除离群数据、平滑数据或规范化数据。

  • 编辑以前执行的清理步骤。

  • 将清理过的数据导出到MATLAB工作区,或将数据清理的代码导出为脚本或函数。

  • 数据更清洁App目前只支持清理表和时间表数据。

  • 数据更清洁应用程序目前支持一次只清理一个表或时间表。

打开数据清理程序

  • MATLAB工具条:在应用程序选项卡,在MATLAB,单击数据更清洁图标

  • MATLAB命令窗口:输入dataCleaner

例子

全部展开

使用数据更清洁应用程序预处理和组织混乱的时间表数据,通过删除一个变量和重新计时,平滑和规范化数据。然后,将清理后的数据导出到MATLAB工作区。您可以按照这些步骤来预处理和组织混乱的时间表数据,但请注意,数据可能需要不同的清理步骤集。

这个例子展示了如何预处理和组织带有时间戳的自行车交通数据。数据集来自马萨诸塞州剑桥市百老汇街的传感器。剑桥市向公众提供完整的数据集剑桥大学公开数据网站。

  1. 开放的时间表数据更清洁应用程序

    使用MATLAB工具条或MATLAB命令窗口打开数据更清洁应用程序。

    加载带有时间戳的自行车交通数据bikeData = readtimetable(“BicycleCounts.csv”)在命令窗口中。然后,选择导入>从工作区导入数据更清洁App,并指定时间表bikeData.或者,通过选择导入数据从文件中导入>数据更清洁应用程序。

    时间表加载到应用程序后,查看原始数据数据选项卡中的数据摘要总结选项卡。

    “摘要”选项卡,其中包含时间表统计信息和变量统计信息

    中的时间表数据可视化选项卡。选择总计西行,往东的的时间表变数变量面板。

    这些图表明,一年中的时间和自行车交通之间是有关联的。

    带有时间戳和自行车交通数据的可视化选项卡

  2. 从时间表中删除变量

    一天变量包含冗余数据,因为数据收集的日期反映在时间戳中。交互式地删除一天从时间表使用变量面板。要删除该变量,请右键单击一天并选择删除.变量删除现在作为清洗步骤面板。

    日变量从变量面板中删除。“清理步骤”面板中列出了“删除的日子”步骤。

  3. 调整时间的时间表

    数据摘要显示时间表中缺失的和重复的时间戳值。若要对时间表进行排序并建立惟一的行时间,请单击调整时间的时间表清洗方法部分的首页选项卡。指定唯一的输入行时间作为选择方法和使用总和聚合方法。接受清理参数以添加清理步骤并更新时间表。

    在接受重计时参数后,更新的数据汇总显示没有缺失或重复的时间戳值,时间戳按从最早到最近的顺序排序。

    重复时间时间表面板与唯一行时间输入选择方法和求和方法

    如果您的时间表不需要重新计时,您可以交互排序时间戳或者另一个时间表变量。通过单击箭头访问排序选项的变量头中数据选项卡。

  4. 平滑的数据

    由于自行车流量在每周的某些日子会出现峰值,因此平滑可以减少每周内的噪声,更好地洞察全年的自行车流量趋势。要平滑数据,请使用平滑的数据清洗方法。选择移动的意思平滑方法,并指定一个以中心为中心的7天窗口进行平滑。接受清理参数以添加清理步骤并更新时间表。

    平滑数据面板与平滑方法和参数设置为一个移动平均值的中心窗口的长度为7天

  5. 规范化的数据

    因为这三个数值变量总计西行,往东的有不同的尺度,采用归一化按标准差进行尺度。点击规范化的数据清洗方法部分的首页选项卡。选择规模作为归一化方法和标准偏差作为比例类型。

    若要更清楚地预览此清理步骤,请清除输入数据在形象化的传说中。接受清理参数以添加清理步骤并更新时间表。

    归一化数据面板,将归一化方法设置为按标准偏差缩放

  6. 出口的时间表

    通过选择将清理后的时间表导出到MATLAB工作区导出>导出到工作区

    或者,通过选择导出时间表清理代码导出>生成脚本导出>生成函数

参数

清洁缺失的数据

选择其中一个值来指定缺少的值指示符:

指标 指标参数 描述
只使用标准指标 不适用

仅使用标准指示符来检测缺失的值。

标准缺失值取决于数据类型:

  • - - - - - -持续时间,calendarDuration

  • NaT- - - - - -datetime

  • < >失踪- - - - - -字符串

  • <定义>- - - - - -分类

  • {"}- - - - - -细胞特征向量

指定标准的指标 指标 在单引号内,列出非标准的指标值,以逗号分隔。例如,' -99,"N/A" '

选择其中一个方法值,如果需要,还可以选择其他方法参数,以指定如何处理丢失的数据:

方法 方法参数 描述
填补缺失 最大需要填补的空白 填补缺失值。大于此指定值的数据中的空白不被填充(正标量)。看到填补方法参数。
单位 填补缺失值。指定间隙大小单元类型。
删除丢失 不适用 删除缺少条目的数据行。

选择其中一个方法值,如果需要,还可以选择其他方法参数,以指定如何填充缺失的数据:

方法 方法参数 描述
恒定值 恒定值 使用固定的标量值。
之前的值 不适用 使用前面的非缺失值。
下一个值 不适用 使用下一个非缺失值。
最近的价值 不适用 使用最近的非缺失值。
线性插值 不适用 使用相邻的非缺失值的线性插值。
样条插值 不适用 使用分段三次样条插值。
保形立方插值(PCHIP) 不适用 使用保持形状的分段三次样条插值。
改进的Akima三次插值 不适用 使用改进的Akima立方Hermite插值。
移动平均 动窗口式 围绕当前元素居中或不对称对齐移动窗口。
窗口长度 指定移动窗口的长度(正标量)。
右半窗长度(如果移动窗口类型为不对称 指定当前元素后面的窗口单元数,以定义窗口对齐(正标量)。
单位 指定移动窗口单元类型。
移动的意思 动窗口式 围绕当前元素居中或不对称对齐移动窗口。
窗口长度 指定移动窗口的长度(正标量)。
右半窗长度(如果移动窗口类型为不对称 指定当前元素后面的窗口单元数,以定义窗口对齐(正标量)。
单位 指定移动窗口单元类型。
干净的异常数据

选择其中一个方法值来指定如何处理离群数据:

方法 描述
填补离群值 填补异常值。看到填补方法参数。
删除离群值 删除具有离群值的数据行。

选择其中一个方法值来指定替换离群数据的填充方法:

方法 描述
恒定值 使用指定的常数标量值。
中心值 参数确定的中心值找到方法。
剪辑到阈值 方法确定的较低阈值以下的元素使用较低的阈值找到方法。方法确定的上阈值大于元素的上阈值找到方法。
之前的值 使用前面的非离群值。
下一个值 使用下一个非离群值。
最近的价值 使用最近的非离群值。
线性插值 使用相邻的非离群值的线性插值。
样条插值 使用分段三次样条插值。
保形立方插值(PCHIP) 使用保持形状的分段三次样条插值。
改进的Akima三次插值 使用改进的Akima立方Hermite插值。

选择其中一个方法值和其他方法参数,以指定识别离群数据的检测方法:

方法 方法参数 描述
中位数 阈值的因素 离群值被定义为大于中值的比例中值绝对偏差(MAD)的指定阈值的元素。对输入数据一个,标度MAD定义为c *值(abs(中位数(A))),在那里c = 1 /(√(2)* erfcinv (3/2))
的意思是 阈值的因素 离群值被定义为超过与平均值的标准偏差的指定阈值的元素。这种方法更快,但健壮性不如中位数
四分位数 阈值的因素 异常值被定义为超过指定的四分位数范围阈值的元素,高于上四分位数(75%)或低于下四分位数(25%)。当输入数据不是正态分布时,这种方法很有用。
格拉布 阈值的因素 用Grubbs检验来检测离群点,该检验基于假设检验每次迭代去除一个离群点。该方法假设输入数据是正态分布的。
广义极端学生化偏差 阈值的因素 使用异常值的广义极端学生化偏差检验来检测异常值。这种迭代法类似于格拉布但当多个异常值相互掩盖时,可以更好地执行。
移动平均 阈值的因素 异常值被定义为在指定窗口上从局部中值得到的高于局部缩放MAD的指定阈值的元素。
动窗口式 围绕当前元素居中或不对称对齐移动窗口。
窗口长度 指定移动窗口的长度(正标量)。
右半窗长度(如果移动窗口类型为不对称 指定当前元素后面的窗口单元数,以定义窗口对齐(正标量)。
单位 指定移动窗口单元类型。
移动的意思 阈值的因素 离群值被定义为在指定窗口内超出局部均值的局部标准差的指定阈值的元素。
动窗口式 围绕当前元素居中或不对称对齐移动窗口。
窗口长度 指定移动窗口的长度(正标量)。
右半窗长度(如果移动窗口类型为不对称 指定当前元素后面的窗口单元数,以定义窗口对齐(正标量)。
单位 指定移动窗口单元类型。
百分位数 低阈值 异常值定义为在上下限阈值指定的百分位范围之外的元素。
上阈值 异常值定义为在上下限阈值指定的百分位范围之外的元素。
规范化的数据

选择其中一个方法值,如果需要,还可以选择其他方法参数,以指定规范化数据的方法:

方法 方法参数 描述
z分数 z分数类型

通过指定,中心和刻度具有平均值0和标准差1标准偏差

居中和缩放的中值为0和平均绝对偏差1通过指定平均绝对偏差

规范 P-Norm 规模数据p规范(积极的标量或无穷范数)。
范围 左极限 重新调节左右范围的数据范围限制在表单的一个区间内[b],在那里< b
权利限制 重新调节左右范围的数据范围限制在表单的一个区间内[b],在那里< b
平均差 不适用 居中并缩放数据,使中位数为0和四分位范围1.
中心 中心型

中心通过从输入数据中减去平均值使均值为0的意思是

通过从输入数据中减去中位数得到中位数0中位数

以指定的数值移动中心数字标量

规模 规模类型

用标准偏差刻度数据标准偏差

规模数据平均绝对偏差平均绝对偏差

用的数据的第一个元素缩放数据第一个元素

规模数据四分位范围四分位范围

通过除以指定的数值因子(正标量)来缩放数据数字标量

中心和规模 中心型

中心通过从输入数据中减去平均值使均值为0的意思是

通过从输入数据中减去中位数得到中位数0中位数

以指定的数值移动中心数字标量

规模类型

用标准偏差刻度数据标准偏差

规模数据平均绝对偏差平均绝对偏差

用的数据的第一个元素缩放数据第一个元素

规模数据四分位范围四分位范围

通过除以指定的数值因子(正标量)来缩放数据数字标量

平滑的数据

选择其中一个方法值来指定有噪声数据的平滑方法:

方法 描述
移动的意思

使用移动平均线。这种方法有助于减少数据的周期性趋势。

移动平均 使用移动中位数。当存在异常值时,这种方法有助于减少数据的周期性趋势。
高斯滤波器 使用高斯加权移动平均。
局部线性回归(Lowess) 使用线性回归。这种方法在计算上可能比较昂贵,但它会导致较少的不连续。
局部二次回归(黄土) 利用二次回归。这种方法比局部线性回归的计算成本略高。
健壮的洛斯 使用稳健线性回归。这种方法是局部线性回归的一个计算量更大的版本,但它对异常值更健壮。
健壮的黄土 使用稳健的二次回归。该方法是局部二次回归的一种计算量更大的方法,但对异常值的鲁棒性更强。
Savitzky-Golay多项式滤波器 使用Savitzky-Golay多项式滤波器,它根据指定的多项式度进行平滑,并对每个窗口进行拟合。当数据变化迅速时,这种方法比其他方法更有效。

选择其中一个参数值和其他参数选项,以指定数据平滑的选项:

参数 参数选项 描述
平滑系数 平滑系数 指定平滑量(正标量)。
移动窗口 动窗口式 围绕当前元素居中或不对称对齐移动窗口。
窗口长度 指定移动窗口的长度(正标量)。
右半窗长度(如果移动窗口类型为不对称 指定当前元素后面的窗口单元数,以定义窗口对齐(正标量)。
单位 指定移动窗口单元类型。
调整时间的时间表

选择其中一个方法值和其他方法参数,以指定重计时行时间的选择方法:

方法 方法参数 描述
时间步长 时间步长 指定输出表中连续有规律间隔的行时间之间的时间长度(正标量)。
单位时间步 指定时间步长单位。
采样率 采样率 指定输出表中每单位时间(正标量)的样本数量。
采样率的单位 指定抽样速率单位。

选择其中一个方法值来指定重计时方法:

方法 描述
充满思念 使用缺失的数据指示器(例如,对于数值型变量)。
充满常数 使用指定的常量值。缺省值为0。
用以前的值填充 从输入时间表中最近的上一个近邻复制数据,从行时间向量的末尾开始。如果有重复的行时间,则使用最后一个重复的行时间。
用下一个值填充 在输入时间表中,从行时间向量的开头开始,从下面最近的邻居复制数据。如果有重复的行时间,则使用第一个重复的行时间。
用最近的值填充 从输入时间表中最近的位置复制数据。
线性插值 使用线性插值。
样条插值 使用分段三次样条插值。
保形立方插值(PCHIP) 使用保持形状的分段三次插值。
改进的Akima三次插值 使用改进的Akima立方Hermite插值。
总和 使用每个时间库中的值的和。
的意思是 使用每个时间箱中值的平均值。
产品 使用每个时间箱中的值的乘积。
最低 使用每个时间箱中的最小值。
最大 使用每个时间箱中的最大值。
值的数量 使用每个时间箱中的值的数量。
bin中的第一个值 在每个时间箱中使用第一个值。
bin中最后一个值 使用每个时间bin中的最后一个值。
自定义 使用函数句柄指定的函数。
栈表变量

选择要组合的一个或多个表变量。

Unstack表变量

选择一个包含新表变量名称的表变量。

选择一个表变量,将其分解为多个表变量。

选择一个或多个表变量来定义行组。

选择其中一个值来指定将数据值聚合为单个值的函数:

函数 描述
总和 使用每组值的和。
的意思是 使用每组值的平均值。
中位数 使用每组值的中位数。
模式 使用每组值的模式。
最大 使用每组值的最大值。
最低 使用每组值中的最小值。
第一个 使用每组值的第一个值。
独特的 在每组值中使用唯一值的数量。
使用每组值中的值的数量。
自定义 使用函数句柄指定的函数。

提示

  • 要按数据变量进行交互排序,请单击箭头访问排序选项的变量头中数据选项卡。的步骤中显示排序清洗步骤面板。

  • 中以交互方式重命名数据中的变量,请双击变量名变量面板。的步骤中显示重命名清洗步骤面板。

  • 控件中的变量名,单击右键可从数据中以交互方式删除变量变量面板并选择删除.删除似乎是一个步骤清洗步骤面板。

  • 要更改以前执行的清理步骤,请执行以下操作之一:

    • 中的步骤来查看或编辑清理参数清洗步骤面板。

    • 控件中的新位置拖拽步骤,以更改执行清理步骤的顺序清洗步骤面板。

    • 通过清除清除步骤或右键单击步骤并选择禁用清除步骤禁用下面的步骤清洗步骤面板。

  • 控件中的图例中的元素,若要仅查看输入数据或已清理的数据,请选择或清除其中的元素可视化选项卡。

版本历史

介绍了R2022a

全部展开

Baidu
map