主要内容

干净的异常数据

在实时编辑器中查找、填充或删除异常值

描述

干净的异常数据任务允许您以交互方式处理数据中的异常值。该任务自动生成MATLAB®为您的实时脚本编写代码。

使用这个任务,你可以:

  • 从工作空间变量中的数据中查找、填充或删除异常值。

  • 定制查找和填充异常值的方法。

  • 可视化离群数据和清理数据。

打开任务

添加干净的异常数据任务到MATLAB live Editor中的一个实时脚本:

  • 住编辑器选项卡上,单击任务并选择干净的异常数据图标

  • 在实时脚本中的代码块中,键入相关的关键字,例如离群值清洁.选择干净的异常数据从建议的命令补全。

例子

全部展开

控件以交互方式从表中删除异常值干净的异常数据任务。

使用样本文件中的患者身高和体重数据创建一个表。

负载(“patients.mat”“高度”“重量”T =表(身高,体重);头(T)
身高体重______ ______ 71 176 69 163 64 131 67 133 64 119 68 142 64 142 68 180

打开干净的异常数据任务。若要清除患者数据,请选择T作为输入数据。然后,计算高度而且重量变量选择所有支持的变量

干净的异常数据任务可以填充或删除离群数据。若要删除与异常身高或体重测量值的患者对应的表行,请使用清洗方法字段选择删除离群值.然后,要将异常值定义为低于第10百分位数或高于第90百分位数的元素,请使用检测方法字段选择百分位数

然后,要可视化清理后的身高和体重数据,请使用变量显示字段以选择所有变量。

要查看此任务生成的代码,请单击展开任务显示向下的小箭头在任务参数区域的底部。

生活任务

图中包含2个轴对象。清除的异常值数量:8包含5个类型为line的对象。这些对象表示输入数据、清理数据、异常值、被其他变量删除的异常值阈值。清除的异常值数量:18包含5个类型为line的对象。这些对象表示输入数据、清理数据、异常值、被其他变量删除的异常值阈值。

相关的例子

参数

此任务对包含在向量、表或时间表中的输入数据进行操作。数据可以是类型

对于表或时间表输入数据,用类型清除所有变量中,选择所有支持的变量.选择哪个要清理的变量,选择指定的变量

将填充异常值的方法指定为以下选项之一。

填补方法 描述
线性插值 相邻非离群值的线性插值
恒定值 指定的标量值,即0默认情况下
转换为失踪 转换为标准缺失值的默认定义
中心值 中心值由检测方法确定
剪辑到阈值 小于检测方法确定的下阈值的元素的下阈值;大于检测方法确定的上阈值的元素的上阈值
之前的值 以前nonoutlier价值
下一个值 下一个nonoutlier值
最近的价值 最近的nonoutlier价值
样条插值 分段三次样条插值
保形立方插值(PCHIP) 保形分段三次样条插值
改进的Akima三次插值 改进的Akima立方Hermite插值

指定用于查找异常值的检测方法作为这些选项之一。

方法 描述
移动平均 离群值定义为在指定窗口内超过局部中值的局部比例中值绝对偏差(MAD)的指定阈值的元素。默认阈值为3.
中位数 异常值被定义为超过中值MAD的指定阈值的元素。默认阈值为3..对输入数据一个,标度MAD定义为c *值(abs(中位数(A))),在那里c = 1 /(√(2)* erfcinv (3/2))
的意思是 离群值被定义为超过与平均值的标准偏差的指定阈值的元素。默认阈值为3..这种方法更快,但健壮性不如中位数
四分位数 异常值被定义为超过指定的四分位数范围阈值的元素,高于上四分位数(75%)或低于下四分位数(25%)。默认阈值为1.5.当输入数据不是正态分布时,这种方法很有用。
格拉布 用Grubbs检验来检测离群点,该检验基于假设检验每次迭代去除一个离群点。该方法假设输入数据是正态分布的。
广义极端学生化偏差 使用异常值的广义极端学生化偏差检验来检测异常值。这种迭代法类似于格拉布但当多个异常值相互掩盖时,可以更好地执行。
移动的意思 离群值被定义为在指定窗口内超出局部均值的局部标准差的指定阈值的元素。默认阈值为3.
百分位数 异常值定义为在上下限阈值指定的百分位范围之外的元素。默认的低百分位阈值是10,默认的上百分位阈值为90.有效的阈值的间隔为[0,100]。

当检测异常值的方法为时,指定窗口类型和大小移动平均移动的意思

窗口 描述
为中心的 以当前点为中心的指定窗口长度
不对称 指定的窗口,其中包含当前点之前和当前点之后的元素数量

窗口大小与变量的单位。

版本历史

介绍了R2019b

全部展开

Baidu
map