干净的异常数据
在实时编辑器中查找、填充或删除异常值
描述
的干净的异常数据任务允许您以交互方式处理数据中的异常值。该任务自动生成MATLAB®为您的实时脚本编写代码。
使用这个任务,你可以:
从工作空间变量中的数据中查找、填充或删除异常值。
定制查找和填充异常值的方法。
可视化离群数据和清理数据。
打开任务
添加干净的异常数据任务到MATLAB live Editor中的一个实时脚本:
在住编辑器选项卡上,单击任务并选择干净的异常数据图标.
在实时脚本中的代码块中,键入相关的关键字,例如
离群值
或清洁
.选择干净的异常数据
从建议的命令补全。
参数
输入数据
-有效的工作空间输入数据
向量|表|时间表
此任务对包含在向量、表或时间表中的输入数据进行操作。数据可以是类型单
或双
.
对于表或时间表输入数据,用类型清除所有变量单
或双
中,选择所有支持的变量
.选择哪个单
或双
要清理的变量,选择指定的变量
.
清洗方法
-填充异常值的清洗方法
线性插值
(默认)|恒定值
|转换为失踪
|……
将填充异常值的方法指定为以下选项之一。
填补方法 | 描述 |
---|---|
线性插值 |
相邻非离群值的线性插值 |
恒定值 |
指定的标量值,即0 默认情况下 |
转换为失踪 |
转换为标准缺失值的默认定义 |
中心值 |
中心值由检测方法确定 |
剪辑到阈值 |
小于检测方法确定的下阈值的元素的下阈值;大于检测方法确定的上阈值的元素的上阈值 |
之前的值 |
以前nonoutlier价值 |
下一个值 |
下一个nonoutlier值 |
最近的价值 |
最近的nonoutlier价值 |
样条插值 |
分段三次样条插值 |
保形立方插值(PCHIP) |
保形分段三次样条插值 |
改进的Akima三次插值 |
改进的Akima立方Hermite插值 |
检测方法
—异常值检测方法
移动平均
(默认)|中位数
|的意思是
|……
指定用于查找异常值的检测方法作为这些选项之一。
方法 | 描述 |
---|---|
移动平均 |
离群值定义为在指定窗口内超过局部中值的局部比例中值绝对偏差(MAD)的指定阈值的元素。默认阈值为3. . |
中位数 |
异常值被定义为超过中值MAD的指定阈值的元素。默认阈值为3. .对输入数据一个 ,标度MAD定义为c *值(abs(中位数(A))) ,在那里c = 1 /(√(2)* erfcinv (3/2)) . |
的意思是 |
离群值被定义为超过与平均值的标准偏差的指定阈值的元素。默认阈值为3. .这种方法更快,但健壮性不如中位数 . |
四分位数 |
异常值被定义为超过指定的四分位数范围阈值的元素,高于上四分位数(75%)或低于下四分位数(25%)。默认阈值为1.5 .当输入数据不是正态分布时,这种方法很有用。 |
格拉布 |
用Grubbs检验来检测离群点,该检验基于假设检验每次迭代去除一个离群点。该方法假设输入数据是正态分布的。 |
广义极端学生化偏差 |
使用异常值的广义极端学生化偏差检验来检测异常值。这种迭代法类似于格拉布 但当多个异常值相互掩盖时,可以更好地执行。 |
移动的意思 |
离群值被定义为在指定窗口内超出局部均值的局部标准差的指定阈值的元素。默认阈值为3. . |
百分位数 |
异常值定义为在上下限阈值指定的百分位范围之外的元素。默认的低百分位阈值是10 ,默认的上百分位阈值为90 .有效的阈值的间隔为[0,100]。 |
移动窗口
-移动方法窗口
为中心的
(默认)|不对称
当检测异常值的方法为时,指定窗口类型和大小移动平均
或移动的意思
.
窗口 | 描述 |
---|---|
为中心的 |
以当前点为中心的指定窗口长度 |
不对称 |
指定的窗口,其中包含当前点之前和当前点之后的元素数量 |
窗口大小与轴变量的单位。