数据清理

探索流行的数据清理方法,快速迭代,专注于分析

数据清理是修改数据以删除或纠正信息,为分析做准备的过程。从业者普遍认为,80%的分析时间都花在这个数据清理阶段。但是为什么呢?

在收集数据时,通常会有各种各样的挑战需要解决。数据集可能包含缺失点或异常值,或者需要与其他数据集合并。工程和科学数据通常有特定的要求,如管理高频时间戳、信号处理和数据标记。您需要对如何处理这些数据清理任务做出决定。

这听起来可能很痛苦,但其实不必如此。MATLAB®为数据清理任务提供了许多应用程序和功能,使该阶段更快、信息量更大,以便您可以专注于分析和解决问题。例如,使用MATLAB来:

  • 的时间序列数据进行探索、发现和清理问题数据更清洁应用程序。
  • 用Live Editor任务同步、平滑、删除或填充缺失的数据和异常值,以试验各个数据清理方法
  • 调用smoothdata和fillmissing等函数,有许多管理数据的选项和方便的函数提示。
  • 类快速执行特定于领域的数据清理信号分析仪,信号贴标签机,图片标志应用程序。

所有的应用程序和Live Editor任务自动生成MATLAB代码来记录和自动化您的交互工作。

使用MATLAB中的Data Cleaner app探索和清理时间序列数据。

数据争吵

也许你听说过它被称为“数据清理”或“数据munging”,指的是为分析做准备所需的这些不同的数据清理步骤。以天气传感器系统的数据为例。传感器可能会暂时失效,在此期间留下缺失的数据点或异常值。不同的传感器通常以不同的时间步重编码,因此数据集必须是同步和插值时间不匹配的地方。这只是两个例子,但在你认为数据“干净”之前,可能还有更多的步骤和决策。

常见的数据清理任务包括:

  • 填充或删除缺失的数据和异常值
  • 平滑,消除长期趋势
  • 识别异常值、变更点和极值
  • 加入多个数据集
  • 基于时间的数据清理,包括排序、移位和同步
  • 对数据进行分组和分组

数学算法被用来补救这些挑战。例如,你可以用最近的近邻或线性插值来填补缺失的数据点。Live Editor任务和函数,例如fillmissingsmoothdata的MATLAB将帮助您探索常见的数据清理方法,并立即看到结果,以更快地做出这些决定。

MATLAB数据清理功能

使用MATLAB数据清理功能提示进行清理和探索选项(例如fillmissing函数提示探索常用的填充方法如线性插值)。关于缺失数据、平滑数据和处理离群数据的更多信息,请参见下面的示例。

Machine and Deep Learning

在创建预测模型时,数据清理通常有额外的步骤。考虑图像中的对象检测。在开发出分类算法之前,可能需要在图像中对对象进行标记。然后,必须根据算法的类型(机器学习、深度学习)对数据进行适当的组织,可能使用较少的数据点,或代表对象的“特征”。即使在训练了一个模型之后,你也经常会评估特征的重要性,可能会用不同的数据清理步骤重复这个过程,以改进分类。

一般来说,数据会经过这样的管道:

  • 数据标签
  • 通用数据清洗
  • 特征选择
  • 训练和测试预测模型
  • 调整和迭代前面的步骤
  • 将模型部署到生产环境中

MATLAB在整个工作流程中提供了应用程序和函数。你可以标签类用于图像、信号、音频、视频。

图片标志应用程序

使用图片标志应用程序选择并标记帧中的对象,并自动标记集合中剩余的帧。

根据你的领域、数据类型和应用程序,通常会有更具体的数据清理需求。例如,统计和机器学习工具箱™,信号处理工具箱™,预见性维护工具箱™,文本分析工具箱™,计算机视觉工具箱™,音频工具箱™所有这些都包括针对这些格式和应用程序的数据清理和处理的功能和应用程序。

要了解更多信息,请参阅下面的参考资料。

参见:数据科学,机器学习,深度学习,特征选择,特征提取,图像处理,信号处理,自然语言处理,文本分析

Baidu
map