工程特性

使用领域知识和转换从原始数据中提取和优化特征

特征工程是将原始数据转化为供机器学习使用的特征的过程。特征工程是困难的,因为从信号和图像中提取特征需要深入的领域知识,而找到最好的特征基本上仍然是一个迭代的过程,即使您使用自动化的方法。

特性工程包含以下一个或多个步骤:

  1. 特征提取要生成候选特性
  2. 特征转换,它映射特征,使它们更适合下游建模
  3. 特征选择识别在数据建模中提供更好预测能力的子集,同时减少模型大小和简化预测。

例如,体育统计包括数字数据,如参加的比赛、每场比赛的平均时间和得分,这些都是按玩家划分的。在这种情况下,特征提取包括将这些统计数据压缩为衍生数字,如每场比赛得分或平均得分时间。那么特征选择就变成了一个问题:你是只使用这些比率来建立一个模型,还是原始的统计数据仍然有助于模型做出更准确的预测。

手动提取信号和图像数据的特征需要信号和图像处理知识,尽管自动化技术如小波变换已经证明非常有效。即使将深度学习应用于信号数据,这些技术也很有用,因为深度神经网络在揭示原始信号数据中的结构方面存在困难。从文本数据中提取特征的传统方法是将文本建模为袋的话。现代方法应用深度学习对单词的上下文进行编码,例如流行的单词嵌入技术word2vec

特征转换包括流行的数据准备技术,如处理特征尺度上的巨大差异的归一化,但也包括聚合来总结数据,过滤去噪,降维技术如PCA和因子分析。

MATLAB支持多种特征选择方法®.有些是基于重要性对特征进行排序,这可能是与回应的相关性一样基本的。一些机器学习模型在学习算法(“嵌入式”特征选择)期间估计特征的重要性,而所谓的基于过滤的方法推断特征重要性的独立模型。包装器选择方法使用选择标准迭代地添加和删除候选特性。下图提供了特征工程各个方面的概述,以指导从业者为他们的机器学习模型寻找性能特征。

基本的特性工程工作流。

基本的特性工程工作流。

众所周知,深度学习将原始图像和信号数据作为输入,从而消除了特征工程步骤。虽然这种方法适用于大型图像和视频数据集,但在将深度学习应用于较小的数据集和基于信号的问题时,特征工程仍然是良好性能的关键。

要点

  • 特征工程是应用机器学习的必要条件,也与信号深度学习的应用相关。
  • 小波散射可以从信号和图像数据中获得良好的特征,无需人工特征提取
  • 其他步骤,如特性转换和选择,可以产生更精确但更小的特性集,适合部署到硬件受限的环境中。

例子

采用最小冗余最大相关性(MRMR)算法对特征进行排序fscmrmr函数在MATLAB中产生良好的分类特征,而不需要长时间的运行,如这个例子.重要性分数的大幅下降意味着您可以自信地确定在模型中使用哪些特性的阈值,而较小的下降则表明您可能必须包括许多额外的特性,以避免结果模型的准确性的显著损失。

MRMR只适用于分类问题

MRMR只适用于分类问题。对于回归,附近的成分分析是一个很好的选择,可在MATLAB中作为fsrnca

参见:特征提取特征选择聚类分析小波工具箱生物医学信号处理

Baidu
map