工程特性

使用领域知识和转换从原始数据中提取和优化特征

特征工程是将原始数据转化为供机器学习使用的特征的过程。特征工程是困难的,因为从信号和图像中提取特征需要深入的领域知识,并且即使应用自动化方法,从根本上找到最佳特征仍然是一个迭代过程。

特性工程包含以下一个或多个步骤:

  1. 特征提取生成候选特征
  2. 特征转换,映射特征以使它们更适合下游建模
  3. 特征选择识别在建模数据时提供更好预测能力的子集,同时减少模型大小并简化预测。

例如,体育统计包括数字数据,如所玩的比赛,平均每场比赛的时间和得分,这些都是由球员分解的。在这种情况下,特征提取包括将这些统计数据压缩成衍生数字,如每场比赛得分或平均得分时间。然后特征选择就变成了一个问题,你是否只使用这些比率来构建模型,或者原始的统计数据是否仍然有助于模型做出更准确的预测。

信号和图像数据的手动特征提取需要信号和图像处理知识,尽管自动化技术如小波变换非常有效。即使你将深度学习应用于信号数据,这些技术也很有用,因为深度神经网络在发现原始信号数据中的结构方面存在困难。从文本数据中提取特征的传统方法是将文本建模为废话连篇。现代方法应用深度学习来编码单词的上下文,例如流行的单词嵌入技术word2vec

特征转换包括流行的数据准备技术,如标准化来解决特征尺度上的巨大差异,但也包括聚合来总结数据,过滤来去除噪声,以及降维技术,如PCA和因子分析。

MATLAB支持多种特征选择方法®.有些是根据重要性对特征进行排名,这可能与响应的相关性一样基本。一些机器学习模型在学习算法(“嵌入式”特征选择)期间估计特征的重要性,而所谓的基于过滤器的方法推断特征重要性的单独模型。包装器选择方法使用选择标准迭代地添加和删除候选特性。下图提供了特征工程的各个方面的概述,以指导从业者为他们的机器学习模型寻找性能特征。

基本特性工程工作流程。

基本特性工程工作流程。

深度学习以将原始图像和信号数据作为输入而闻名,从而消除了特征工程步骤。虽然这适用于大型图像和视频数据集,但在将深度学习应用于较小的数据集和基于信号的问题时,特征工程对于良好的性能仍然至关重要。

要点

  • 特征工程是应用机器学习的必要条件,也与深度学习在信号中的应用有关。
  • 小波散射可以从信号和图像数据中获得良好的特征,无需人工提取特征
  • 特性转换和选择等其他步骤可以产生更精确但更小的特性集,适合部署到硬件受限的环境中。

例子

应用最小冗余最大相关性(MRMR)算法对特征进行排序fscmrmr函数在MATLAB中产生了良好的分类特征,而无需长时间运行,如这个例子.重要性分数的大幅下降意味着您可以自信地确定在您的模型中使用哪些特征的阈值,而较小的下降表明您可能必须包括许多额外的特征,以避免结果模型的准确性显著下降。

MRMR仅适用于分类问题

MRMR仅适用于分类问题。对于回归,邻域成分分析是一个很好的选择,可用在MATLAB作为fsrnca

参见:特征提取特征选择聚类分析小波工具箱生物医学信号处理

Baidu
map