无监督学习

发现数据中隐藏的模式或内在结构

无监督学习是一种机器学习算法,用于在没有人为干预的情况下从数据集中进行推断,与监督学习相反,监督学习在数据中提供标签。

最常见的无监督学习方法是聚类分析,它应用聚类方法来探索数据,并发现数据中隐藏的模式或分组。

使用MATLAB,您可以应用许多流行的聚类算法:

  • 分层聚类:通过创建集群树,构建集群的多级层次结构
  • k - means而且k-medoids集群:将数据划分为k不同的集群基于距离。
  • 高斯混合模型:将聚类建模为多元正态密度分量的混合物
  • 基于密度的空间聚类:将高密度区域中彼此接近的点分组,跟踪低密度区域中的异常值
  • 自组织映射:使用神经网络学习数据的拓扑结构和分布
  • 谱聚类:基于图的聚类,可以处理任意非凸形状

其他应用无监督学习的方法包括半监督学习和无监督特征排序。半监督学习减少了监督学习中对标记数据的需求。应用于整个数据集的聚类建立了标记和未标记数据之间的相似性,并且标签被传播到先前未标记和相似的聚类成员。

无监督特征排名在没有给定预测目标或响应的情况下对特征进行评分。MATLAB®而且统计和机器学习工具箱™支持使用拉普拉斯分数进行无监督排名。

要点

  • 无监督学习通常应用于监督学习之前,用于识别探索性数据分析中的特征,并基于分组建立类。
  • K-means和分层聚类仍然很流行。只有一些聚类方法可以处理任意的非凸形状,包括MATLAB中支持的:DBSCAN、层次和光谱聚类。
  • 无监督学习(聚类)也可以用于压缩数据。
  • 无监督特征排序可以更有效地将基于距离的聚类应用于大型数据集。

参见:统计和机器学习工具箱基于MATLAB的机器学习图像处理工具箱

Baidu
map