无监督学习

找到数据中的隐藏模式或内在结构

无监督学习是一种机器学习算法,用于从数据集中进行推理,而不需要人工干预,这与有监督学习相反,有监督学习在数据中提供标签。

最常见的无监督学习方法是聚类分析,它应用聚类方法来探索数据,并发现数据中的隐藏模式或分组。

用MATLAB你可以应用许多流行的聚类算法:

  • 分层聚类:通过创建集群树来构建集群的多层层次结构
  • k - means而且k-medoids集群:分区数据k不同的集群基于距离。
  • 高斯混合模型:将集群建模为多元法向密度成分的混合物
  • 基于密度的空间聚类(DBSCAN):将高密度区域内彼此接近的点分组,跟踪低密度区域的异常值
  • 自组织映射:使用神经网络来学习数据的拓扑和分布
  • 谱聚类:基于图的聚类,可以处理任意非凸形状

其他应用无监督学习的方法包括半监督学习和无监督特征排序。半监督学习减少了监督学习中对标记数据的需求。应用于整个数据集的聚类在有标记的和没有标记的数据之间建立相似性,并且标签被传播到以前没有标记的和相似的集群成员。

无监督特征排序将评分分配给没有给定预测目标或响应的特征。MATLAB®而且统计和机器学习工具箱™支持使用拉普拉斯分数进行无监督排名。

要点

  • 非监督学习通常应用于监督学习之前,用于在探索性数据分析中识别特征,并基于分组建立类。
  • K-means和分层聚类仍然很流行。只有一些聚类方法可以处理任意非凸形状,包括MATLAB: DBSCAN、分层和谱聚类支持的聚类方法。
  • 无监督学习(聚类)也可以用于压缩数据。
  • 无监督特征排序可用于将基于距离的聚类更有效地应用于大型数据集。

参见:统计和机器学习工具箱用MATLAB进行机器学习图像处理工具箱

Baidu
map