聚类分析和聚类算法- MATLAB & Simulink - 卡塔尔世界杯8强比赛直播

发现并可视化数据中的自然分组和模式

聚类分析涉及应用聚类算法，目标是在数据集中找到隐藏的模式或分组。因此，它经常用于探索性数据分析，但也用于异常检测和监督学习的预处理。

聚类算法以这样一种方式形成分组:一个组(或聚类)内的数据比任何其他聚类中的数据具有更高的相似性度量。可以使用各种相似度量，包括欧几里得、概率、余弦距离和相关性。大多数无监督学习方法是聚类分析的一种形式。

聚类算法分为两大类:

k表示聚类，用质心来表示群体——每个成员的平均值，用上图中的星星来表示。

Gassian混合模型，分配聚类成员概率，表示与不同聚类的关联强度。

聚类分析被用于各种领域和应用，以识别模式和序列:

在半监督学习中，还使用聚类技术来建立有标签和无标签数据之间的相似性，其中用最小的标签数据构建初始模型，并用于为原始的无标签数据分配标签。相比之下，半监督聚类将关于聚类的可用信息整合到聚类过程中，比如已知某些观察数据属于同一聚类，或者某些聚类与特定的结果变量相关。

MATLAB^®支持许多流行的聚类分析算法:

使用imsegkmeans命令(使用k-means算法)，MATLAB给原始图像(被血氧素和伊红染色的组织)分配了三个聚类，提供了将组织分割为三类(表示为白、黑、灰)的方法。自己尝试一下，以及相关的分割方法这段代码示例。

用MATLAB实现简单k-Means聚类