主要内容

集群的数据

使用集群数据k-means算法在实时编辑器

描述

集群的数据实时编辑器任务使您能够交互式地执行k——集群。任务生成MATLAB®代码,并将生成的聚类索引和聚类质心位置返回到MATLAB工作空间。

您可以:

  • 通过选择聚类数量手动确定数据的最佳聚类数量,或者通过指定诸如间隙值、轮廓值、davis - bouldin指标值和Calinski-Harabasz指标值等标准自动确定数据的最佳聚类数量。

  • 自定义用于聚类数据的参数,包括距离度量和复制数量。

  • 自动可视化集群数据。

有关实时编辑器任务的一般信息,请参见在活动脚本中添加交互式任务

打开任务

要添加集群的数据任务到一个活动脚本:

  • 住编辑器选项卡上,选择任务>集群的数据

  • 在活动脚本中的代码块中,键入相关的关键字,例如聚类kmeans.选择集群的数据从建议的命令补全。

例子

全部展开

方法的使用集群的数据交互执行的任务k-means指定数量的集群。

加载样例数据。数据包含了三种鸢尾花的萼片和花瓣的长度和宽度。

负载fisheriris

打开集群的数据的任务。要打开任务,开始输入关键字聚类在代码块中选择集群的数据从建议的命令补全。

显示建议命令补全的下拉列表。列表中的第三个建议是针对集群数据任务的,并被选中。

将数据集群为两个集群。

  • 选择变量作为输入数据。

  • 设置集群个数为2

  • 住编辑器Tab,按运行按钮,运行任务。

MATLAB在散点图中显示聚类数据和聚类均值。

群集数据任务,显示所选参数和将样本数据分为两个群集的结果散点图。

将集群数量增加到3.并重新运行任务。MATLAB在散点图中显示更新后的聚类数据和聚类均值。

群集数据任务,显示所选参数和将样本数据分为三个群集的结果散点图。

该任务在活动脚本中生成代码。生成的代码反映您所选择的参数和选项,并包括用于生成散点图的代码。要查看生成的代码,请单击向下的箭头在任务参数区域的底部。该任务展开以显示生成的代码。

为群集数据任务生成代码。代码使用kmeans函数对数据进行聚类,使用scatter函数显示结果。

默认情况下,生成的代码使用clusterIndices而且重心作为返回到MATLAB工作区的输出变量的名称。的clusterIndicesVector是包含聚类索引的数值列向量。每一行clusterIndices对应观测值的聚类分配。的重心矩阵是包含聚类质心位置的数值矩阵。若要指定不同的输出变量名,请在任务顶部的摘要行中输入一个新名称。例如,将两个变量名更改为c_indices而且c_locations

Cluster Data任务的第一行,其重命名的输出c_indexes和c_locations用红色圈起来。

当任务运行时,生成的代码将被更新以反映新的变量名。新变量c_indices而且c_locations出现在MATLAB工作区中。

方法的使用集群的数据任务,根据选定的标准交互式地评估聚类解决方案。

加载样例数据。数据包含了三种鸢尾花的萼片和花瓣的长度和宽度。

负载fisheriris

打开集群的数据的任务。要打开任务,开始输入关键字聚类在代码块中选择集群的数据从建议的命令补全。

显示建议命令补全的下拉列表。列表中的第三个建议是针对集群数据任务的,并被选中。

评估集群的最佳数量。

  • 选择变量作为输入数据。

  • 设置集群数量选择方法为最优

  • 设置范围最小值和最大值为2而且6

  • 住编辑器Tab,按运行按钮,运行任务。

MATLAB给出了评估结果柱状图,根据Calinski-Harabasz准则,最优聚类数为3。散点图显示了聚类数据,聚类意味着使用最优的聚类数量,3。你的结果可能不同。

显示所选参数和两个图表的Cluster Data任务。该图表是一个柱状图,显示了每个聚类数的评估结果,第二张图表是一个散点图,样本数据分为三个聚类。

相关的例子

参数

通过从可用的工作区变量中选择一个变量,指定要集群的数据。变量必须是数值矩阵才能出现在列表中。

指定用于确定数据的最佳群集数量的方法。

  • 手册—手动指定需要分组的集群数量。

  • 最优-使用evalclusters函数,根据间隙值、剪影值、davis - bouldin指数值和Calinski-Harabasz指数值等标准找到最佳聚类数量。

指定要计算的群集数量列表为由最小值和最大值组成的范围。例如,如果指定的最小值为2最大值为6,任务将评估2、3、4、5和6的簇数,以确定最优的簇数。

要显示聚类数据,请从可用选项中选择:

  • 选择二维散点图(PCA)在二维散点图中显示聚类数据的主要成分。的集群的数据任务使用gscatter函数来创建散点图。

  • 选择散点图矩阵在散点图矩阵中显示聚类数据。当你选择散点图矩阵时,复选框右侧会出现一个列表。列表中的每个项表示指定输入数据中的一列。按下Ctrl键,并从列表中选择最多四个输入数据列。的集群的数据任务使用主成分分析而且gplotmatrix函数从选定的列创建散点图矩阵。

    矩阵中的散点图在聚类指数之间比较所选输入数据列。矩阵中的对角线图是直方图,显示每个聚类指数所选列的分布。

提示

  • 默认情况下,集群的数据任务在修改任务参数时不会自动运行。要使任务在任何更改后自动运行,请选择自动运行按钮在任务的右上角。如果您的数据集很大,请不要启用此选项。

版本历史

R2021b中引入

Baidu
map