auto - civi - tool,一个自动集群有效性索引工具箱
版本1.0.0 (132 KB)的
Farhad Abedinzadeh
用于集群有效性索引(CVI)的自动工具箱,用于自动确定集群的数量
Auto-CVI-Tool
集群有效性索引的自动工具箱(CVI)
聚类分析包括通过自动聚类识别最佳数量和自然划分的聚类。聚类有效性指数(CVI)是一种估计聚类数量的简单技术。根据集群内的内聚性和集群间的分离,文献中已经提出了几种集群解决方案。尽管如此,确定这些cvi工作良好的情况和它们的局限性是至关重要的。为了估计集群的数量,这个工具箱提供了28个健壮的CVIs。它非常友好,不需要任何编码知识。不需要编写一行代码,就可以比较28个cvi并以可比较的方式可视化结果。加载数据时,用户将自动选择所有参数,或者使用默认设置,无需进行任何额外编程就可以比较CVIs。重要的是要注意其中的一部分纸在这个工具箱的开发中使用,如果您使用这个工具箱的任何部分,我将感激引用参考文章和我自己。
聚类有效性指数(CVI)通过定义簇内内聚(组内分散)和簇间分离(组间分散)之间的关系来估计聚类解决方案的质量。表1
总结了本工具箱中检查的22个cvi。每个CVI由表中的首字母缩略词标识,后面跟着一个向上的箭头↑
或者是向下的箭头↓
分别指示索引是最大化还是最小化。
表1
不。 | 指数 | 全名和首字母缩写 | 最小/最大 |
---|---|---|---|
1 | 美中互利工业公司 | Calinski-Harabasz指数(ch)。 | ↑ |
2 | cindex | C索引(cind)。 | ↓ |
3. | copindex | COP索引(COP)。 | ↓ |
4 | csindex | CS指数(CS)。 | ↓ |
5 | cvddindex | 基于密度相关距离(cvdd)的索引。 | ↑ |
6 | cvnnindex | 基于最近邻居的索引(cvnn)。 | ↓ |
7 | dbindex | 戴维斯-博尔丁指数(db)。 | ↓ |
8 | db2index | 增强的Davies-Bouldin索引(db2)。 | ↓ |
9 | dbcvindex | 密度指数(dbcv)。 | ↑ |
10 | dunnindex | 邓恩指数(Dunn)。 | ↑ |
11 | gd31index | 邓恩指数变体3,1 (gd31)。 | ↑ |
12 | gd33index | 邓恩指数变体3,3 (gd33)。 | ↑ |
13 | gd41index | 邓恩指数变体4,1 (gd41)。 | ↑ |
14 | gd43index | Dunn指数变体4,3 (gd43)。 | ↑ |
15 | gd51index | 邓恩指数变体5,1 (gd51)。 | ↑ |
16 | gd53index | Dunn指数变体5,3 (gd53)。 | ↑ |
17 | lccvindex | 基于本地核心(lccv)的索引。 | ↑ |
18 | pbmindex | PBM索引(PBM)。 | ↑ |
19 | sdbwindex | S_Dbw有效性索引(sdbw)。 | ↓ |
20. | sfindex | 功能指数(sf)。 | ↑ |
21 | silindex | 轮廓指数(sil)。 | ↑ |
22 | ssddindex | 基于形状、大小、密度和分离距离(ssdd)的索引。 | ↓ |
23 | svindex | SV指数(SV)。 | ↑ |
24 | symindex | 对称指数(sym)。 | ↑ |
25 | symdbindex | 基于对称性的Davies-Bouldin索引(sdb)。 | ↓ |
26 | symdunnindex | 基于对称性的邓恩指数(sdunn)。 | ↑ |
27 | wbindex | WB指数(WB)。 | ↓ |
28 | xbindex | 谢贝尼指数(xb)。 | ↓ |
如何使用?
有两个已命名的脚本KMeans_Evaluation.m
而且Hierarchichal_Evaluation.m
;他们评估聚类基于KMeans
而且Hierarchichal集群
resepctively。
KMeans_Evaluation.m
参数设置数据
:数据加载数据
DistanceKMeans
:距离类型k - means聚类(表二)
-
DistanceKMeans = DistKMeans;
-
Kmax
:最大集群数-
Kmax = 6;%集群集群的最大数量= 0 (size(data,1),Kmax);for k=1:Kmax clust(:,k) = kmeans(data,k,'distance',DistanceKMeans);结束
-
CVI
:选择窗体(表1)
-
%% Select CVI = Select_CVI_KMeans;%聚类方案的评价eva = evalcvi(clust,CVI, data);
-
表二
不。 | 距离 |
---|---|
2 | sqeuclidean |
3. | cityblock |
4 | 汉明 |
5 | 相关 |
6 | 余弦 |
你可以通过执行以下代码同时比较多个cvi:
CVIs = Select_Multiple_CVI_KMeans;Multiple_Result = Do_Multiple(CVIs, cluster,data);
它也可以自动可视化结果。
Hierarchichal_Evaluation.m
参数设置数据
:数据加载数据
HierarchichalMethod
:方法分层聚类树(Table3)
-
Z = linkage(data, HierarchichalMethod);
-
Kmax
:最大集群数-
Kmax = 6;k=1时的最大集群数:Kmax clust(:,k) = Cluster (Z, 'maxclust', k);结束
-
DistanceType
:两组观测数据之间成对距离的类型(Table4)
-
DistanceType = Distance_PDIST2;DXX = pdist2(data,data,DistanceType);
-
CVI
:选择窗体(表1)
-
CVI = select cvi_hierarchichal;eva = evalcvi(clust,CVI, DXX);
-
如果您希望比较多个cvi,请运行以下代码
CVIs = select multiple_cvi_hierarchichal;Multiple_Result = Do_Multiple(CVIs,clust,DXX);
Table3
不。 | 方法 |
---|---|
2 | 平均 |
3. | 重心 |
4 | 完整的 |
5 | 中位数 |
6 | 单 |
7 | 病房 |
Table4
欧几里得 | seuclidean |
squaredeuclidean | cityblock |
闵可夫斯基 | jaccard |
chebychev | mahalanobis |
相关 | 余弦 |
斯皮尔曼 | 汉明 |
可视化
具有一定
(1) A. José-García和W. Gómez-Flores。基于差分进化的自动数据聚类有效性指标研究。遗传与进化计算会议* (GECCO '21),里尔,法国,2021年。DOI: 10.1145/3449639.3459341 (2) Farhad Abedinzadeh(2022)。auto - civi - tool (https://github.com/farhadabedinzadeh/Auto-CVI-Tool/releases/tag/v1.0.0), GitHub。2022年10月6日检索。
进一步的问题
引用作为
法哈德·阿比丁扎德(2022年)。auto - civi - tool,一个自动集群有效性索引工具箱GitHub (https://github.com/farhadabedinzadeh/Auto-CVI-Tool/releases/tag/v1.0.0)。检索.
cvi
cvi / cvi_utils
cvi /距离
功能
要查看或报告此GitHub插件中的问题,请访问GitHub库.
要查看或报告此GitHub插件中的问题,请访问GitHub库.