主要内容

链接

聚集的层次聚类树

描述

Z=联系(X返回一个矩阵Z它对包含输入数据矩阵行的层次集群的树进行编码X

例子

Z=联系(X方法属性创建树方法,描述了如何测量集群之间的距离。有关更多信息,请参见联系

例子

Z=联系(X方法度规通过传递度规pdist函数,该函数计算行的之间的距离X

例子

Z=联系(X方法度规“savememory”,价值使用节省内存的算法价值“上”时使用标准算法价值“关闭”

例子

Z=联系(X方法pdist_inputs通过pdist_inputspdist函数,该函数计算行的之间的距离X.的pdist_inputs参数由“seuclidean”闵可夫斯基的,或“mahalanobis”公制和一个额外的距离公制选项。

Z=联系(y使用矢量表示y距离矩阵的。y是由pdist或者是一个更一般的符合输出格式的不相似矩阵pdist

例子

Z=联系(y方法属性创建树方法,描述了如何测量集群之间的距离。

例子

全部折叠

随机生成20,000个观测值的样本数据。

rng (“默认”%的再现性X =兰德(20000 3);

方法创建层次集群树病房联系方法。在这种情况下,“SaveMemory”选择的clusterdata函数设置为“上”默认情况下。通常,为指定最佳值“SaveMemory”根据的尺寸X和可用的内存。

Z =连杆(X,“病房”);

将数据最多分为四组并绘制结果图。

c =集群(Z,“Maxclust”4);scatter3 (X (: 1) X (:, 2), X(:, 3), 10日,c)

图中包含一个axes对象。axes对象包含一个scatter类型的对象。

集群在数据中标识四个组。

中最多找到三个集群fisheriris数据集,并将花的簇分配与它们已知的分类进行比较。

加载样例数据。

负载fisheriris

方法创建层次集群树“平均”方法和“chebychev”指标。

Z =连杆(量,“平均”“chebychev”);

在数据中找到最多三个集群。

T =集群(Z,“maxclust”3);

的树状图Z.要查看这三个集群,请使用“ColorThreshold”在倒数第三和倒数第二连杆中间有一个截止点。

截止=中值([Z(end-2,3) Z(end-1,3)]);系统树图(Z,“ColorThreshold”,截止)

图中包含一个axes对象。axis对象包含29个类型为line的对象。

的最后两行Z查看如何将三个集群组合成一个集群。链接将第293(蓝色)聚类与第297(红色)聚类结合,形成第298聚类1.7583链接然后将第296(绿色)聚类与第298聚类相结合。

lastTwo = Z (end-1:最终,:)
lastTwo =2×3293.0000 297.0000 1.75 583 296.0000 298.0000 3.4445

看看集群分配是如何与三个物种对应的。例如,其中一个集群包含50第二种的花和40第三种的花。

交叉表(T,物种)
ans =3×30 0 10 0 50 40 50 0 0

加载examgrades数据集。

负载examgrades

使用创建层次树链接.使用“单一”方法和指数为的明可夫斯基度规3.

Z =连杆(成绩,“单一”,{闵可夫斯基的3});

观察第25聚类步骤。

: Z(25日)
ans =1×386.0000 137.0000 4.5307

链接结合第86次观测和第137次聚类形成指数聚类 120 + 25 145 ,其中120为观测的总次数成绩25是在的行号Z.第86个观测点和第137星团的任何一个点之间的最短距离是4.5307

使用不相似矩阵创建一个聚集的层次聚类树。

取一个不相似矩阵X把它转换成向量形式链接接受使用squareform

X = [0 1 2 3;1 0 4 5;2 4 0 6;3 5 6 0];y = squareform (X);

使用创建集群树链接“完成”计算簇间距离的方法。的前两列Z展示链接结合集群。的第三列Z给出了簇之间的距离。

Z =连杆(y,“完成”
Z =3×31 2 1 3 5 4 4 6 6

的树状图Z.x轴对应树的叶节点,y轴对应集群之间的链接距离。

系统树图(Z)

图中包含一个axes对象。坐标轴对象包含3个line类型的对象。

输入参数

全部折叠

输入数据,指定为具有两行或多行的数字矩阵。行表示观察结果,列表示类别或维度。

数据类型:|

计算集群之间距离的算法,指定为该表中的一个值。

方法 描述
“平均”

非加权平均距离(UPGMA)

“重心”

质心距离(UPGMC),仅适用于欧氏距离

“完成”

最远的距离

“中值”

加权质心距离(WPGMC),只适用于欧氏距离

“单一”

最短的距离

“病房”

内平方距离(最小方差算法),仅适用于欧氏距离

“加权”

加权平均距离(WPGMA)

有关这些方法的更多信息,请参见联系

距离度量,指定为pdist函数。下表描述了这些指标。

价值 描述
“欧几里得”

欧氏距离(默认)。

“squaredeuclidean”

平方欧氏距离。(此选项仅为提高效率而提供。它不满足三角形不等式)

“seuclidean”

标准化的欧氏距离。观测值之间的每一个坐标差都通过除以相应的标准差元素来缩放,S =性病(X, omitnan).使用DistParameter指定另一个值年代

“mahalanobis”

的样本协方差的马氏距离XC = X (X, omitrows).使用DistParameter指定另一个值C,其中矩阵C对称的,正定的。

“cityblock”

城市街区的距离。

闵可夫斯基的

闵可夫斯基距离。缺省指数为2。使用DistParameter指定一个不同的指数P,在那里P是指数的正标量值。

“chebychev”

切比乔夫距离(最大坐标差)。

的余弦

1减去点间夹角的余弦(作为向量处理)。

“相关”

1减去点之间的样本相关性(作为值序列处理)。

“汉明”

汉明距离,也就是不同坐标的百分比。

“jaccard”

1减去雅卡德系数,也就是非零坐标的百分比。

“枪兵”

1减去观察值之间的样本斯皮尔曼秩相关(作为值序列处理)。

@distfun

自定义距离函数手柄。距离函数有这样的形式

函数ZJ D2 = distfun(子)距离百分比计算...
在哪里

  • 是一个1——- - - - - -n包含单个观测值的向量。

  • ZJ是一个平方米——- - - - - -n包含多个观察结果的矩阵。distfun必须接受一个矩阵ZJ用任意数量的观察。

  • D2是一个平方米——- - - - - -1距离向量,和D2 (k)观察之间的距离是多少而且ZJ (k,:)

如果您的数据不是稀疏的,您通常可以通过使用内置的距离而不是函数句柄来更快地计算距离。

有关更多信息,请参见距离度量

使用pdist_inputs而不是度规来指定额外的输入参数DistParameterpdist“seuclidean”闵可夫斯基的,或“mahalanobis”

数据类型:字符|字符串|function_handle

距离度量和距离度量选项,指定为由两个输入参数组成的逗号分隔对的单元格数组距离而且DistParameter函数的pdist.此参数仅对指定有效“seuclidean”闵可夫斯基的,或“mahalanobis”

例子:{“闵可夫斯基”,5}

数据类型:细胞

国旗的“savememory”选项,指定为其中之一“上”“关闭”.的“上”设置的原因链接无需计算距离矩阵即可构建集群。的“上”仅当方法“重心”“中值”,或“病房”而且度规“欧几里得”

价值“上”,链接的列数与维度的数量成正比X).当价值“关闭”,链接内存需求与N2,在那里N是观察数。使用的最佳(最短时间)设置价值取决于问题维度、观察数和可用内存。默认的价值设定是最优设定的粗略近似。

默认值是“上”X有20列或更少,否则计算机没有足够的内存来存储距离矩阵。否则,默认为“关闭”

例子:“savememory”,“上”

的输出格式指定为数值向量的距离pdist功能:

  • 长度的行向量- 1) / 2,对应于矩阵中的观测对

  • 按顺序排列的距离(2, 1),(3,1),…, (1),(2),…, (, 2),…, (- 1))

y是否可以有一个更一般的符合输出格式的不相似矩阵pdist

数据类型:|

输出参数

全部折叠

凝聚的层次集群树,返回一个数字矩阵。Z是一个- 1)3矩阵,是原始数据中的观测数。的第1和第2列Z包含成对链接的群集索引,形成二叉树。叶节点编号从1到.叶节点是单例集群,所有更高级别的集群都是从它构建的。每个新形成的簇,对应于行Z(我,:),被分配索引+.条目Z(我,1)而且Z(我,2)包含组成cluster的两个组件集群的索引+.的- 1较高的集群对应于集群树的内部节点。Z(我,3)包含行中合并的两个集群之间的链接距离Z(我,:)

例如,考虑构建一个具有30个初始节点的树。假设聚类5和聚类7在第12步合并,这一步它们之间的距离是1.5。然后: Z(12日)(5 7 1.5).新形成的集群具有索引12 + 30 = 42.如果集群42出现在后面的一行中,则该函数将第12步创建的集群合并为一个更大的集群。

数据类型:|

更多关于

全部折叠

联系

一个链接是两个簇之间的距离。

下列表示法说明了各种方法所使用的联系:

  • 集群r是由集群形成的p而且

  • nr集群中对象的数量是多少r

  • x国际扶轮集群中的第Th个对象r

  • 单键,也叫最近的邻居,使用两个集群中对象之间的最小距离。

    d r 年代 最小值 d 年代 t x r x 年代 j ... n r j 1 ... n 年代

  • 完整的链接,也叫最远的邻居,使用两个集群中对象之间的最大距离。

    d r 年代 马克斯 d 年代 t x r x 年代 j 1 ... n r j 1 ... n 年代

  • 平均链接使用任意两个集群中所有对象对之间的平均距离。

    d r 年代 1 n r n 年代 1 n r j 1 n 年代 d 年代 t x r x 年代 j

  • 质心连杆用两个星团的质心之间的欧氏距离。

    d r 年代 x ¯ r x ¯ 年代 2

    在哪里

    x ¯ r 1 n r 1 n r x r

  • 中间联系为两个聚类加权质心之间的欧氏距离。

    d r 年代 x ˜ r x ˜ 年代 2

    在哪里 x ˜ r 而且 x ˜ 年代 是否为簇的加权中心点r而且年代.如果集群r是通过组合集群创建的吗p而且 x ˜ r 递归定义为

    x ˜ r 1 2 x ˜ p + x ˜

  • 沃德的链接使用平方和的增量,即由于加入两个集群而增加的集群内总平方和。簇内平方和定义为簇内所有对象与簇质心之间距离的平方和。平方度规等于下面的距离度规dr年代),这就是公式链接用途。

    d r 年代 2 n r n 年代 n r + n 年代 x ¯ r x ¯ 年代 2

    在哪里

    • 2 为欧氏距离。

    • x ¯ r 而且 x ¯ 年代 是星团的中心吗r而且年代

    • nr而且n年代集群中的元素数量是多少r而且年代

    在一些文献中,Ward的连杆没有使用2乘的因子nrn年代.的链接函数使用这个因子,使两个单体簇之间的距离与欧氏距离相同。

  • 加权平均链接对两个集群之间的距离使用递归定义。如果集群r是通过组合集群创建的吗p而且,之间的距离r和另一个集群年代定义为距离的平均值p而且年代以及两者之间的距离而且年代

    d r 年代 d p 年代 + d 年代 2

提示

  • 计算连杆(y)可以慢的时候y是距离矩阵的向量表示。为“重心”“中值”,“病房”方法,链接检查是否y为欧氏距离。通过传入避免这种耗时的检查X而不是y

  • “重心”而且“中值”方法可以生成非单调的集群树。当距离两个星团并集的距离,r而且年代,到第三个簇之间的距离小于r而且年代.在本例中,在使用默认方向绘制的树状图中,从叶到根节点的路径需要一些向下的步骤。要避免这种结果,请使用另一种方法。该图显示了一个非单调的集群树。

    在这种情况下,集群1和集群3被加入到一个新的集群中,这个新集群和集群2之间的距离小于集群1和集群3之间的距离。结果是一个非单调树。

  • 您可以提供输出Z其他功能,包括系统树图为了展示这棵树,集群要给集群分配点,不一致的计算不一致的度量,和cophenet计算综合相关系数。

版本历史

之前介绍过的R2006a

Baidu
map