主要内容

模多维标度

这个例子展示了如何使用非经典形式的多维尺度(MDS)可视化不同的数据。

当我们有一组对象时,就会产生不相似数据,而不是测量每个对象的特征,我们只能测量每对对象的相似或不相似程度。例如,我们可能不知道一组城市的经纬度,而只知道城市之间的距离。然而,MDS也适用于比物理距离更抽象的差异。例如,我们可能要求消费者对几种品牌的花生酱的相似程度进行评价。

MDS的典型目标是在一维、二维或三维空间中创建点的配置,这些点之间的距离“接近”原始的不相似点。不同形式的MDS使用不同的标准来定义“关闭”。这些点代表了物体的集合,因此可以用点的图来直观地表示它们的不同之处。

介绍了“经典”MDS的一些应用经典多维尺度在非空间距离中的应用的例子。

罗斯科普夫的莫尔斯电码数据集

为了演示MDS,我们将使用在实验中收集的数据来调查摩尔斯电码的感知(Rothkopf, E.Z, j . exp . psych。53(2): 94 - 101)。在这项研究中,受试者连续听两个莫尔斯电码信号(一个或多个“点”和“破折号”组成的可听序列,代表36个字母数字字符),并被问及信号是相同的还是不同的。实验对象不知道摩尔斯电码。两个不同字符之间的不同之处在于这些字符被正确区分的频率。

36x36的异同矩阵被存储为包含630个元素的向量,其中包含矩阵的子对角线元素。您可以使用该函数squareform在向量格式和完整矩阵形式之间转换。下面是前5个字母和它们的不同点,用矩阵的形式重建。

负载莫尔斯: morseChars (1:5)
ans =5 x2细胞{A}{”。-'} {' b '}{'-…'} {' C '}{’”。'} {' D '}{”——. .'} {' e '}{'。'}
dissMatrix = squareform(不同);dissMatrix (1:5, 1:5)
ans =5×50 167 169 159 180 167 0 96 79 163 169 96 0 141 166 159 79 141 0 172 180 163 166 172 0

在这些数据中,数值越大,说明更多的实验对象能够区分这两种信号,因此信号也就越不相似。

度量尺度

度量MDS创建一个点的配置,使它们的点间距离近似于原始的不相似点。这种近似的拟合优度的一种度量方法叫做"应力"这是我们一开始要用的。为了计算配置,我们提供mdscale函数包含不相似数据、我们想要在其中创建点的维度数(两个)以及我们使用的拟合优度准则的名称。

y = mdscale(dissimilarity, 2,“标准”“metricstress”);大小(日元)
ans =1×236 2

mdscale在本例中,返回二维中的一组点。我们可以绘制它们,但是在使用这个解决方案(即配置)来可视化数据之前,我们将绘制一些图来帮助检查从这个解决方案到点间的距离是否重新创建原始的不相似点。

谢泼德图

Shepard图是点间距离(有n(n-1)/2个)与原始不相似点的散点图。这有助于确定MDS方案的拟合优度。如果拟合性差,那么可视化可能会产生误导,因为点之间的大(小)距离可能不对应数据中的大(小)不相似。在Shepard图中,在1:1线附近的窄散点表明与不相似点之间的距离很好地拟合,而大散点或非线性模式则表明缺乏拟合。

distances1 = pdist (Y1);情节(distances1相异,“波”,[0 200],[0 200],“k——”);包含(“相异”) ylabel (“距离”

图中包含一个axes对象。坐标轴对象包含两个line类型的对象。

这个图表明这个二维的度量解可能是不合适的,因为它既显示非线性模式又显示大散点。前者意味着许多最大的差异往往在可视化中被夸大,而中等和小的差异往往被低估。后者意味着可视化中的距离通常不能很好地反映不相似。特别是,很大的差异中有很大一部分被严重低估了。

比较度量标准

我们可以尝试使用第三维度来提高可视化的保真度,因为随着自由度的增加,拟合度应该会提高。我们也可以尝试不同的标准。另外两个流行的度量标准是Sammon Mapping和平方应力(“应力”)。每一种方法都有不同的解决方案,其中一种方法可能更有助于将原始的差异形象化。

差异Y2 = mdscale (2“标准”“马斯”);distances2 = pdist (Y2);差异Y3 = mdscale (2“标准”“metricsstress”);distances3 = pdist (Y3);

谢泼德图显示了目前为止三种解决方案的差异。

情节(distances1相异,“波”...distances2相异,' r + '...distances3相异,“g ^”...200年[0],[0 200),“k——”);包含(“相异”) ylabel (“距离”)({传奇“压力”“马斯映射”“方压力”},“位置”“西北”);

图中包含一个axes对象。axis对象包含4个line类型的对象。这些对象表示应力,萨蒙映射,平方应力。

注意,在最大的不相似值处,平方应力准则的散点比其他两个准则更接近1:1线。因此,对于这些数据,平方应力在一定程度上更好地保留了最大的差异,尽管它严重低估了其中的一些差异。在较小的不相似值下,Sammon映射准则的散射比其他两个准则更接近1:1线。因此,Sammon Mapping在保存小的不相似点方面稍好一些。压力介于两者之间。这三个标准都显示出一定的非线性,说明度量尺度可能不适合。然而,标准的选择取决于可视化的目标。

非度量尺度

非度量扩展是MDS的第二种形式,它的目标比度量扩展略小。非度量MDS不是试图创建一个点的配置,使成对距离近似原始的不相似点,而是仅仅试图近似排名的不同。另一种说法是,非度量MDS创建了一个点的配置,其点间距离近似于a单调变换原始的不同之处。

这种结构的实际用途是,大的点间距离对应大的不相似点,小的点间距离对应小的不相似点。这通常足以传达所研究项目或类别之间的关系。

首先,我们将在2D中创建点的配置。使用Kruskal的非度量应力准则进行非度量缩放是默认的mdscale

[Y、压力差异]= mdscale (, 2);压力
压力= 0.1800

的第二个输出mdscale是所使用的标准的值,作为解决方案重新创建不同的程度的度量。越小的值表示越适合。这种配置的应力约为18%,被认为不符合非计量应力标准。可接受的准则值的范围因不同的准则而异。

的第三个输出mdscale就是所谓的视差向量。它们只是异同点的单调变换。它们将在下面的非度量缩放Shepard图中使用。

可视化不同数据

尽管这种匹配并不像我们想的那样好,但2D表示是最容易可视化的。我们可以画出每个信号的点和破折号,以帮助了解受试者为什么会感知到字符之间的差异。这个配置的方向和比例是完全任意的,所以没有轴标签或值显示。

情节(Y (: 1), Y (:, 2),“。”“标记”“没有”);文本(Y (: 1), Y (:, 2), char (morseChars (:, 2)),“颜色”“b”...“字形大小”12“FontWeight”“大胆”“HorizontalAlignment”“中心”);甘氨胆酸h_gca =;h_gca。XTickLabel = [];h_gca。YTickLabel = [];标题(“罗斯科普夫摩斯电码数据的非度量MDS解”);

图中包含一个axes对象。罗斯科普夫摩尔斯电码数据的非度量MDS解包含37个类型为行、文本的对象。

这表明,字符可以用两个轴来描述:大致来说,西北/东南方向是区分信号长度的方向,西南/东北方向是区分点和破折号的方向。两个信号最短的字符“E”和“T”在这种解释中有点不合适。

非度量谢泼德图

在非度量缩放中,习惯在谢泼德图中显示差异和距离。这提供了一个检查距离如何重建差异,以及从不相似点到差异的单调转换有多非线性。

距离= pdist (Y);[dum,ord] = sortrows([差异(:)不同(:)]);情节(不同的距离,“波”...(奥德)的异同,差距(奥德),' r . - ');包含(“相异”) ylabel (“距离/差距”)({传奇“距离”“差异”},“位置”“西北”);

图中包含一个axes对象。坐标轴对象包含两个line类型的对象。这些物体代表距离,视差。

该图显示了非度量尺度下的距离如何近似于差异(蓝圈围绕红线的散点),而差异反映了差异的等级(红线是非线性的,但在增加)。将此图与来自度量尺度的Shepard图进行比较,可以看出两种方法的差异。非度量缩放试图重建的不是原始的差异,而是它们的非线性转换(差异)。

在这样做的过程中,非度量尺度进行了权衡:非度量距离重现差异比度量距离重现差异更好——这个图中的散点比度量图中的小。然而,差异是相当非线性的函数的异同。因此,虽然我们可以更加确定,在非度量解中,可视化中的小距离对应于数据中的小差异,但重要的是要记住,可视化中点之间的绝对距离不应该太字面地理解——只应该是相对距离。

三维非度量缩放

因为在2D结构中的应力有点高,我们可以尝试3D配置。

[Y、压力差异]= mdscale(相异,3);压力
压力= 0.1189

这个应力值相当低,表明更好的适合。我们可以在三维空间中画出构型。一个实时的MATLAB®图形可以交互旋转;在这里,我们将从两个不同的角度来看。

plot3 (Y (: 1), Y (:, 2), Y (:, 3),“。”“标记”“没有”);文本(Y (: 1), Y (:, 2), Y (:, 3), char (morseChars (:, 2)),“颜色”“b”...“字形大小”12“FontWeight”“大胆”“HorizontalAlignment”“中心”);集(gca),“XTickLabel”[],“YTickLabel”[],“ZTickLabel”[]);标题(“罗斯科普夫摩斯电码数据的非度量MDS解”);59岁的视图(18);网格

图中包含一个axes对象。罗斯科普夫摩尔斯电码数据的非度量MDS解包含37个类型为行、文本的对象。

从这个角度我们可以看到,单号和双号信号的字符和长号信号的字符是很好的分开的,彼此之间也是分开的,因为它们是最容易区分的。如果我们将视图旋转到不同的角度,我们可以看到较长的字符,就像在2D配置中一样,可以大致用符号的数量和点或破折号的数量来描述。(从第二个角度来看,一些较短的字似乎与较长的字穿插在一起。)

视图(9 8);

图中包含一个axes对象。罗斯科普夫摩尔斯电码数据的非度量MDS解包含37个类型为行、文本的对象。

这种3D结构比2D结构更精确地重建距离,然而,信息本质上是相同的:受试者主要根据信号中包含的符号的数量,以及点和破折号的数量来感知信号。在实践中,2D配置可能完全可以接受。

Baidu
map