主要内容

分组变量

什么是分组变量?

分组变量是用于对观察进行分组或分类的效用变量。分组变量对于按组总结或可视化数据非常有用。分组变量可以是以下任何一种数据类型:

  • 数值向量

  • 逻辑向量

  • 字符数组

  • 字符串数组

  • 字符向量的单元格数组

  • 分类向量

分组变量必须具有与要分组的表、数据集数组或数字数组相同的观察数(行)。具有相同分组变量值的观测值属于同一组。

例如,以下变量包含相同的组。每个分组变量将五个观察结果分为两组。第一组包含第一和第四观察结果。其他三个观察结果在第二组中。

数据类型 分组变量
数值向量 [1 2 2 1 2]
逻辑向量 [0 1 1 0 1]
字符串数组 ["男”、“女”、“女性”,“男”,“女性”)
字符向量的单元格数组 {'男','女','女','男','女'}
分类向量 男女女男女

使用带标签的分组变量为每个组指定有意义的名称。分类向量是一种高效、灵活的分组变量选择方法。

组定义

通常,分组变量中的组与惟一值相同。但是,分类向量可以具有数据中没有表示的级别。组和组的顺序取决于分组变量的数据类型。假设G是分组变量。

  • 如果G是数值或逻辑向量,则组对应的不同值在G,按唯一值的排序。

  • 如果G是字符向量的字符数组、字符串数组或单元格数组,则组对应其中的不同元素G,按照它们首次出现的顺序。

  • 如果G是一个类别向量,那么组对应的唯一类别水平在G,按照返回的顺序类别

一些函数,例如grpstats,接受多个分组变量指定为分组变量的单元格数组,例如{G1, G2, G3}.在本例中,组由分组变量中的值的唯一组合定义。顺序首先由第一个分组变量的顺序决定,然后由第二个分组变量的顺序决定,依此类推。

分组变量分析

此表列出了可能希望使用分组变量执行的常见任务。

分组的任务 接受分组变量的函数
为不同组的数据绘制并排的框图。 箱线图
画一个散点图,用标记按组着色。 gscatter
画一个散点图矩阵,用标记按组着色。 gplotmatrix
按组计算汇总统计。 grpstats
测试组均值之间的差异。 anovan
从分组变量创建索引向量。 grp2idx

失踪组值

只要包含有效的指示符,分组变量可能会缺少值。

分组变量数据类型 缺失值指标
数值向量
逻辑向量 (不能缺少)
字符数组 排空间
字符串数组 < >失踪""
字符向量的单元格数组
分类向量 <定义>

另请参阅

相关的例子

更多关于

Baidu
map