分组变量
什么是分组变量?
分组变量是用于对观察进行分组或分类的效用变量。分组变量对于按组总结或可视化数据非常有用。分组变量可以是以下任何一种数据类型:
数值向量
逻辑向量
字符数组
字符串数组
字符向量的单元格数组
分类向量
分组变量必须具有与要分组的表、数据集数组或数字数组相同的观察数(行)。具有相同分组变量值的观测值属于同一组。
例如,以下变量包含相同的组。每个分组变量将五个观察结果分为两组。第一组包含第一和第四观察结果。其他三个观察结果在第二组中。
数据类型 | 分组变量 |
---|---|
数值向量 | [1 2 2 1 2] |
逻辑向量 | [0 1 1 0 1] |
字符串数组 | ["男”、“女”、“女性”,“男”,“女性”) |
字符向量的单元格数组 | {'男','女','女','男','女'} |
分类向量 | 男女女男女 |
使用带标签的分组变量为每个组指定有意义的名称。分类向量是一种高效、灵活的分组变量选择方法。
组定义
通常,分组变量中的组与惟一值相同。但是,分类向量可以具有数据中没有表示的级别。组和组的顺序取决于分组变量的数据类型。假设G
是分组变量。
如果
G
是数值或逻辑向量,则组对应的不同值在G
,按唯一值的排序。如果
G
是字符向量的字符数组、字符串数组或单元格数组,则组对应其中的不同元素G
,按照它们首次出现的顺序。如果
G
是一个类别向量,那么组对应的唯一类别水平在G
,按照返回的顺序类别
.
一些函数,例如grpstats
,接受多个分组变量指定为分组变量的单元格数组,例如{G1, G2, G3}
.在本例中,组由分组变量中的值的唯一组合定义。顺序首先由第一个分组变量的顺序决定,然后由第二个分组变量的顺序决定,依此类推。
分组变量分析
此表列出了可能希望使用分组变量执行的常见任务。
失踪组值
只要包含有效的指示符,分组变量可能会缺少值。
分组变量数据类型 | 缺失值指标 |
---|---|
数值向量 | 南 |
逻辑向量 | (不能缺少) |
字符数组 | 排空间 |
字符串数组 | < >失踪 或"" |
字符向量的单元格数组 | ” |
分类向量 | <定义> |