我们讨论的数据分组不是编程语言中的数据分组,只是我们在Excel数据处理中经常要用到的数据分组。
什么是数据分组?
- 将100名学生分成3个班级,这个过程就叫分组;
- 把学生成绩分成不及格、及格、优秀这个过程叫做分组;
- 把试题判对、错,这个过程叫分组;
所以分组是是解决问题的一个过程,一种方法,一种思维。
为什么要分组?
人脑不喜欢杂乱,希望看到整齐有序的结果,分组就是从杂乱数据到整洁有序结果的一个必须的过程。简单来说数据分组就是为了使杂乱的数据变得可读。
分组的原则:
- 穷尽原则:一个都不能少
- 排他原则:非此即彼
分组操作的过程中一定要遵循这两个原则,对于任何一组数据,分组后的结果,一定是每一行都会有一个对应的分组条目结果,而且同样特征的两行数据,分组结果必须相同。(在60分及格的条件下,58分与59分的分组结果都应该是“不及格”)
分组的类型:
根据数据类型的不同,分组的方法与类型也不同,
- 数值:100名同学分班,会用随机抽取的方法,也可以根据序号等距分组;学生的成绩分组就是典型的阶梯分组;
- 文本:就要复杂一些,比如:时间序列(年月日)、地域(国家、地区、省市)这些是固有的约定俗成的分组;工作中还需要很多自定义的分组,比如:常见地区域划分,将某几个省份划分到一个区域,诸如此类;
分组辅助表:
在实际工作中,分组过程大多会是不断重复的工作,最好的方法是维护一个分组的辅助表,这个有点类似数学题中的穷举法,所有的分组答案都在这个辅助表中,任何时候想要分组,只需要到这个表里使用VLOOKUP函数查询就可以了。
关于数值分组,也同样会需要一个分组辅助表,通LOOKUP函数查询分组结果。
建立与维护分组辅助表:
- 手工操作:数据规律性差,只能耐心点,用关键字筛选慢慢的处理,首次建立比较麻烦,后期维护就会好些,技术要求不高,需要的是耐心。
- 公式法:数据有规律,或者条件明确,可以直接编写公式进行分组。
- Power Query 查询:将原始数据通过Power Query处理得到分组的辅助表,这个辅助表不需要加载,保存在查询中即可,每次可以通过刷新,自动更新,可以通过合并查询直接使用。
- Power Pivot 查询:使用EVALUATE查询生成一个超级表,这也是一个可以自动刷新的分组辅助表,可以再链接回Power Pivot中作为数据模型的一部分。
分组的用途:
- 编写公式:再Excel中做数据统计时,如果有了清晰的分组,公式编写将会变的非常简单;
- 数据透视:无论是数据透视表、数据透视图,都依赖于简洁的数据分组;
- 切片器:切片器同样依赖于简洁的分组,未分组的数据冗长,不适合用做切片器;
- 数据模型:数据模型中的维度分析,其实质就是分组分析,很多时候可能还需要对某一维度冗长的数据进行再分组;
注意事项:数据分组是为了产生简洁清晰的结果,所以分组的条目不宜过多,条目太多就会影响报告的可读性。