数据可视化分析:分析原理和Tableau、SQL实践(第2版)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

3.1.3 基于聚合的“字段角色”分类:维度描述问题,度量回答问题

字段构成问题结构,聚合是分析的本质。从聚合的角度看构成问题的字段,它们的作用有所不同;部分字段包含聚合[1],比如销售额总和、最大订单日期——常被称为定量字段(Quantitative Field)或度量字段(Measure);其他字段则是聚合的分组依据——常被称为分类、定性字段(Qualitative Field)或维度字段(Dimension)。

分析的本质是聚合,因此问题中的度量字段必然与聚合函数相伴而生,比如“利润总和”“平均数量”“最大金额”“最小日期”“员工计数”,本书常将其称为“聚合度量”或者写作“(聚合)度量”。由于度量必然包含聚合,因此“聚合度量”其实是重复定义,“聚合”前缀旨在强调“度量”的聚合属性。

多个聚合字段构成的“业务指标”也必然是度量,比如“利润总和/销售额总和”“利润总和同比”。

同时,聚合度量字段必然依赖维度字段,维度是聚合的分组和计算依据。不管是Excel透视表,还是SQL聚合查询、Tableau可视化、Python分析,概莫能外。

聚合度量的分组依据,在Excel中对应透视表行列字段,在SQL中对应GROUP BY子句,在Tableau中是视图行列、标记(工具提示除外)中的维度字段。图3-5展示了不同工具的依赖关系,图中用线条表示了维度对聚合字段的约束作用。

图3-5 维度是聚合的分组依据(不同工具的对比)

推荐读者使用维度、度量的字段角色作为问题字段的抽象分类。其中,分析对象对应维度字段,问题答案对应度量字段。用一句话概括,如下:

维度描述问题(是什么),度量回答问题(有多少);

维度是(聚合)度量的(分组和计算)依据。

随着问题的结构日渐复杂,这句话也将日渐重要,特别是高级计算。