数据可视化分析:分析原理和Tableau、SQL实践(第2版)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

3.1.4 指标是聚合度量的业务形态

维度、度量、聚合、筛选,这些都是技术上的通用名词,随着技术普及,逐渐成为数据素养的常识。从业务角度来看,更常见的名词是视角、指标、过滤等。其中,指标是每个业务问题中必不可少的部分,指标对应度量,度量必然聚合,因此,指标是聚合度量的业务形态。

1.围绕指标的关键概念:聚合、度量、指标体系

在进一步展开指标分类之前,有必要说明业务计量(Measurement)、问题度量(Measure)、指标(Metrics)和关键绩效指标(KPI)之间的逻辑关系。

业务是数据的来源。当业务过程以数据方式被采集、保存到数据库中时,一部分字段用于描述业务过程,比如时间、地点、人员、产品等,另一部分字段用于量化业务过程,比如金额、数量、折扣,它们是业务过程的度量(Measurement)。包含度量值的数据表常常被称为“事实表”(Fact Table)。

分析是对业务和指标的抽象,最重要的抽象方式是聚合,聚合的结果称为度量(Measure),比如销售额总和、平均年龄、客户数、最高产量等。因此,聚合是问题的本质,而度量是问题的核心,它是问题中最不可或缺的部分。

理论上,任意字段都可以被聚合成为“度量”,但只有那些具有高度抽象水平、具有业务指导意义的度量才会被视为运营指标(Operational Metrics),这些关键指标相互补充,构成了企业的指标体系。其中最重要的指标被称为“关键绩效指标”(KPI,Key Performance Indicator)。从业务范围来看:

KPI 关键绩效指标 < Metrics 指标 < Measures度量

可见,指标必然是聚合度量,反之则不然。比如客户的首次订单日期(MAX([订单日期])是聚合度量,但不会作为指标使用,基于它和最后订单日期计算而来的“客户生命周期”才是具有业务指导意义的指标。业务指标都是动态的,随着业务变化的。

2.业务指标的常见分类

基于上述理解,按照聚合计算的复杂程度,笔者把业务指标分为如下3类。

(1)简单指标:直接聚合。

以SUM、AVG、COUNT等聚合函数为基础,聚合度量就变成了最常见的指标,比如销售额、客户数量、产品数量、订单数量等。

建立在直接聚合上的业务指标,通常描述业绩规模,是领导最先关注的内容。

(2)指标组合:聚合的计算。

规模指标难以揭示业务背后的质量情况,此时可以用聚合的计算作为补充。比如,利润总和、利润率相结合,订单数量、订单件均相结合,投资金额、投资回报率相结合,等等。

最常见的指标组合是比值指标,比如:

· 利润率 = SUM([利润])/SUM([销售额]

· 订单件均 = SUM([销售额])/COUNTD([订单ID]

· 毛利额总和 = SUM([销售额])-SUM([成本]

比值指标是最常见的度量,读者务必要理解它们和数据表中度量值(比如数量、金额)的根本差异。像利润率这样的比值指标完全不存在于业务过程中,因此也无法从业务数据表中直接采集而来,它们代表了业务用户对业务和数据的高度抽象,是相对问题而存在的。虽然,很多企业的数据仓库中间表会物理地存储利润率数据,但这样既无必要,又不可取,是最常见的“技术误用”。

(3)复合指标:增加筛选范围及其计算。

越抽象的指标越具有业务诠释功能和刻画能力,当上述指标无法完整地描述业务时,就需要创造更多抽象指标。复合指标的典型特征是聚合中包含了条件(Condition),计算条件可以称为聚合的背景、环境、上下文(Context),甚至叠加二次计算,典型的复合指标如下。

· (零售)销售额同比增长率:今年的销售额总和,相比去年同期的销售额总和的差异百分比。

· (医药)3个月覆盖率:过去3个月活跃的门店数,占过去12个月活跃的门店总数的比例。

· (金融)C-M1%:当前账户逾期低于30天的账户数,与上月期末账户未逾期的账户数比值。

上述3个指标虽然都是比值,但是分子、分母中都包含了不同的数据范围,并且计算难度越来越高。在本书第6章,笔者会介绍筛选相关的内容,同一个问题中的多个指标,相同的范围可以添加独立的筛选器,不同的范围则需要与聚合结合方可完成。

“指标”是聚合度量的业务形态,只有在充分理解聚合函数、逻辑计算,以及聚合的数据表结构的基础上,才能游刃有余地完成。