数据质量管理:数据可靠性与数据质量问题解决之道
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.1 什么是数据质量

数据质量作为一个概念并不新奇——“数据质量”自从人类开始收集数据以来就已经存在了!

然而,在过去的几十年里,数据质量的定义已经开始具体化为度量数据可靠性、完整性和准确性的功能,因为它与报告时的状态相关。正如人们所说,你无法管理未经度量的内容,而高数据质量是所有强大分析程序的第一步。数据质量也是一种了解数据是否符合业务需求的有效方法。

在本书中,我们将数据质量定义为数据在其生命周期中任何阶段的健康状况。数据质量可能在数据管道的任何阶段受到影响,无论是接收数据前、生产过程中,还是在分析过程中。

在我们看来,数据质量常常是一个糟糕的代表,数据团队知道他们需要优先考虑它,但它并没有像“机器学习”“数据科学”甚至“分析”那样一蹴而就,许多团队没有足够的带宽或资源来找人全职管理它。相反,资源紧张的公司依靠数据分析师和工程师自己来管理数据,从而将他们从更有趣或更具创新性的项目中抽离出来。

但是,如果你不能信任数据及其所支持的数据产品,那么数据用户要如何相信你的团队能够提供价值呢?“没数据总比坏数据好”这句话是该领域专业人士经常抛出的一句话,虽然它确实有道理,但这往往不是现实。

鉴于大多数公司的增长速度和数据消耗,数据质量问题(或数据宕机)实际上已不可避免。但通过了解我们如何定义数据质量,你可以更容易地评估它并防止它在下游引起问题。