数据质量管理:数据可靠性与数据质量问题解决之道
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第2章
对可靠数据系统的构建模块进行组装

与Ryan Kearns共同撰写

对于任何数据从业者来说,解决生产过程中的数据质量问题都是一项关键技能,但只要有适当的系统和流程,就基本可以防止数据宕机。

与软件一样,数据在管道的任何阶段都可能会受到操作数量、编程甚至数据相关性的影响,也许只需一次模式更改或代码推送,就会让下游报告处于混乱状态。

正如我们将在第8章讨论的,解决数据质量问题并构建更可靠的管道分为三个关键组件:流程、技术和人员。在本章中,我们将解决组件中的技术部分,将数据管道的不同部分映射在一起,并了解在每个步骤中测量、修复和防止数据宕机所需的内容。

数据系统极其复杂,而数据管道中的各个阶段都导致了这种混乱。随着公司越来越多地投资于数据和分析,这种大规模构建的压力也为数据工程师带来了巨大的压力,甚至让他们在数据进入管道前就开始为质量问题负责。

在本章中,我们将重点介绍各种来自数据目录、数据仓库和数据湖中的,元数据驱动的构建模块,以便在管道的每个阶段都确保高质量的数据,并保证成功建立数据基础设施。