1.2 构筑当下
就像一直在跟踪分析数据一样,技术团队也一直在跟踪数据质量,并寻求对其进行改善的方法。但直到21世纪20年代,数据质量才成为许多企业的首要任务。对于许多组织来说,数据不仅是一种产出,更是一种金融商品,所以这些信息的可信度非常重要。
所以,公司越来越像对待代码一样来对待数据,将软件工程团队中的框架和范例长期标准应用于其数据组织和架构中。DevOps是一个致力于缩短系统开发生命周期的技术领域,催生了业界领先的最佳实践,如站点可靠性工程、持续集成/持续部署(CI/CD)和基于微服务的架构。简而言之,DevOps的目标是通过自动化来发布更可靠、性能更好的软件。
在过去的几年里,越来越多的公司以“数据运营”(DataOps)的形式将这些概念应用于数据。数据运营指的是通过自动化来减少数据孤岛并促进更快、更容错的分析,以提高数据可靠性和性能的过程。
自2019年以来,Intuit(https://oreil.ly/NhMtB)、Airbnb(https://oreil.ly/fbHlY)、Uber(https://oreil.ly/0GhQC)和Netflix(https://oreil.ly/Ai2zC)等公司撰写了大量关于它们承诺通过应用数据运营最佳实践来确保为整个企业的利益相关方提供可靠、高可用性数据的文章。除了推动基于分析的决策(例如,产品战略、财务模型、成长型营销等)外,这些公司产生的数据还为其应用程序和数字服务提供了动力。不准确、缺失或错误的数据会耗费公司的时间、金钱以及客户的信任。
随着这些科技巨头越来越清楚地认识到实现高数据质量的重要性和挑战,其他各种规模和各行各业的公司也开始察觉并通过从实施更稳健的测试到投资包括监控和数据可观测性在内的数据运营最佳实践,来不断复制这些努力。
但究竟是什么导致了对更高数据质量的需求呢?为了促进DataOps的兴起,数据环境又发生了哪些变化,从而促进了数据质量的提高呢?接下来,我们将深入研究这些问题。