数据质量管理:数据可靠性与数据质量问题解决之道
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.3 数据仓库与数据湖

在数据工程团队的日常用语中,可能没有哪两个词像数据仓库和数据湖那样占据如此多的空间。虽然数据仓库和数据湖不能互换,但这些技术正在迅速融合,每种技术都提供了两全其美的优势。

许多组织确实需要在其数据管道中使用这两种系统,但它们的用途却截然不同。数据仓库通常以结构化(行-列)的格式来存储数据。此类数据经过了高度转换(定义的预处理过程的结果),且仅在有明确的存在理由时才会在数据仓库中出现——至少理论上是这样的。

相反,数据湖能存储任何结构化数据、半结构化数据和非结构化数据。与数据仓库不同,数据湖不需要具有高度指定的数据输入程序,你可以将任何喜欢的格式转储到湖中并直接访问它。其结果是系统的容量通常更高,并且在治理和数据方面往往更加复杂。