数据质量管理:数据可靠性与数据质量问题解决之道
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.3.3 什么是湖仓一体

当云仓库供应商开始添加诸如Redshift Spectrum或Delta Lake等提供湖式好处的功能时,湖仓一体首次出现在人们的目光中。同样,数据湖也添加了提供仓库式特性的技术,例如SQL功能和模式。数据仓库和数据湖之间的差异如今正在不断缩小,所以你能够在一个软件包中获得两全其美的体验。

以下功能正在帮助湖仓一体进一步弱化这两种技术之间的界限:

高性能SQL

Presto和Spark等技术在数据湖上提供了接近交互速度的SQL界面。这开辟了数据湖直接服务于分析和探索需求的可能性,而无须对传统数据仓库进行汇总和ETL。

模式

Parquet等文件格式为数据湖表引入了更严格的模式,以及用于提高查询效率的列式格式。

原子性、一致性、隔离性和持久性(AtomicityConsistencyIsolationand Durability,ACID

Delta Lake和Apache Hudi等数据湖技术在写入/读取事务中引入了更高的可靠性,并让数据湖更接近传统数据库技术标准中的理想ACID属性。

托管服务

对于希望减少与构建和运行数据湖相关的运营成本的团队,云服务供应商提供了各种托管湖服务。例如,Databricks提供Apache Hive、Delta Lake和Apache Spark的托管版本,而Amazon Athena提供完全托管的数据湖SQL查询引擎,Amazon的Glue提供完全托管的元数据服务。

随着为光速分析提供信息的实时数据聚合和数据流传输的兴起(想想Uber、DoorDash和Airbnb等硅谷科技巨头的速度),湖仓一体未来几年可能会在各行各业的数据团队中变得越来越受欢迎,且越来越重要。