Python+Superset:商业智能数据分析与实战
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.3 解决方案概述

企业不同部门的数据分散、入口不一,跨部门、跨平台的数据整合阻碍了数据的使用效率,更不利于数据的提取和转换,BI平台可以有效地解决这类问题。本节阐述了解决方案的细节,包括BI平台的特性及平台的整体架构。

2.3.1 BI平台功能简介

BI平台的功能设计如图2-8所示。数据仓库将企业的各种数据作为统一的数据源,提供了即席查询、数据提取、数据推送等功能,在抽取数据时,会出现错误报告。元数据管理主要实现了对企业数据知识的管理,并具备了字典管理、指标管理、元数据更新等功能。报表平台在外部提供报表服务等,为各个业务部门提供数据支持。

图2-8 BI平台功能设计

2.3.2 BI平台总体架构

从目前的技术体系结构出发,综合考虑企业的数据状况,把BI平台基本上划分为数据仓库、元数据管理系统、报表平台三大部分。整个BI平台以数据仓库为基础,基于大数据处理技术的Hive作为核心,通过数据抽取过程对数据进行综合分析、构建报表、临时查询、元数据管理等数据应用,将元数据管理贯穿每一步。

BI平台将系统各部分进行分割,以降低系统复杂性,达到内部高度聚集性,集中精力处理自己的事务,并减小耦合,这将有助于系统的进一步扩充,并方便未来维护。BI平台的总体架构如图2-9所示。

(1)数据源:主要包括企业财务、经营、销售和各产品的操作数据库、客户上载的埋点日志数据、各种人工输入的渠道上报数据等。

图2-9 BI平台总体架构

(2)数据提取缓冲区:主要负责数据源层对数据进行抽取、转换等方式处理,然后发布到数据仓库和报表所用的操作数据库中。

(3)数据仓库:整个平台的核心部分,在Hive实现的基础上,整合多个数据源的相同数据,建立一致的数据和业务结构。

(4)数据应用:主要利用数据库提供的数据来提供报表、即席查询、数据分析等多种服务,并建立了与用户交互的接口。

(5)元数据管理系统:该系统通过对各个数据源的元数据信息进行解析,经人工补充后,可以提供字典管理、指标管理、元数据更新等服务。