第五节
数据仓库和数据集市
国际主流银行在内部评级体系开发过程中,将70%以上的资源和时间投入到数据库建设上。利用数据库、联机分析处理和数据挖掘技术的强大功能,银行可以建立企业客户群、个人客户群的数据库,并对企业的结构、经营、财务、市场竞争等多个数据源进行统一组织,从而形成一体化的存储结构,为决策分析奠定基础。风险数据集市管理是银行内部评级法的基石,主要包括几个部分,即ETL层、数据仓库、数据集市、模型建立、元数据管理、数据质量管理、数据仓库监控与管理等。
一、数据ETL层
在使用业务系统进行风险分析之前,对数据进行清洗和整理,一方面可进一步提高分析效能,同时也可以提升模型开发效果。数据抽取指从最佳数据源中获得所需数据。这是将数据导入数据仓库的第一步。抽取意味着读取并理解元数据,并复制数据仓库所需要的部分,它由选择、全抽取、Delta抽取等功能组成。数据转换包括将元数据格式变为目标数据库格式的模块。转换是选择、变更或操作数据的过程。一般而言,转换包括映射、清洗、汇总、重排和排序等步骤。转换过程中使用的业务规则必须在元数据中加以捕捉和保存以确保对数据有一个恰当和一致的理解。数据加载指将转换好的数据放入数据仓库的过程,通过批加载工具处理大量和预排序数据,可优化数据加载的性能。
二、数据仓库
数据仓库是一个集成和集中化的数据存储,它由多个主题的企业级数据组成,包括低层的、细分的、为报表目的而长期保存的数据。在数据仓库里,每个数据单元都和特定的时间相关。数据仓库包括原子级别的数据和轻度汇总的数据,是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程。因此,根据不同的需求和技术条件,数据仓库可以是一个或多个数据集市集合,也可以是一个操作型数据存储和多个数据集市的集合,这完全取决于对业务的需求以及基础条件、性能、要求具备的可扩展性和灵活性的综合分析。数据仓库提供银行用于决策支持的当前和历史数据,可以提供很好的DSS(决策支持系统)功能。一个典型的银行数据库系统通常包含数据源、数据存储与管理、联机分析处理服务器、前端工具与应用四个部分,见图3-10。
数据源包括银行内部信息和外部信息。内部信息包括存放于银行操作型数据库中(通常是关系数据库)各种业务数据和办公自动化(OA)系统中包含的各类文档数据。外部信息包括相关法律法规、市场信息、竞争对手信息及各类外部数据和文档等。
图3-10 数据仓库系统基本结构
对数据存储与管理是整个数据仓库系统的核心,在现有各业务系统基础上,进行数据抽取、清理和有效集成,并按照主题重新组织,最终确定数据仓库的物理存储结构;同时组织存储数据仓库元数据,具体包括数据仓库字典、记录系统定义、数据转换规则、数据加载频率以及业务规则等信息。数据仓库分为企业级数据仓库和部门级数据仓库(常称“数据集市”)。数据仓库管理包括数据的安全、归档、备份、维护、恢复等工作。
联机分析处理(OLAP)服务器。对分析需要的数据按照多维数据模型进行再次重组,以支持用户多角度、多层次的分析,发现数据趋势。其具体实现可分为关系型联机分析处理(ROLAP)、多维联机分析处理(MOLAP)和混合联机分析处理(HOLAP)。关系型联机分析处理基本数据和聚合数据均存放于关系数据库中;多维联机分析处理基本数据和聚合数据均存放于多维数据库中;而HOLAP是ROLAP与MOLAP的综合,基本数据存放于关系数据库之中,聚合数据存放于多维数据库中。
前端工具与应用。前端工具主要包括各种数据分析工具、报表工具、查询工具、数据挖掘工具以及各种基于数据仓库或数据集市开发的应用。其中数据分析工具主要针对联机分析处理服务器,报表工具和数据挖掘工具既针对数据仓库,同时也针对联机分析处理服务器。
数据库之父W. H. Inmon在其著作《建造数据库》(Building the Data Warehouse)一书中将数据仓库定义为:数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持决策,他提出数据仓库建设以数据驱动为中心,通过构建新数据模型,将用户系统的数据整理、转换并存入其中,最终建立数据库;NCR数据库主要是以应用为驱动中心,SAS数据库则以业务需求驱动为中心。数据库建设流程见图3-11。
图3-11 银行数据库建设流程示意图
在实际规划中要做好战略部署、业务需求发现、数据源系统分析、数据质量评估以及逻辑数据模型设计等工作。最初确定业务范围是通过对业务领域的需求进行分析来界定的,同时对原有数据基础进行分析,并通过相互交流,最终形成一个良好的数据模型,见图3-12。
图3-12 数据仓库规划流程示意图
三、数据集市
数据集市是针对某一主题、部门或用户类别的一组数据集合。这些数据经过优化以达到快速访问和分析报告目的;数据结构通常是高度汇总并具有索引的。如果说数据仓库是建立在企业级的数据模型之上的话,那么数据集市就是企业级数据仓库的一个子集,它主要面向部门级业务,并且只面向某个特定的主题。数据集市的设计可以采取迭代式的方法。在迭代式开发中,每个迭代为上一次的结果增加了新的功能。功能增加的顺序要考虑到迭代平衡以及尽早发现重大风险。商业银行可以先从数据集市入手,就某一个特定的主题(如信用风险评级、限额设置等)先做数据集市,再建设数据库。可以以数据集市形式存储信用风险数据,用户可以读取大量数据,包括历史数据,利用集市可为数据挖掘、在线数据分析和报表工具提供充足的历史数据。数据超市的多维数据库模型可以提高在线分析处理的效率,同时支持用户进行随时数据查询(ad-hoc query),通过OLAP工具建立管理报表,让用户进行在线数据分析衡量信用风险。数据集市中至少应包括多年的信用风险因素信息与部分数据信息,以满足数据挖掘与管理报表需求。
四、数据仓库监控与管理
仓库监控与管理要跨越数据仓库从创建到最后引退的整个生命周期的全过程。数据仓库监控与管理对于确定数据仓库为业务带来的持续的价值贡献起着重要作用。数据仓库监控与管理主要由两大部分组成,即营运管理和服务管理。
营运管理包括两方面:一是通过最终用户使用访问工具而实现运营,它们的部分工作就是操作数据仓库以获取所需的信息;另一方面更具技术性和操作性意义,即在数据被加载到数据仓库前数据缓冲阶段给予支持并参与数据仓库的运营、使用计划以及维护的相关活动。具体说来,数据仓库运营主要包含:技术管理、工作生产管理、数据仓库应用软件与技术组件的管理与维护、应用软件与技术组件的监控、计划信息技术资源使用、性能管理和优化、存档与清洗、安全管理、数据源管理、征收服务费、风险管理。
服务管理部分主要考虑仓库综合管理,在培训支持、进度报告、元数据管理、意见管理、变更需求、数据仓库更新、演进、控制和结果监控方面对用户影响更多,主要包括培训与支持-运作工具、培训与支持-数据仓库内容、查询支持、数据仓库状态用户报告、元数据改进与更新、意见管理、变更需求管理、数据仓库使用延展、严禁、结果与监控等。
数据仓库的组织管理方式决定了它是有别于传统数据库模式的,需要按照风险管理信息系统的主题要求,针对现有各业务系统的数据进行储存、加工,按照覆盖整个银行范围的要求来展现风险管理信息。数据仓库不是静态的概念,必须与银行业务联系起来,只有将信息及时提交给需要这些信息的使用者,供他们做出改善业务经营的决策,信息才有意义。而把信息加以整理、归纳和组合,并及时提供给相应的管理决策人员,是数据仓库的根本任务。因此,数据仓库是一个工程,也是一个持续更新的过程。