主数据驱动的数据治理:原理、技术与实践
上QQ阅读APP看书,第一时间看更新

1.2 数据资产和数据管理

1.2.1 数据资产的概念和重要性

数据是一种未经加工的原始资料,是对客观事物的逻辑归纳,用符号、字母等方式对客观事物进行直观描述。数据是进行各种统计、计算、科学研究或技术设计等所依据的数值(是反映客观事物属性的数值),是表达知识的字符的集合。信息是数据内涵的意义,是数据的内容和解释。数据经过解释并赋予一定的意义之后,便成为信息。

企业所应用的信息系统和数据仓库中存储了大量生产经营活动中的基础数据和业务数据,例如客户数据、BOMBOM(Bill of Material,物料清单),指产品所需要的零部件的清单及组成结构,即生产一件产品所需的子零件及其产品中零件数量的完全组合。数据、订单数据等,通过ERP、CRM等管理信息系统的加工处理,这些数据将转化为信息,用以支持企业各层级的管理决策,提高现有生产资源的利用率,充分发挥资源的整合效应,促进提高管理效率、降低经营费用、提高劳动生产率、提高客户满意度等,从而间接为企业带来经济效益。

信息资产是由企业拥有或者控制,能够为企业带来未来经济利益的信息资源。这一定义中包含三个关键要素。

• 拥有或者控制:表明信息资产的获取并不局限于企业内部,除业务系统产生的数据,通过各种渠道合法获取并控制的外部数据也属于企业信息资产的范畴。

• 带来未来经济利益:体现了信息资产的经济属性。信息资产的本质是将信息作为一种经济资源参与企业的经济活动,减少和消除企业经济活动中的风险,为企业的管理控制和科学决策提供合理依据,并预期给企业带来经济利益。

• 信息资源:表明了信息资产的具体形态。根据BS 7799以及GB/T 20984—2007《信息安全风险评估规范》GB/T 20984—2007《信息安全风险评估规范》由国际标准信息技术安全性评估通用准则(CC)改进而来。标准提出了风险评估的基本概念、要素关系、分析原理、实施流程和评估方法,以及风险评估在信息系统生命周期不同阶段的实施要点和工作形式。,信息资产包括各种以物理或电子方式记录的数据、软件、服务、人员和其他类别等。由于数据是信息在企业中的主要表达形式,因此,数据资产成为信息资产中最重要的组成部分。

数据的直接效用是将企业的各项生产经营活动客观形象地记录下来,实现可计量、可存储、可复用的管理目标。数据的间接效用体现在以下三方面:一是通过参与市场竞争,提高服务水平和营销能力来增加收入;二是通过改进业务流程或提高分析效率来降低运营、人力等各项成本;三是以真实完整的信息助力企业管理者的科学管理与决策。有效的管理和使用数据可以减少或消除企业经济活动中的风险,为企业管理控制和科学决策提供合理依据,给企业带来相关的经济效益。

《大数据时代》的作者维克托·迈尔-舍恩伯格(Viktor Mayer-Schönberger)维克托·迈尔-舍恩伯格(Viktor Mayer-Schönberger),牛津大学教授、大数据权威专家,被誉为“大数据商业应用第一人”,其著作《大数据时代:生活、工作、思维的大变革》(Big Data: A Revolution That Will Transform How We Live, Work, and Think)是国外大数据研究的先河之作。指出:“在亚当·斯密论述18世纪劳动分工时所引用的著名的大头针制造案例中,监督员需要时刻看管所有工人,进行测量并用羽毛笔在厚纸上记下产出数据,而且测量时间在当时也较难把握,因为可靠的时钟尚未普及。技术环境的限制使古典经济学家在经济构成的认识上像是戴了一副墨镜,而他们却没有意识到这一点,就像鱼不知道自己是湿的一样。因此,当他们在考虑生产要素(土地、劳动力和资本)时,信息的作用严重地缺失了。”由此可知,当时数据获取、存储和应用的成本过高是信息资产被忽视的重要原因。但随着技术的不断发展,数据的存储密度大大提高,大量企业内部信息通过信息系统被便捷地记录和使用,管理者意识到数据所创造的价值已远远大于其成本。

在企业信息化水平不断提高、业务数字化程度日益加深的今天,几乎所有机构都卷入到数据及其处理(数据收集、存储、检索、传输、分析和表示)的浪潮中,数据已成为重要生产要素和无形资产。2012年年初的达沃斯世界经济论坛世界经济论坛(World Economic Forum, WEF)是一个非官方的国际组织,总部设在瑞士日内瓦。1987年,“欧洲管理论坛”更名为“世界经济论坛”。论坛因每年年会都在达沃斯召开,故也被称为“达沃斯论坛”。每年的世界经济论坛年会均有来自数十个国家的千余位政界、企业界和新闻机构的领袖人物参加。世界经济论坛已经成为世界政要、企业界人士以及民间和社会团体领导人研讨世界经济问题最重要的非官方聚会和进行私人会晤、商务谈判的场所之一。上,一份题为《大数据,大影响》(Big Data, Big Impact)的报告宣称,数据已经成为一种新的经济资产类别,就像货币或黄金一样。

数据资产作为信息资产的主要组成部分,具有以下基本特征。

• 共享性:一个个体对数据的使用不会影响另一个体对其使用,数据的传播并不是数据的转移,而是数据的复制,因此,数据资产具有共享性。但由于企业数据作为一种重要资产,其共享性只体现于企业内部部门、合作伙伴或员工之间。

• 增值性:众所周知,物理资产会在使用的过程中发生损耗,造成价值的降低,但是,随着时间的推移,数据量的积累反而会使得数据资产的价值增加,这就是数据资产的增值性。数据资产作为信息的载体,其传播和使用的过程也正是其扩张和创新的过程,结合先进的管理思想进行有效的组合、分析和挖掘,将产生更多有价值的信息。

• 时效性:数据资产的特征来源于数据和信息的属性。信息具有时效性,同样地,数据资产也具有时效性。对于一些流动性强的信息而言,如果不能及时开发利用,其价值就会大打折扣,例如市场类信息。

• 低安全性:一般而言,数据资产经常处于公共的介质或者处于流动状态,数据资产的复制成本较低,从而导致企业拥有和控制数据资产的安全性很差,这正是导致信息资产风险的一个重要因素。

数据资产的重要性体现在以下方面。

• 数据是一种参与企业生产经营活动的经济资源。有效地管理和使用数据可以减少或消除企业经济活动中的风险,为企业管理控制和科学决策提供合理依据,给企业带来相关的经济效益。

• 数据是支持企业发展战略的重要资源,是企业进行分析和决策的重要基础。有效地挖掘和利用海量数据已经成为企业高效发展的关键推动力,如何利用数据创造价值,实现决策分析,对提升企业业务效率、综合竞争实力以及加速企业发展具有重要的意义。

• 数据是现代企业最大的价值来源,数据资产具有较高附加值。有效应用数据资产往往能创造出巨大的潜在价值,其所带来的经济效益不可预估。利用规范的、真实的数据有助于企业进行业务创新、提供更优质的服务、提升客户忠诚度、减少决策分析和报表统计所需的工作,提升企业整体价值。

• 数据资产同时也是最大的风险来源。数据固然有技术的成分,但数据更是一个管理问题,而且是一个综合管理问题。数据管理不善,通常会导致业务决策的效果不佳,更可能面临违规和数据失窃。

• 数据资产是动态变化发展的,而不是像物理资产那样固定不变,一般来说,它的价值会随着数据生命周期的发展而增加。

1.2.2 数据资产的构成

1. 数据的层次模型

根据企业中数据的特征、作用以及管理需求的不同,可根据马尔科姆·奇泽姆(Malcolm Chisholm)马尔科姆·奇泽姆(Malcolm Chisholm),博士,咨询公司AskGet.com,从事企业信息管理工作超过25年,著有专著How to Build a Business Rules Engine, Managing Reference Data in Enterprise Databases和Definition in Information Management,曾荣获数据管理协会(the Data Management Association, DAMA)颁发的2011年度国际专业成就奖(DAMA International Professional Achievement Award)。本小节内容参考:http://www.b-eye-network.com/view/index.php? cid=6758。的分类方法,将企业数据分为6个层次,分别为元数据(Meta Data)、引用数据(Reference Data)、企业结构数据(Enterprise structure Data)、业务结构数据(Transaction structure Data)、业务活动数据(Transaction Activity Data)和业务审计数据(Transaction Audit Data),如图1-1所示。

图1-1 数据层次结构

1)元数据

元数据是系统中最基础的数据,是关于数据的数据,或者说是用于描述其他数据的结构数据。元数据描述数据定义、数据约束、数据关系等。在物理模型中,元数据定义了表和属性字段的性质。

由于元数据是其他数据依存的基础,元数据管理在企业数据管理中起关键性的作用。元数据描述了系统中的表和属性字段的性质,所以应该在数据库设计阶段进行准确的定义,并在数据库的整个运行过程中保持不变。元数据的改变将从底层改变其他数据的结构,对整个系统带来广泛的影响。例如,如果将系统中客户信息的姓氏字段从20字节增长为40字节,则系统中对客户信息以及与客户信息相关的业务信息、财务信息的查询、显示以及报表等诸多功能都将随之发生变化。

2)引用数据

引用数据定义了元数据的可能取值范围,也被称为属性值域。例如,月份的引用数据为(1—12月)十二个属性值,国家的引用数据为世界上现有的200多个国家和地区。引用数据的正确、完备和统一是其他数据质量的保证,可大大提升业务流程和数据分析的准确性和效率。引用数据的使用贯穿于企业的各类IT应用,是提供集成、共享、全面和准确的信息服务的重要支持。除此之外,引用数据是对数据分类的主要标准。例如,电子商务平台的订单状态可以分为待付款、待发货、待收货、已收货和已撤销等,不同状态的订单将进入相应的业务流程。

在企业的长期运营中,时常会面临引用数据的变化。例如,公司合并会使相关的股票代码发生变化,如果没有对股票代码的引用数据进行及时修改,可能造成相应的业务信息发生错误,甚至为企业带来直接的经济损失。

引用数据的使用能够满足各类系统应用对相同信息的不同粒度或不同形式的应用需求。将国内客户按照收货地址的省份进行分类,而省份属性的引用数据即为我国34个省级行政区域。但实际应用会根据输出格式的要求显示省份的全称或简称,或者按照数据分析的需求,将省份进一步按照华东、华北、华南、华中等大区进行划分。分散的企业IT应用很难实现引用数据的统一,冗余和冲突的引用数据阻碍了信息的共享,使得管理者无法看到企业数据的全貌,因此,引用数据的管理是主数据管理中的重要环节,需要予以充分的重视。

3)企业结构数据

企业结构数据描述了企业数据之间的关系,反映了现实世界中的实体间的关系或流程,如会计科目、组织架构和产品线等。这些数据是多条主数据的集合,共同描述了企业中的层次结构关系,是企业开展业务和进行管理的依据。例如,企业组织结构由组织机构、人员、岗位等主数据组成,但在不同行业之间,企业结构化数据的结构和内容都有很大差异。

4)业务结构数据

业务结构数据描述了业务的直接参与者,产品数据和客户数据都是典型的业务结构化数据。掌握业务结构化数据是业务发生的必要条件。显然,当向客户出售产品时,需要提前了解产品和客户;在系统中录入产品销售记录时,系统中也必须存在对应的产品和客户数据。

业务结构数据描述的数据实体通常由一个唯一的数据编码以及大量的属性信息构成,因此,数据编码的生成规则成为此类数据管理的关键。客户的姓名可能会改变,产品名称在其生产流程中也在不断变化,这都为数据编码工作带来了挑战。业务结构化数据应用于系统的一系列业务流程,不同的业务部门所使用的数据属性也不尽相同,因此,针对业务内容产生不同的数据视图(图1-2)是业务结构化数据管理的另一个重点。

图1-2 不同业务的数据视图

5)业务活动数据

业务活动数据记录了企业运营过程中产生的业务数据,其实质是主数据之间活动产生的数据,如客户购买产品的业务记录、工厂生产产品的生产记录。业务活动数据是企业日常经营活动的直接体现,也是早期企业自动化的关注重点。正如前文所述,业务活动数据大大依赖前几层数据的质量。如果企业只关注于记录业务,而忽略了基础数据的维护,将造成系统内数据的混乱,从而影响整个企业的生产运营。业务活动数据存储于企业的联机事务处理系统(On-Line Transaction Processing, OLTP),这些系统应用提供了业务活动数据高容量、低延迟的访问和维护服务。

6)业务审计数据

业务审计数据记录了数据的活动。例如,对客户信息进行修改、对业务进行删除,这些变化都将被记录在系统中,以便日后追溯。利用业务审计数据可以对数据按照时间维度进行分析,把握企业运营的趋势。同时,一些法律法规也对业务审计数据做出了要求,特别是对银行等关键行业。

2. 数据的域模型

数据层层次模型抓住了不同层次数据量、变化频度和生命周期的差异,对数据管理有一定的指导意义。但该模型提出较早,面对当前企业数据管理的具体要求,存在以下不足。

• 随着大数据和商务智能(Business Intelligence, BI)的发展,由基础的业务数据衍生出大量的分析数据,该数据层级未能在原始的数据层次模型中有效表达。

• 在实际的数据管理系统中,相对慢变的元数据、引用数据、企业结构数据、业务结构数据通常作为主数据来管理;业务活动数据和业务审计数据通常属于在线事务处理(Online Transaction Processing, OLTP)的范畴;分析数据则和在线分析处理(Online Analytical Processing, OLAP)关系紧密。数据的层次模型未能对上述数据与信息系统之间的对应关系进行表达。

因此,在数据层次模型的基础上,提出数据的域模型,根据企业中数据的特征、作用以及隶属关系的不同,将数据资产划分成主数据、业务数据、分析数据三个主要的数据域,如图1-3所示。

图1-3 数据域结构

• 主数据域:主数据是指具有高业务价值的、可以在企业内跨越各个业务部门被重复使用的数据,是单一、准确、权威的数据来源。主数据域包含元数据、引用数据、企业结构数据、业务结构数据等内容。主数据依赖于静态的关键基础数据,关键基础数据往往是标准的、公开的,如国家、地区、货币等。这些数据相对慢变,但对企业具有全局的重要作用。

• 业务数据域:业务数据包含业务活动数据和业务审计数据,业务数据是在交易和企业活动过程中动态产生的,通常具有实时性的要求。

• 分析数据域:分析数据是对业务数据梳理和加工的产物,相对业务数据而言,实时性的要求较低,通常按照分析的主题进行组织和管理。同时随着大数据技术的发展,在分析数据域中除了传统的结构化数据之外,有大量半结构和非结构化数据引入。

在上述数据资产之中,主数据是上层业务数据、分析数据组织和管理的基础,相对于上层数据具有稳定、数量少的特点,但这些关键数据的影响范围广泛。业务数据和分析数据与企业的运营决策直接相关,其数据质量严重依赖底层主数据的质量。因此,主数据是企业数据资产的根基,只有健康的树根才能支撑得起大树的繁枝茂叶、累累硕果。

1.2.3 数据管理的内容、现状和问题

1. 数据管理的内容

按照国际数据管理协会(DAMA)的定义,数据管理(DM)是规划、控制和提供数据及信息资产的一组业务职能,包括开发、执行和监督有关数据的计划、政策、方案、项目、流程、方法和程序,从而控制、保护、交付和提高数据和信息资产的价值。

如同其他资产一样,数据资产也具有生命周期,企业管理数据资产,就是管理数据的生命周期。有效的数据管理开始于数据的获取之前,企业先期制定数据规划、定义数据规范,以期获得实现数据采集、交付、存储和控制所需的技术能力。

数据管理的目标是“控制、保护、交付和提高数据和信息资产的价值”,因此,数据质量和数据安全是贯穿数据生命周期的管理重点。数据质量决定了数据满足数据消费者期望的程度,直接影响着数据资产的价值;而隐私和安全则是合法使用数据的前提,与数据的产生、获取、更新和删除的全过程密切相关。

按照图1-3所示的数据资产的分类方法,数据管理也可按照所针对的数据域划分为主数据管理、业务数据管理、分析数据管理。因为三种数据资产的特征不同、用途不同,管理的目标和方法也存在一定的差异。

• 主数据管理:创建和维护企业中具有高业务价值、可在各个业务部门和职能领域之间被重复使用的数据,为业务开展和数据分析提供基础。重点关注数据的一致性、完整性、相关性和精确性。

• 业务数据管理:管理企业业务活动中数据的产生和维护过程,为跨系统的业务流转和协同提供基础。重点关注多个业务系统之间的数据整合、清洗、标准化,以及数据的有效分发和同步。

• 分析数据管理:组织和管理数据,为企业运营的分析和决策提供支持。将不同来源、不同形态的数据资源,转换成为一组不同结构的专题数据,以便汇总、描述、预测和分析。在这里,相同的信息可能会以多种不同的数据形态存储和呈现,重点关注数据的一致性、完整性、可用性。

上述三种数据管理都涉及对数据生命周期的过程管理,都涉及数据质量、数据安全和隐私。其中,主数据管理是数据资产管理的基础,业务数据管理更强调数据的流通价值,分析数据管理更关注数据提供的洞察能力。

2. 数据管理的现状和问题

过去的10年间,国内大部分领先企业都陆续建设了ERP系统、资产管理系统、人力资源系统、供应链管理系统、物流系统、电子商务系统、集成门户、协同办公、决策支持系统等各类信息化系统。这些系统通常独立建设,独立运行,分别服务于企业内不同的职能部门。由于业务和IT技术发展的渐进性,企业的各个业务系统都经历了从无到有,不断扩展和升级的过程,从而形成了一个又一个的业务竖井。业务系统的构建更多是以项目为中心,从下而上地构建,往往缺乏整个企业范围内的统一规划,从而使得一些需要在各个业务中共享的核心数据被分散到了各个业务系统进行分别管理。

在这个以应用为中心的信息化进程中,由于企业各部门在开发或引进各种应用系统时都是单一地追求各自的功能实现,没有从全局视角进行业务数据流分析和相互协调,没有遵循统一的数据标准和规范,各个部门都按“自产自用”的模式管理数据资源,导致数据不一致和数据冗余问题与日俱增。

例如,在某个系统的供应商目录中,一个供应商可能称为“XX(中国)有限公司”,而另一个系统的客户目录中可能称其为“XX公司”,而这样的错误往往来源于负责此公司的销售和采购业务人员录入习惯的不同;不同的开发人员,甚至同一位开发人员在不同的任务中,对同一个数据对象的命名也可能发生不一致,如“供应商代码”“供应商号”“供应商编号”等。同时,企业内部的业务区隔或行政分化也在不断地制造着企业数据交互的断层。图1-4展示了某公司内信息系统中客户数据的常见问题,包括编码不一致、元数据不一致、数据不一致和数据缺失等。

图1-4 常见数据问题

由此可见,现阶段以职能和应用为中心的企业信息化建设在带来数据高速增长的同时,引发诸多数据管理的问题。这些海量的、分散在不同系统中的数据资产呈现出数据量大、涉及领域广、结构复杂的特点,导致了数据资源利用的复杂性和管理的高难度。具体而言,大型企业在数据管理方面通常存在如下问题。

1)缺乏数据管理的体系规划

企业缺乏全面的、涵盖所有应用系统的数据管理体系规划,对数据管理策略、组织模型和流程模型没有清晰的目标和定义,没有可执行的数据治理实施阶段和步骤,同时也缺乏对整个数据生命周期中数据的处理、校验、生效、变更、分布,以及相关的策略、模型、流程和方案。

2)缺乏有效的数据管理组织

企业缺乏高层认可的数据管理组织,无法统一建立基础数据管理标准,相应的数据监督管理措施无法得到落实,也没有建立数据管理及使用考核体制,无法保障已经建成的数据管理标准和内控体系有效地执行。

各信息系统的建设和管理职能分散到各职能部门或各单位,数据业务质量审核主要由各业务职能部门分头负责,缺乏完善的基础数据质量管控流程和管理规范,缺乏数据管理组织和岗位职责的界定体系,各职能部门或各单位中的数据管理的职责分散,权责不明确。同时,跨业务部门的基础数据质量沟通机制不够完善,缺乏清晰的跨业务的基础数据管控规范及标准,影响基础数据质量,统计分析口径不统一,导致数据管理的相关标准、规范无法有效地执行和落实。

3)缺乏IT工具的支持

企业数据管理的业务开展缺乏IT系统的支持,手工处理占主要部分,基础数据完全采用人工方式收集、整理,存在工作效率低下、错误率高等问题。数据标准的执行主要靠人为因素,无法实现全面、严格的数据质量控制和审计。同样的工作要在不同的系统中重复操作,数据管理的工作烦琐,效率低下。

4)缺乏对数据管理的正确认识

现阶段,多数企业错误地认为数据管理是单纯的技术工作,应由信息系统的开发人员完成,基本不需要业务人员。实际上,信息化进程中的数据管理工作是在两类人员的密切合作下推进的。缺少业务人员的参与,或业务人员与开发人员沟通不畅、矛盾分歧都会造成信息系统开发效率低、质量差等问题,最终影响数据资产质量。

由于在数据管理上存在上述认识、规划、组织和管理工具上的缺陷,导致各类业务系统往往各自为政,难以互联互通,数据不一致和数据冗余问题与日俱增。海量的数据资产往往无法得到更高层次的利用,不能及时发现潜在的问题。最终,企业缺乏完善、统一的基础数据来源和技术标准,缺乏统一、可信的基础数据源,给企业的发展带来了极大的障碍。企业在信息化的进程中,正在面临“数据资产管理危机”。具体表现如下。

• 信息孤岛:企业中绝大部分系统处于分散、独立的状态,各系统独立运行,系统中的数据标准自成体系,系统与系统之间无法进行业务交互和数据交换,导致数据只在系统内部有效,不能与其他系统的相关数据进行关联分析。

• 数据标准不统一:数据的标准包括了企业核心业务定义、数据模型、数据属性、参考数据、指标等,也包括了行业内部的数据标准。企业在各业务系统建设时如果缺少统一的数据标准,会导致开发和运维人员难以正确理解数据模型相关含义,致使企业不同业务系统集成和数据共享困难。

• 数据质量差:在业务系统运行过程中,由于各类原因,会导致数据冗余、数据不一致、数据缺失等问题,例如计量单位不一致、编码不一致、同一实体多条记录等数据质量问题。这些问题数据如果不及时发现并处理,就会影响企业的运营,阻碍业务发展,甚至造成严重的后果。对于后续的数据分析,也会因为这些问题数据的存在而被干扰,分析结果将受其影响,误导管理层决策。

当前,企业信息化建设正处于从应用为中心向数据为中心转化的关键时期,企业面临数据整合的挑战不断增长且日益严峻,低质量的数据资产已经成为在信息化与业务深度融合过程中的关键制约因素。数据资产一旦处于混乱无序状况,其重要性就会降低,价值会大打折扣,甚至会影响企业的利益和决策。

Experian发布的“2018年全球数据管理研究”指出,仅有24%的企业使用专门的平台来进行企业级的数据质量管理;29%的企业存在数据质量管理,但是仅限于部门级别;23%的企业有计划在未来开展数据质量管理;但依然有24%的企业没有任何的数据质量或者数据治理计划。企业普遍认为当前数据中有三分之一是不准确的,其中有69%的企业认为不准确的数据将会影响他们给用户提供的服务。在已经部署数据质量管理项目的企业中,有42.2%的企业使用手动编码的方式进行数据质量管理,只有28.7%的企业使用了厂商提供的专业数据质量工具进行管理。

总体来说,国内企业目前数据管理都处于初级阶段,很多企业的数据资产都或多或少地面临着如下问题。

• 数据不完整:缺少关键基础数据,部分辅助数据缺失或不全面,历史数据丢失严重。

• 数据分散、不一致:企业内的数据入口众多,同一类数据采用的标准、规则不一致。

• 数据质量低:大量数据基本上“堆积”在一起,缺少必要的数据管理,集成数据的可用性差,质量比较低。

• 数据共享集成成本高:数据标准不统一、分散、可用质量差,数据核对、清理、映射的工作量巨大,导致共享集成和数据分析的成本非常高。

• 数据经济效益不显著:数据决策分析的结果可靠性差,投入与产出不匹配。

因此,数据资产的质量已经提升到企业的核心战略层面,成为一项复杂而艰巨的系统工程。数据的应用与数据质量是相辅相成、相互推动的关系,对数据资产进行治理,是提升企业数据管理与应用水平的关键举措。企业应该着眼于长期、持续有效的数据治理,建立行之有效的数据治理体系,挖掘数据的潜力,从而发挥数据资产在企业中的核心价值。