主数据驱动的数据治理:原理、技术与实践
上QQ阅读APP看书,第一时间看更新

让我们从一个简单的问题开始:IBM有多少雇员?

这个问题看上去非常简单直接,对吗?但是请注意下面这个清单:

这个长长的清单中的每一项都与IBM有关系,有全称、缩写、别名、分支机构、全资子公司等,有的公司名称中完全没有IBM的字样,但它归属于IBM,有的公司曾经归属于IBM,后来又被卖掉了,还有的公司现在已经完全不存在了。

现在我们再来看刚才那个问题——IBM有多少雇员?还会觉得这个问题简单吗?

事实上,我遇到过一所知名大学信息管理部门的负责人,问他这个关于雇员的问题。他告诉我,这正是让他们头疼的问题。太多不同时期建设的信息系统、不同的编号、不同的命名体系、不同的管理方式,所有信息汇总到一起之后,不知道哪些是重复的,哪些是陈旧的。用不同的方式统计,结果都不相同。

对于拥有众多部门和分支机构的大型企业,这样一种数据管理的困境随处可见。因此,不仅对于人员、物料、市场,而且对于那些与企业运营密切相关的重要信息都存在着管理的挑战。所以,我们需要数据治理,尤其是对企业中最关键的数据资产——主数据进行治理,进而提升数据质量,使数据真正成为管理和决策的可靠依据。

我们正处在历史的转折点上,数据技术在快速变革,大数据成为人们竞相议论的热点。无疑,未来的竞争就是数据的竞争。但是,在这个变革的关键时点上,更多的人将注意力的焦点放在了数据的“量”上,很少有人提及和关注数据的“质”,仿佛只要有了足够大量的数据,一切问题都可以解决。很可惜,真实情况是,海量数据如果未能经过合理的加工和组织,并确保一定的数据质量,它不仅不能解决问题,反而可能制造出更多的麻烦。也许,我们应该尽早从华而不实的喧嚣中抽身出来,通过具体而细致的数据治理工作,切实改善企业的数据环境,让大数据真正从“看”到“用”,真正活跃起来。

本书凝聚了编著者在数据治理和主数据管理领域多年的从业经验,涵盖数据治理和主数据管理的基本概念、实施过程、关键技术等重要内容,并结合大量实际积累的案例和技术方案,系统地介绍了数据治理这一新兴领域及其应用情况,可作为工作指南为正在或准备开展数据治理工作的IT人员提供参考,更能为数据时代的企业管理者提供新的思路、新的方向。

张林 清华大学教授,清华-伯克利深圳学院院长

清华大学物联网与社会物理信息系统实验室主任

2019年1月于北京