跨领域信息交换方法与技术(第二版)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.2 跨领域信息交换面临的问题及解决方法

1.2.1 跨领域信息交换面临的问题

跨领域信息交换的实现并不是简单地将信息从甲传到乙,还会涉及平台异构、分布性、自治性、安全性等很多方面的问题,具体如下。①平台异构问题。平台异构表现为各业务信息系统所采用的数据库管理系统、操作系统、网络环境等不同,因此要求信息交换格式、交换协议具有跨平台性。②分布性问题。业务领域信息系统往往分散地存在于不同的地理位置,需要利用网络环境来传输数据,因此跨领域信息交换的性能易受到网络的传输机制、性能、网络安全等因素的影响。③自治性问题。跨领域信息交换不能妨碍原来各业务领域信息系统的运行,需要保持原信息系统的自治性,信息交换要能适应原信息系统的变化,这对信息交换的鲁棒性提出了挑战。④安全问题。由于信息系统可能归属于不同的组织机构,每个信息系统都具有不同的安全保障手段,在跨领域信息交换时要保证不破坏原信息系统的安全机制,实现对数据源访问权限的隔离和控制。另外,各个业务领域数据的安全等级可能不同,数据访问控制的粒度也不一致,各个系统用户的权限也不同,因此需要采用灵活的安全访问控制策略。

除上述问题以外,不同的信息系统和不同的实现人员对客观对象的认识差异和应用需求差异,导致信息系统对处理对象的理解、描述、记录、运用等方面的差异,不可避免地造成数据异构,主要表现为数据的语义不统一、格式不一致、编码方式不同、数据模式也不同。

1.模式异构

模式异构主要是由于业务信息系统数据库逻辑结构不同或者数据元的不一致造成的。①名称异构。不同的概念采用同样的名称,同样的概念采用不同的名称,即同名异义、同义异名。例如,电子邮箱地址,可能用“E-mail”,也可能用“邮箱地址”为名称。②实体标识异构。同样的对象不同的标识。例如,同一个人在不同的系统中采用不同的方式标识,一个系统用“身份证号码”标识,另一个系统用“工作证号”标识。③概念描述结构异构。同样的概念采用不同数量的属性来描述。例如,“人员”在不同的系统采用不同数量的属性描述。④概念范围异构。同样的概念具有不同的外延范围。例如,一个法律机构在一个数据模型中可以描述为一般的“组织机构”,而在另一个数据模型中描述为“注册的组织机构”。⑤聚合程度异构。一个系统的数据模型采用多个属性描述,另一个系统的数据模型聚合为一个属性描述。例如,“单位地址”在一个数据模型中用“省份”“城市”“区”“街道”等多个属性共同描述,而在另一个数据模型中将这几个属性组合为一个词汇“详细地址”。⑥结构异构。一个数据模型中某个实体的一系列属性在另一个数据模型中用不同的结构组织。

2.数据表示异构

数据表示异构是指对同样语义的数据采用多种不同的表示和描述方法。①数据值异构。同样的值表示不同的含义,或者同样的含义用不同的值表示。比如,“性别”可能有不同的代码列表。②数据格式异构。同样的数据采用不同的格式表示。比如,时间可能用“DMY”“MDY”“YMD”等不同方式,日期中的符号可能用空格、逗号、句点、撇号表示。③数据度量单位异构。数据用不同的度量单位表示。数据可能用米制计量单位度量,也可能用英制或其他计量单位度量。④数据精度异构。数据使用不同的精度表示。比如,成绩等级可能用“A”“B”“C”3个等级表示,也可能用“很好”“好”“中等”“差”“很差”5个等级表示。

1.2.2 跨领域信息交换实现的基本思路

根据跨领域信息交换面临的问题分析可知,针对跨领域信息交换中的平台异构、分布性、自治性和安全等问题,可以采用面向服务的软件架构、XML和安全技术解决,但是数据异构性一直是困扰人们解决信息共享的难题。

针对数据异构性问题,实现信息交换的基本方法是采用协议转换,即将数据源协议数据包转换为目标协议数据包。由于信息系统的业务复杂性和业务需求发展变化等因素,我们难以完全统一定义每个业务系统的信息语义,难以用固定的映射模式来完成数据的转换。为了解决跨领域信息交换中数据异构性问题,人们提出了语义互操作方法。

语义互操作是在统一的语义环境下,利用语义技术建立不同信息系统间对数据的一致语义理解,实现自治和异构系统的互操作。语义互操作就是要解决信息系统交互过程中语义异构性的问题,也就是解决信息共享时信息的语义冲突问题,保证信息系统交互过程中信息的准确性、语义的完整性。通用的语义异构性消除策略是,建立公共的数据参考模型作为异构信息源的语义形式化模型的中间模型,完成异构信息源语义形式化模型的转换,从而避免异构信息源点对点信息交换模式的冗余转换,将语义异构性消除问题的解决方案复杂度从N2级转到N级[5],如图1-2所示。

img

图1-2 基于语义互操作的跨领域信息交换和传统的点对点信息交换模式对比

1.2.3 跨领域信息交换实现方法

跨领域信息交换是信息化时代各个国家和地区面临的普遍问题。为了实现跨领域信息交换与共享,美国、欧盟、北约、日本、中国等国家和组织都提出并实施了基于语义互操作的跨领域信息交换与共享解决方案。

1.美国国家信息交换模型

美国国土安全部和司法部共同实施的国家信息交换模型(National Information Exchange Model,NIEM)[1]是实现跨领域信息交换语义互操作的典型方法。基于NIEM实现跨领域信息交换的基本思路如图1-3所示[6],包括以下几个主要环节。

img

图1-3 基于NIEM实现跨领域信息交换的基本思路

(1)建立NIEM数据模型标准。

首先,对各个业务领域和部门的信息交换与共享需求进行分析,提炼出通用的数据类型[如时间(When)、地点(Where)、人物(Who)、事件(What)],形成核心数据模型;然后,各个业务领域对核心数据模型进行引用、裁剪、扩充,形成反映自身业务特点和业务领域信息共享需求的业务领域数据模型;最后,将核心数据模型、业务领域数据模型、各领域的数据编码标准,采用开放、可扩展的XML Schema或JSON进行结构化表示,建立NIEM数据模型标准,形成信息系统相互理解和认识的“五线谱”。目前,NIEM 5.0[2]定义了3979个数据类型、12182个数据元素和90297个代码值。

(2)建立面向应用的信息交换模型。

信息交换双方的开发人员和终端用户对信息交换需求进行分析,通过引用、映射NIEM数据模型,建立满足应用需求的、交换双方一致认可的、面向应用的信息交换模型。

(3)生成信息交换包(IEP)。

信息交换包是信息交换双方交换的实际消息,携带交换的数据。信息提供者将待交换的数据根据信息交换模型生成信息交换包(Information Exchange Package,IEP),并封装为消息,传递给信息接收方(信息使用者);信息接收方在接收到信息交换包后,根据信息交换规范对信息交换包中的数据进行解析,实现对数据的理解,达到信息交换的目的。

综上所述,运用NIEM实施信息交换,每个参与系统只需要将自己的数据遵循NIEM数据模型和信息交换规范发布出来即可,这样每个参与系统仅需要与信息交换平台建立一个连接点,当新的参与者加入信息交换平台时,也不需要对已有系统进行修改。另外,数据转换接口不会像传统的点对点信息交换模式随着系统数量的增加而显著增加,不需要整合各组织机构的数据库,也不需要重构或修改已有的信息系统。

2.欧盟电子政务核心词汇表

根据《欧盟共同条约》规定,欧盟的内部市场要保证28个成员国之间的4项自由,即商品、资本、服务和人员的自由流动。例如,各国分支机构的注册、在另一个国家申请业务许可、得到出生证明等。随着现代科学技术的不断进步和世界经济全球化的发展,在欧盟,公民、企业、政府机构跨国界的生活、工作和业务往来日益增多,各成员国之间的信息交互与联系更加密切,欧盟4项自由的实现更加依赖于能相互自由连接、互操作的网络技术。

日益增多的跨国界的业务活动需要跨国界的公共服务支持,要求欧盟行政机构、商业企业、公民(Administrations, Business and Citizens)之间具有高效的互交互能力,即欧盟行政机构与成员国政府行政机构之间(A2A)、各成员国政府行政机构之间(A2A),以及政府行政机构与商业企业之间(A2B)、政府行政机构与公民之间(A2C)具有高效、可靠的互操作能力,以实现高效的跨边界无缝数据交换与共享,从而节省公共服务时间、降低公共服务成本,提高公共服务透明度和服务质量,如图1-4所示。

img

图1-4 欧盟互操作的类型

但是,由于各成员国行政管理过程和法律方面的不一致,以及缺乏统一的数据模型和通用参考数据等,欧盟在执行公共服务时会产生许多语义互操作冲突问题。为了解决这些冲突问题,确保欧盟行政机构、商业企业和公民之间的互操作性,欧盟委员会于2010年1月至2015年12月实施了《欧洲公共管理、企业和公民互操作方案》(Interoperability Solutions for European Public Administrations, Businesses and Citizens,ISA),于2016年1月至2020年12月实施ISA2计划,投入1.31亿欧元推进欧洲电子政务发展,重点支持电子政务领域的通用工具、通用服务和通用框架的开发,电子政务核心词汇表是ISA和ISA2计划的重要内容之一。

ISA2数据模型包括3个层次:核心数据模型、业务领域数据模型和信息交换模型。核心数据模型和业务领域数据模型与NIEM核心域和业务域相对应,信息交换模型类似于NIEM中的信息交换包文档IEPD,如图1-5所示。其中,核心数据模型即电子政务核心词汇表(e-Government Core Vocabularies),由6类通用的、可重复和扩展的、独立于具体业务领域的数据模型标准组成,如表1-1所示,目前2.0.1版定义了219个词汇和18个数据类型。核心词汇表采用基于UML的概念模型、RDFS等方法进行描述。

核心词汇表的主要应用包括信息交换、数据交换、开放数据发布和新系统开发,其组成及应用详见本书第9章。

img

图1-5 核心数据模型、业务领域数据模型和信息交换模型的关系

表1-1 欧盟电子政务核心词汇表

img

(续表)

img

3.北约联合作战信息交换模型

北约(NATO)多边协作项目组(Multilateral Interoperability Program,MIP)是由24个成员国自发组织的军事标准化机构。MIP所开发的信息模型(MIP Information Model,MIM)是指挥控制领域的一个通用的语义模型,是指挥控制领域信息交换建模的语义基础,目标是提高北约指挥和控制信息系统(Command and Control Information Systems,C2IS)的国际互操作性。

MIM是在联合指挥控制信息交换数据模型JC3IEDM 3.1(Joint C3 Information Exchange Data Model,JC3IEDM)基础上发展而来的。MIM对“Object”“Action”“Metadata”等基本概念,提供了丰富的军事语义定义和分类,包括310个业务规则、326个实体(类)、873个属性、394个关联关系和400个数据编码,具有可读性、模块化、可扩展性、语义严格性和模型一致性等特点,主要实体之间的关系如图1-6所示。

img

图1-6 MIM主要实体之间的关系

MIM描述的内容包括战场空间所存在的物体,包括物体的特征、状态、位置,它们之间的相互关系、地址及其他特征,以及这些物体在战场上的活动。经过不断发展完善,MIM已应用于北约成员国指挥控制领域的信息交换共享中。基于MIM的信息交换原理如图1-7所示,北约成员国指挥控制信息系统依据MIM数据模型标准将对外交换的数据映射为统一规范语义的交换数据,形成统一理解的通用作战态势图,从而实现不同成员国指挥控制信息系统之间的数据交换与共享。

img

图1-7 基于MIM的指挥控制信息系统之间的信息交换示意

4.日本多层互操作通用词汇表

2017年5月,日本政府发布了“推动公共和私营部门数据利用的先进信息技术国家基本计划”——日本新IT战略。这个计划的目的是促进数据在数据所有者之外无缝流动,以推动基于数据的新服务、创新和改革。在此之前,日本地方政府机构发布数据是任意的,按照日本新IT战略要求,日本政府机构和地方政府必须公开发布数据以便充分利用。

多层互操作框架(Infrastructure for Multilayer Interoperability,IMI)是日本新IT战略的一部分,作为一个面向数字政府和政府数据开放的互操作框架,为数字政府实现基于标准的术语词汇表的信息共享和利用提供支撑环境。IMI通用词汇表是IMI的一部分,旨在提供一种统一共享术语含义和术语之间关系的机制,提高开放数据、电子政务数据及私有数据的互操作性。IMI通用词汇框架以美国NIEM为参考模型开发,包括核心词汇表、领域词汇表和应用词汇表,如图1-8所示。核心词汇表主要描述基本的概念。目前,在IMI通用词汇框架2.4.2版本中,还没有构建领域词汇表,主要是因为在政府内部建立一个标准化流程构建业务领域词汇表有一定难度,将来可以在同一个业务中应用词汇形成业务领域词汇表。应用词汇表是核心词汇表和业务领域词汇表不能涵盖的词汇集合。IMI通用词汇框架(2.4.2版本)包括大约60个类词汇、250个属性词汇,采用RDF、XML Schema、JSON描述语言表示。IMI通用词汇框架的主要词汇如表1-2所示,IMI通用词汇组成及应用详见本书第8章。

img

图1-8 IMI通用词汇框架

表1-2 IMI通用词汇框架的主要词汇[3]

img

5.中国国家信息交换模型

中国电子科技集团有限公司(简称中国电科)承担了大量国家电子政务、智慧城市和新型基础设施建设任务,深刻认识到跨领域信息交换是国家信息化工程的普遍需求和核心内容。为提高各领域信息系统之间的互操作能力,推动相关国家标准研究和制定,助力国家信息化建设,2019年1月中国电科启动了中国国家信息交换模型(China Information Exchange Model,CIEM)项目[4],致力于研制符合中国国情的信息交换模型。

CIEM采用XML Schema表示,模型架构包括逻辑模型层和概念模型层,如图1-9所示。逻辑模型层提供客观世界的事物及概念数据化表示的规范方式;概念模型层提供数据语义的统一定义。CIEM的分层架构有利于建模任务的解耦,基于客观的科学原理构建稳健的逻辑模型,基于演进的业务认知构建动态的逻辑模型,确保模型对业务发展的适应性。

img

图1-9 CIEM架构

逻辑模型层由参考系、坐标系、值类型和度量单位构成。参考系是对客观世界事物及概念数据化(测量或者记录)时所需的参照物,如测量时间概念的协调世界时、测量位置概念的大地测量参考系等。坐标系是对客观世界事物及概念数据化时所需的坐标系统,如笛卡儿二维坐标系、球坐标系等。值类型是表示客观世界事物及概念数据化结果的数值类型,如整数、实数、文本等。度量单位是表示客观世界事物及概念数据化结果的计量单位,如表示时间的秒、表示距离的米等。通过它们的标准化,CIEM概念的数据化结果的含义及表示方法被精准确定,便于信息系统对客观世界事物的一致性理解。

概念模型层由基本元素和复合元素构成。基本元素包括可观测量和信息元素,并通过逻辑模型层实现对客观世界事物及概念的一致表示和描述。可观测量是通过物理、化学或数学等方法测量后实现数据化的概念,如质量、温度等。基本元素是通过文字记录实现数据化的概念,如姓名、编号等。复合元素以对象(Object)和关联关系(Association)为基本类型,采用组合、继承、扩展等数据类型派生技术,构成了核心域数据模型和业务领域数据模型。CIEM的对象(Object)类型包括人、地、物、组织机构和文档五大类,关联关系(Association)类型涵盖这五大类之间所有的两两关联关系。