1.1.2 数据的分类
数据的分类是指根据数据的属性或特征,将其按照一定的原则和方法进行区分和归类,并建立起一定的分类体系和排列顺序,以便更好地管理使用数据的过程。
数据分类可以使组织针对不同类型的数据,有针对性地开展管理活动。例如,从安全角度,安全系统如加密、数据丢失预防、文件管理、案例信息和事件管理、邮件防御系统等,只有对数据进行有效分类,才可以识别知识产权等相关风险,如数据正在向外输送、发往未经授权的接收人或存在异常活动。数据分类后,便可以对数据进行标签化管理,使许多管理活动可以实现自动化,如加密、访问控制和识别异常行为等。再如,从标准角度,每类数据所关注的属性不同,在分类后可针对不同类型的数据设置不同的属性。在标准制定过程中,可制定不同的模板,便于信息收集和属性定义;在标准落地过程中,依据数据类型采取不同的实施策略。数据分类的目的在于建立一个企业级的数据管理制度和框架,数据分类决定数据保护的安全控制水平和数据管理水平。
1.1.2.1 数据分类原则
参考《信息安全技术 大数据安全管理指南》(GB/T 37973—2019),数据分类应满足以下原则。
(1)科学性。按照数据的多维特征及其相互间逻辑关联进行科学和系统的分类。
(2)稳定性。应以数据最稳定的特征和属性为依据制定分类和分级方案。
(3)实用性。数据分类要确保每个类下有数据,不设没有意义的类目,数据类目划分要符合对数据分类的普遍认识。
(4)扩展性。数据分类方案在总体上应具有概括性和包容性,能够针对组织的各种类型数据开展分类,并满足将来可能出现的数据分类要求。
1.1.2.2 数据分类方法
在国标《信息分类和编码的基本原则与方法》(GB/T 7027—2002)中详细描述了数据分类的方法,可按数据主体、主题、业务等不同的属性进行分类。
数据分类的基本方法有三种:线分类法、面分类法、混合分类法。其中,线分类法又称为层级分类法、体系分类法;面分类法又称为组配分类法。
线分类法是将分类对象(被划分的事物或概念)按所选定的若干个属性或特征逐次地分成相应的若干个层级的类目,并排成一个有层次的、逐渐展开的分类体系。在这个分类体系中,被划分的类目称为上位类,划分出的类目称为下位类,由一个类目直接划分出来的下一级各类目,彼此称为同位类。同位类类目之间存在并列关系,下位类与上位类类目之间存在隶属关系。
面分类法是将所选定的分类对象的若干属性或特征视为若干个“面”,每个“面”又可分成彼此独立的若干个类目。使用时,可根据需要将这些“面”中的类目组合在一起,形成一个复合类目。
混合分类法是将线分类法和面分类法组合使用,以其中一种分类法为主,另一种作为补充的数据分类方法。
1.1.2.3 常见的数据分类
1.按照数据应用所属的产业进行分类
根据最新修订的行业分类标准《国民经济行业分类》(GB/T 4754—2017),国民经济行业分为四级,包括20个门类、97个大类、473个中类、1380个小类。按照数据应用所属的产业不同分为金融业数据,制造业数据,批发和零售业数据,农、林、牧、渔业数据,卫生和社会工作数据,公共管理数据,社会保障和社会组织数据等20个门类。
2.按照数据主题进行分类
根据不同的行业,可以以行业数据和业务特征进行数据主题分类。举例如下。
金融行业包括当事人、银行、市场营销、财务与风险、协议、产品与服务、事件、渠道、资产、地理区域等。
电信行业包括市场/销售、产品、客户、服务、资源、供应商/合作伙伴、公共业务等。
电力行业包括战略、项目、设备与案例、电网、市场、人员与组织、财务、物资、信息、综合等。
健康医疗包括大量基因组学数据(蛋白质组学和代谢组学)、检验数据、检测数据、影像数据、临床数据、药物数据、医疗费用数据和智能可穿戴设备产生的数据。
餐饮物流行业包括客户资料、港口地点、资金财务、订单、状态、轨迹、资源等。
教育行业包括教职工、学生、教学、教务、科研、资产财务、管理、就业、招生等。
烟草行业包括烟叶、物资、烟机零配件、成品、客户、订单、项目等。
3.按数据产生主体进行分类
个人数据包括个人独有的特征数据和参与经济活动、社会活动的行为数据。例如,个人的姓名、电话、住址、职业、学历、偏好、习惯、旅游去过的城市、购物的交易记录、上网浏览的页面等数据。
企业数据是企业在生产经营管理活动中产生的数据,来自企业内部与外部。例如,企业在调查、研发、生产、购买原材料、收货、交货、收款、付费等过程中产生的数据。
政务数据包含政府部门因开展工作而产生、采集,或者因管理服务需求而采集的外部大数据,为政府自有和面向政府的数据。例如,城市建设类(交通设施、旅游景点、住宅建设)数据、城市管理类(工商、税收、人口、机构、企业)数据、民生类(水、电、燃气、通信、医疗)数据、自然信息类(地理、资源、气象、环境、水利)数据等。
4.按照数据格式进行分类
结构化数据:是指通过传统的ER模型描述,可以利用二维表存储技术(基于行列存储结构的关系型数据库)进行存储和检索的数据。
半结构化数据:是指局部具备结构化特性、局部具备非结构化特性的数据,最典型的就是XML格式的数据。其实它由语义模型定义,也就是我们说的Schema,即每个区域和段落分别代表不同的业务含义,采用类结构化Json存储,可以采用类SQL访问的方式进行处理。局部具备非结构化特性的数据可以采用非结构化数据处理的方法和手段。
非结构化数据:在IT领域没有绝对的非结构化数据,如所有格式的图片、视频、音频资料,只要对应有解析器,就必须有格式定义,否则解析器无法把它蕴含的数据内容呈现出来。所以,非结构化数据本质上只是相对于结构化数据和半结构化数据而言的,是不便于基于SQL检索和分析处理的内容,是需要通过专用技术引擎处理的数据。
5.按照数据获得的方式进行分类
第一方数据指企业通过自身的生产经营活动直接获得的数据,是企业拥有的一系列数据。例如,制造业企业在日常企业采购、生产、销售和运维过程中产生的各种数据属于该企业的第一方数据,企业对这些数据具有拥有权和控制权。通过对第一方数据的挖掘、使用与出售,可以给数据拥有者带来经济收益。
第二方数据指通过提供某种中介服务所获得的数据。例如,作为第三方支付平台的支付宝,可以通过对阿里系以外的企业提供支付通道,获取额外交易数据和信用数据。从拥有和控制角度来看,第二方数据的所有者(如支付宝)具有对数据的控制权,但这些数据会受到获取路径方式的限制,在使用、交换或交易的过程中会有不同的限制条件,经脱敏处理后,如匿名化、整体化等方式,才能实现对这些数据的有效控制和使用。通过对第二方数据的挖掘、使用与出售,也可以给数据拥有者带来经济收益。
第三方数据指通过爬虫技术等方式间接获得的数据。从拥有和控制角度来看,第三方数据的产权问题比较复杂。通过网络爬虫获取数据的企业或个人虽然可以使用这些数据,但是不能直接进行数据的交易或授权。