第一部分 基础篇
第一章 数据开放的源起
数据开放是我国大数据战略的重要组成部分,是中央全面深化改革领导小组审议通过的改革任务之一。随着信息化的不断发展,各政府及公共企事业单位在依法履职和生产经营过程中积累了大量的、丰富的数据资源,政府及公众企事业单位一直致力于利用这些数据资源来提升自身治理和服务能力。随着开源思维和开放理念的普及、数据创新意识的提高,社会公众对于开放数据的需求不断增强,希望获得政府和公共企事业单位更丰富、更及时、具有高价值度的数据。在内部的正向推动和外部需求的反向倒逼下,数据开放运动在全球范围内不断兴起,数据开放已成为当今世界各国的共同趋势。
第一节 认识公共数据开放
按照当前普遍的共识,公共数据是指各级行政机关以及履行公共管理和服务职能的企事业单位在依法履职过程中采集和产生的各类数据资源。公共数据开放是指公共管理和服务机构面向自然人、法人和其他组织提供可机器读取、可利用、具有原始性的公共数据,供其开发利用的一种公共服务。
早期大家对数据开放的认识还只限于政府数据开放,认为开放数据指的是政府部门在依法履职过程中产生和管理的,以一定形式记录、保存的数据资源。随着数据开放运动的不断深入,大家逐渐认识到,可开放的数据不只是政府的开放数据,还包括公共企事业单位的开放数据,例如水、电、气、暖等主要公共服务数据,公共财政支持的企业的数据以及掌握在其他企业手中具有重大公共利益的数据。这些公共数据理应都向社会开放。2017年2月中央全面深化改革领导小组审议通过的《关于推进公共信息资源开放的若干意见》中对公共信息资源进行了明确定义:“公共信息资源是政务部门和公共企事业单位在依法履职或生产经营活动中产生和管理的,以一定形式记录、保存的文字、数据、图像、音频、视频等各类信息资源。利用互联网将具有原始性、可机器读取、可供社会化再利用的数据集向社会公开。”这里的公共信息资源所指的就是公共数据。
相对于信息公开的知情权,数据开放更强调数据的利用权。信息公开与数据开放有不同的要求。数据开放相对于信息公开在对数据的要求上更进一层。
一 数据开放更侧重于让人民更方便地获得和利用数据
信息公开的目的是满足公众对政府的“知情权”,面向的对象是全社会,要让普通民众都了解政府的政策,促进政府数据公开透明。数据开放的目的是实现社会公众对数据的“使用权”,主要面向的对象是数据分析师和数据爱好者,让这些掌握数据分析方法的人员可以获取数据包或者数据接口,能够制作分析图表、运行分析模型或者开发应用产品,促进数据产业发展。
二 数据开放更侧重于一手的、原始的、可机器读取的数据
信息公开的主体是政府。所公开的信息是指行政机关在履行行政管理职能过程中制作或者获取的、以一定形式记录和保存的信息。而数据开放的主体既可以是政府,也可以是公共企事业单位。数据开放倡导的是面向最底层的深层次的开放,倡导一手的、原始的、可机器读取的数据,并提供多种格式以满足不同类型用户的需求,主要体现为CSV、XLS、XLM等格式的数据包或者接口服务。信息资源开放也是数据开放的一种形式,主要体现为JPEG、MPG等格式的文件。
三 数据开放更侧重于数据在更大的范围发挥价值
通过将公共数据开放给社会,由企业、科研院所、社会团体等组织和个人根据自身的需求进行挖掘和利用,有助于开发新产品、研究新技术、创造新模式、提供新服务,从而推动“大众创业、万众创新”。不同的数据使用者对于同一数据的使用方法不同,从而能开发出数据在不同维度上的价值,其效率与效益会大大超出原有的模式,有助于充分释放数据的红利。
第二节 数据开放的学术起源
根据目前可查到的学术资料,数据开放的学术起源最早可追溯到2006年3月,当时英国《卫报》发表了题为《把皇冠上的明珠还给我们》的文章,其中有这样一段话:“我们纳税资助了政府部门去采集公共数据,但我们如果想要获取政府数据却需要再次付费,应该让这些数据免费开放,才能推动创新”,首次提出政府应该将采集的公共数据向社会开放,这可以被视为对数据开放的首次诉求,也拉开了全球数据开放的浪潮。
2007年12月,30位开放数据倡导者聚集在美国的加利福尼亚州,通过两天的会议,他们制定发布了开放公共数据的8项基本原则,如表1-1所示。
表1-1 开放公共数据的八项基本原则
表1-1 开放公共数据的八项基本原则-续表
2010年,万维网的发明人、语义网和关联数据的创建者和倡导者蒂姆·伯纳斯·李提出了一个开放数据五星评价标准(见图1-1):一星是指基于开放授权在网络上开放数据,用户可以查看、搜索、存储和修改数据,还可以与任何人分享这些数据,但对数据格式不做要求,可能采用PDF、JPEG等格式;二星是指以可机读、结构化格式开放数据,例如EXCEL电子表格的形式,但不包括表格的图像扫描件;三星是指在满足二星标准的基础上,以非专属开放格式开放数据,如采用CSV格式而不是EXCEL格式,使用户不需要使用专属的、付费的软件就可以分析数据;四星是指在满足以上要求的基础上,采用W3C开放标准的数据(如RDF和SPARQL格式),为每一个数据集设置固定的URL链接,便于使用者发现和链接到数据集的具体位置;五星是指在满足以上要求的基础上,借助W3C标准和关联数据原则,使数据之间实现关联,提供数据的背景。
图1-1 开放数据五星评价标准(5 Star Rating Scheme)
自2014年起,《联合国电子政务调查报告》将开放政府数据纳入评估范围并指出,“开放政府数据能从根本上提高资源的使用率,改善公共服务”。联合国提出“只要不牵涉存在争议的隐私问题以及国家安全问题,所有政府数据都可以开放”。开放数据从此作为国际组织评判各国电子政务发展水平的重要参考指标。
第三节 数据开放的实践起源
2009年1月,奥巴马政府签署发布《透明和开放政府》备忘录,要求建立透明、参与、合作的政府,该备忘录拉开了美国政府数据开放的大幕。同年12月,美国总统办公室、管理与预算办公室联合发布《开放政府指令》,要求联邦行政部门和机构采取切实的行动来落实总统备忘录中确立的“透明”、“参与”和“合作”三大基本原则。
2009年5月21日,美国联邦政府数据开放网站(Data.gov)上线运行,成为世界上第一个国家级政府数据开放网站。美国政府要求各部门在60天内公布开放数据计划,并把首批开放数据上传到Data.gov网站,第一批开放的数据只有11个政府机构提供的76项数据集,这些数据集分到多个用户关注的领域,用户可以通过自由检索或者点击网站首页提供的分类主题查找相关的数据集。Data.gov上的数据集不仅来自联邦政府机构,也聚集了诸多地方政府数据门户的数据集。经过10多年的发展,截至2020年4月,开放的数据集由最初的76个增加至20余万个,涵盖农业、气候、教育、能源等14个主题,数据开放的成效也不断显现。
美国联邦政府数据开放网站上线之后,多个州政府也陆续建立了各自的数据开放平台。2012年2月,纽约市通过了《开放数据法案》,这是美国国内首次将政府数据大规模开放纳入立法。根据《开放数据法案》,到2018年,除涉及安全和隐私的数据之外,纽约市政府及其分支机构所拥有的数据必须全部实现对外开放。2012年9月,纽约市公布《开放数据政策和技术标准手册》,详细规划了纽约市政府数据开放的行动方案。
美国政府数据开放平台的上线推动了其他国家数据开放行动的进展。2010年,英国政府数据开放平台(Data.gov.uk)上线运行,开放的数据涵盖交通、健康、教育、国防、政府开支、商业与经济等12个领域。2011年,法国政府推出的政府数据开放平台(Data.gov.fr)也正式上线,发布的首批资源包括国家财政支出、空气质量、国家图书馆资源等。2013年,澳大利亚政府数据开放门户(Data.gov.au)上线运行。2014年,德国政府数据开放门户(GovData.de)上线运行。
部分发展中国家也陆续加入政府数据开放的队列。巴西建立了国家级的政府数据开放平台(Dados.gov.br),并在2011年成为“开放政府合作联盟”(Open Government Partnership,简称OGP)的八大创始国之一。印度也在2012年建立了政府数据开放平台(Data.gov.in),集中发布了全国的人口、经济和社会等数据,并致力于透明政府运动和开放数据的创新应用。