一、智能城市大数据概念
(一)定义
1997年,美国国家航空航天局(National Aeronautics and Space Administration, NASA)研究员Michael Cox和David Ellsworth在美国电气与电子工程师学会(Institute of Electrical and Electronics Engineers, IEEE)的第八届国际可视化学术会议中首先提出了“大数据”(big data)这一术语(Cox et al.,1997),但并没有引起太多重视;2008年9月,Nature(《自然》)出版了大数据专刊,大数据在科学研究领域得到了高度重视;2012年3月,美国政府发布《大数据研究和发展倡议》,大数据引起了全社会的重视,一场大数据引发的变革开始向世界各地渗透。
就各国际机构给出过不同的大数据的定义。麦肯锡的定义:“大数据”是一个规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征(McKinsey Global Institute,2011)。高德纳咨询的定义:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力,以适应海量、高增长率和多样化的信息资产。维基百科的定义:“大数据”是无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。国内学者和研究机构对大数据也有不同的认识。魏伟(2014)认为,大数据重要的是体现价值、发现价值;工业和信息化部电信研究院(2014)指出,大数据是具有体量大、结构多样、时效性强等特征的数据。李国杰(2013)认为大数据=海量数据+复杂类型的数据,并总结了大数据的“4V”特性:数据量大(volume),目前一般认为PB级以上的数据是大数据;种类多(variety),包括文档、视频、图片、音频、数据库数据等;速度快(velocity),数据生产速度很快,要求数据处理和输入/输出速度很快;价值大(value),对国民经济和社会发展有重大影响。李仁涵(2015)认为,大数据应具有“5V”特点,即海量(volume)、高速(velocity)、复杂(variety)、真实(veracity)、有价值(value)。可见,大数据概念宽泛,各领域按照自己的理解来研究和发展大数据。
城市大数据作为大数据的主体,在城市智能化发展过程中,将发挥越来越重要的作用。其是指城市的政府、公共机构、企业、个人利用新一代信息技术手段获取和汇聚的各类城市环境资源与设施设备,以及个人与集体等主客体所产生的动态及静态数据。其能够刻画政府服务、民生诉求、城市规划、交通疏导、环境监测、健康医疗、能源消耗、经济运行、城市安全与应急响应等领域的情况。Thakuriah等(2015)将城市大数据分为五类,即基于传感器系统的数据、用户生产数据、政府管理数据、客户和交易记录数据、艺术和人文数据等。城市大数据的分类有多种,因为城市的数据信息为网状结构,分类可依处理方法和应用目标而定。中国城市的大数据常用以下几种分类(Pan,2016;李伯虎,2016)。
(1)按城市功能的供给侧划分。此分类的基础是城市现有的管理系统,也就是现有城市层次组织数据的聚集系统,这种划分具有组织促进力。
(2)按城市服务的需求侧划分。可按不同需求者划分,如居民、企业、机关等,方向不断细分,对应各种城市应用服务系统,具有应用促进力。
(3)按城市数据的来源划分。如划分为城市物理系统的传感器数据,城市人及其组织的经济活动类、社会活动类、科教文类活动数据,以及城市人的生活类数据。
(4)按数据形式划分。如划分为能够用数据或统一的结构加以表示的结构化数据,如数字、符号,介于完全结构化数据(如关系型数据库、面向对象数据库中的数据)和完全无结构的数据(如声音、图像文件等)之间的半结构化数据,如XML、HTML文档,没有预先定义数据模型或者不适合用关系型数据库保存的非结构化数据,如办公文档、文本、图片、各类报表、音频/视频信息等。
(5)按专业领域划分。如划分为以公共安全、医疗、交通等领域为代表的城市管理大数据,以电信、金融保险、电力、石化等系统为代表的社会民生领域大数据,以气象、地理等系统为代表的资源环境大数据,以其他商业销售、制造业、农业、物流和流通等为代表的产业经济大数据,以及以百度、阿里巴巴、腾讯等互联网公司为代表的基础支撑大数据。
(二)特点
城市大数据除具有数据体量大、数据类型多、价值密度低、处理速度快,以及不确定性、随机性特征外,还有其特殊性(Pan et al.,2016)。
(1)层次性。例如电子病历是按照医院、区域加以组织的,医学图像是按照设备、医院加以组织的,医疗卫生数据既有个人的健康数据、医院病人的健康数据,又有社区和市卫生防疫部门的健康数据等。城市大数据的层次性深刻反映了城市物理系统和社会系统组织的层次性。
(2)完整性。城市经过长期的运行与发展,各系统管理的覆盖度越来越高,例如近年来中国城市环保数据的覆盖度正在迅速提高。这种完整性的迅速改善,使城市大数据具备日益精确地揭示城市整体发展规律的能力。
(3)关联性。城市各类数据之间具有很强的关联性。例如城市的物流信息既包含在物流企业数据中,也包含在制造业、商业数据中,交通数据中,甚至金融数据中。这些关联性不仅可用以相互印证,还可用以协同推理与挖掘规律。
城市大数据涵盖了城市的方方面面,可以预见,未来从政府决策与服务,到人们的生活方式,再到城市的产业布局和规划以及城市的运营和管理,都将在大数据的支撑下走向智能化。城市大数据的出现,使人类在历史上首次能够对城市复杂巨系统进行全面实时的描述,但是具体能够描述到什么程度,关键取决于对人工智能技术的利用程度。