
一 大数据政治学的技术驱动
大数据政治学是大数据引发的政治学革命,即大数据时代的政治学。大数据是互联网、数据挖掘、人工智能等信息通信技术元素交汇复合的必然产物,[3]成为新一轮科技革命的典型标志。技术变革是政治学知识生产方式变化的基础驱动力。大数据政治学就是发生于新一轮科技革命背景之下,由大数据技术体系与政治学研究相互交融产生的交叉领域和新兴学科,既是利用大数据及其分析技术来研究政治现象、政治问题以及探索政治规律的过程中形成的交叉,更是新技术条件下政治学研究方式回应性变革的产物。
因此,技术驱动构成了大数据政治学的核心特征。总体而言,大数据政治学就是以大数据为材料、以计算为方法的政治学研究。根据这一定义,从技术层面对大数据政治学的理解也能够进一步分解为两个方面,即大数据和大数据计算。大数据对政治学的驱动也正体现在这两个方面,即大数据产生的数据驱动和大数据分析技术产生的计算驱动,在此意义上,大数据政治学也是计算政治学的基础领域和重点方向。
大数据政治学是以大数据为材料的政治学。能够针对特定的政治现象和议题获取大数据,是大数据政治学最为基础的特征。这一特征不仅体现在大数据本身所具有的“3V特征”,即规模性(Volume)、速度快(Velocity)和多样性(Variety)方面,[4]也体现在以特定政治现象为研究客体所获得的数据当中,这种数据方面的特征是传统政治学研究不曾体现的。因此,材料上的特征是大数据政治学的基本特征,也是大数据政治学的核心优势。
大数据政治学也是以计算为方法的政治学。面对大数据,传统的数据处理方法已不再适用。因此,以有效处理大数据为目标,逐渐产生了一系列大数据计算方法。这些计算方法通常是伴随着大数据一起形成和发展的,以机器学习、自然语言处理、大语言模型等方法为核心,是大数据和现代人工智能的核心技术。由于大数据政治学的材料是大数据,因此,大数据政治学必须以大数据计算为方法,这些分析技术和方法是传统政治学不曾具备的,这也是大数据政治学在方法上的优势。
因此,大数据的技术驱动包括了大数据和大数据分析技术两个方面。一般而言,大数据与大数据计算是紧密相关的,将二者配套使用会产生更好的效果。当然,针对特殊的研究问题,对数据与方法在运用中也可以进行不同的选择。例如,利用非大数据方法来计算大数据,抑或针对小规模数据采用大数据方法,获得小数据分析抑或定性分析所达不到的效果。此外,综合利用小数据和大数据,形成材料和方法的混合驱动,也是当前学术研究中存在的现象。但总体而言,大数据政治学的变革性特征集中体现于数据驱动和计算驱动两个方面,这两个方面的合力使政治学迈入了大数据时代。
(一)数据驱动
数据驱动是大数据政治学的首要特征。过去十多年,政治学面临的一个主要变化就是不断激增的大数据。[5]随着互联网普及、物联网进步、智能终端快速发展和云计算技术成熟,“万物互联”已经成为现实,这些不同技术元素交汇复合,使大数据源源不断地被生产和利用,之前无法采集和分析的大数据也进入了政治学的研究领域。
数据生产方式的重大变革是大数据时代的核心特征。数据是事实或观察的结果,通常用于表示客观事物。例如,《现代汉语词典》就将数据解释为进行各种统计、计算、科学研究或技术设计所依据的数值。[6]在大数据时代之前,数据生产长期依赖人力观察、记录和整合,特别是现代调查统计技术在很长时间内构成了主要的数据来源途径,形成规模有限且高度结构化的数字数据。而在大数据时代,数据生产方式由人力搜集逐渐转变为自动生成,呈现出自动化、实时化和规模化特征。在过去近三十年的时间里,人类社会的数据生产方式经历了运营系统、用户原创、感知系统三个阶段,数据生产来源也从数据管理系统的被动数据演变为Web 2.0和移动终端的用户原创数据,逐渐演变为当下大规模传感器自动生成的数据,即大数据。[7]
数据生产方式上的变革使密集型数据环境成为大数据时代的标志。数据生产方式变革意味着传统的调查统计小规模和结构化的数据集逐渐被自动生成、规模庞大、类型多样且快速增长的数据流所替换,形成了数据密集型环境。这种数据环境首先体现为数据规模的庞大,大数据的庞大体量已经难以用兆字节或千兆字节来计算,而是需要以太(terabyte)甚至是拍字节(petabyte,等于1000太字节)为单位来衡量。此外,数据密集型的环境也体现在数据生产速度和结构多样等多个方面。大数据不仅在规模上呈现出指数级增长,而且数据种类繁多,既有结构化的数字数据,也包括图片、视频、音频、邮件、交易信息、社交网络信息等非结构化数据,[8]这些数据不断汇总形成了日益密集的数据环境。
在政治生活中,大数据的出现和运用使政治实践场域进一步延展至数字化空间,产生了一些新的政治现象,成为大数据时代的政治学需要从学术层面进行回应的现实问题。例如,作为大数据的一个主要来源,新媒体在当代政治中的作用越来越大,为当代政治行为提供了重要的媒介和平台,以“脸书”和“推特”等为代表的新媒体正成为影响政治实践的重要力量。2010年“阿拉伯之春”的政治变革就是通过“脸书”和“推特”等新媒体逐渐放大,在酝酿、组织、爆发和升级等各个环节都发挥了关键作用,扮演着信息传播、动员组织和全球呼应等重要角色。[9]此外,大数据的发展也正在推动国家与公民间关系的改变,使国家和政府治理产生了适应性变革。大数据作为颠覆性创新,深刻改变了国家权力与公民权利关系,不仅实现了“数据的民主化”,也推动着现代国家治理体系朝着高效、创新和透明的方向深度变革。[10]在这些现实变化中,一系列新问题、新现象和新趋势不断涌现,与小数据时代的政治学研究形成了显著张力,构成了政治学研究吸纳大数据并且与大数据形成交叉融合的现实动力。
将大数据运用于政治学研究,核心目的就是要以数据为驱动,将数据密集型环境中的政治实践通过数据方式呈现出来,让数据来呈现这些现象的基本规律和发展趋势。这意味着它不是根据小样本归纳理论抑或依据理论假设来通过数据进行检验,而是逐步处理给定的大数据集,以此来生成相关见解和预测。[11]这种方式与传统政治学量化研究构成显著差异。在传统量化研究中,研究数据往往来源于科学调查统计,通过抽样产生规模有限的数据,再根据相应理论假设,通过统计分析来对变量进行分析。而在大数据时代,数据的产生和利用无需抽样,是覆盖全局的,并不依赖“自上而下”的调查抽样产生样本,而是通过“自下而上”的方式自动建构形成了全局性数据,即通过“样本即总体”(N=All)的形式覆盖全局。[12]
因此,利用大数据来研究政治现象,能够在一定程度上摆脱先入为主的概念、假设和理论,而是利用全局性数据,将数据中蕴藏的政治实践模式及其内在规律客观呈现出来。大数据不仅推动了社会处理信息的方式转型,也对思维方式造成了影响。[13]在大数据政治学研究中,思维方式的转变就集中表现为“数据至上”,它并不由数据创造者来赋予数据意义,而是从数据中挖掘意义。[14]因此,大数据时代生成了新的认识论,即寻求获得“来自数据”的见解,而非通过分析数据来检验预设的理论。[15]
数据驱动使规模庞大、实时生成和多元类型的数据进入了政治学的研究视野,成为政治学研究的新型数据来源。密集型的大数据为政治学研究提供了更加全面和丰富的数据资源,扩大了数据收集的渠道和方法。[16]文本、声音、图像和视频等结构化、半结构化和非结构化的原始数据都能够被用于研究特定的政治现象。这些前所未有的数据有可能揭示之前被隐藏的“政治秘密”,增强我们对政治生活及其运转规律的理解。[17]大数据的有效运用也能够推动政治学研究议题和空间的扩展。这主要体现为越来越多的政治现象、政治过程和政治问题,都可能通过大数据的形式呈现出来,进入大数据政治学的研究范畴。大数据技术为以往“不可研究”或“难以研究”的问题提供了辅助分析手段,促使政治学研究与计算科学及网络科学相结合,拓展了政治学的研究空间。[18]
(二)计算驱动
大数据政治学也是以计算为驱动的政治学研究。挖掘和呈现大数据中隐藏的规律和模式,需要与大数据配套的计算技术。大数据政治学也是社会科学朝着计算范式转型过程中产生的分支领域,呈现出强烈的计算驱动特性。大数据一般具有维度高和结构复杂的特点,一般的数据分析技术难以有效分析,需要利用与大数据相适应的计算与可视化技术,才能从海量数据中挖掘有用的知识、规律和内在关系。为了实现这一目标,以有效分析大数据为导向的计算工具也得到了充分发展,包括分布式计算、云计算、机器学习和人工智能等技术在大数据采集、存储、计算和可视化环节都有所运用。
社会科学朝着计算范式转型形成了计算社会科学(Computational Social Science)的范式或学科。伴随着数据收集、挖掘和计算等新兴技术的出现及运用,社会科学研究领域,提出和研究问题的范式也正朝着计算方向转型,研究者可以利用微观、中观和宏观数据进行研究,社会科学研究范式正在向计算社会科学转变。[19]大卫·拉泽尔(David Lazer)等发表了《计算社会科学》一文,呼吁利用移动互联网数据研究人类社会行为和社会运行规律等问题,被视为计算社会科学成为独立学科的重要标志。
大数据政治学是计算社会科学体系化发展过程中产生的分支领域。计算社会科学是基于系统科学、网络科学、复杂性科学等科学理论,利用数据挖掘、人工智能等计算方法,以社会、经济等领域大数据作为研究对象,是人类更深入地认识社会、改造社会,解决政治、经济、文化等领域复杂问题的一种理论和方法体系。[20]它最核心的特征就是通过多元化计算技术实现对社会现象和社会问题的仿真、模拟和呈现。以语言、位置和运动、网络、图像和视频等为对象,应用模型捕捉数据中的各种关系。[21]计算社会科学对传统的调查、实验等方式都有不同程度的改进。在调查方面,计算社会科学不再局限于问卷或访谈等方式,而是通过大数据和算法来对庞大的数据进行处理和分析,同时,由于数据更加完整、模型更加完善,人们很容易发现新的关系,催生了更多新兴交叉学科和领域,从而拓展了计算社会科学的研究对象,[22]这种扩展表现为计算社会科学与特定的学科相结合,产生了计算社会学、计算传播学、计算法学和计算政治学等具体分支。
学界通常将大数据政治学和计算政治学视为同义词,在不严格区分的情况下,常常相互替换使用。大数据政治学不仅重视研究政治学时使用的大数据,同时还突出表现为处理这些数据时使用的计算方法,实际上吸纳了计算政治学内涵。本文对大数据政治学与计算政治学不做严格区分。但是,实际上,计算政治学这一指称更加突出研究方法,即通过计算大数据来研究政治现象,特别是有效地利用计算机语言和算法来进行科学化、自动化和智能化的计算过程。例如,西方学界提出的“计算政治科学”这一定义,不仅意味着需要对网络、传感器、通信、电子媒体或电子数据库等计算机生成数据进行分析,而且也需要使用计算形式、逻辑和语言来描述和分析政治现象。[23]但在中文语境中,计算的范畴要比西方语境中的“计算”更广,无法将计算政治学与统计政治学区别开来。
大数据政治学与计算社会科学共享着核心特征。在计算社会科学发展影响下,大数据政治学吸纳了丰富的计算工具,形成了计算驱动效应。从20世纪90年代至今,计算社会科学已经形成了社会数据计算、社会模拟、互联网社会科学实验三种新方法。[24]以有效计算大数据为导向的技术、软件和平台发展也更加多元和成熟。在计算工具驱动下,政治学引进了一套崭新的思维方法、分析路径和解释模式。[25]此外,机器学习算法的体系化延展也生成了各种智能化算法,如监督式学习、半监督式学习、无监督式学习、强化学习和深度学习算法,它们被用于大数据政治学研究当中。随着这些计算工具的运用,大数据政治学研究也产生了多元化的分析手段,包括网络爬虫和搜索记录的分析、自动文本分析、视频和图片分析、社会网络分析、空间时间分析和可视化分析,等等。
除了提供计算技术支持,计算社会科学也深刻影响了大数据政治学的范式。学界普遍认为,计算社会科学既会加剧“让数据说话”和“依赖理论假设”之间的对立,也能从这种范式争论中找到平衡点,即综合运用数据计算和理论假设模拟和阐释复合社会系统及现象的规律。张小劲和孟天广认为,计算社会科学尽管更为强调数据、模型、算法等计算维度,但它确实可被视为行为主义与后现代主义为代表的新理论的某种妥协和融合:首先,计算社会科学承认个体或群体层面的人类行为具有某些用行为主义研究范式难以觉察并加以研究的因素,但其处理方法,则是将此类因素分为潜变量和显变量,尽管有些因素确实是难以直接测量和观察的,但它们可被视为影响行为的潜变量,并以其外在表征的显变量来呈现和测量。其次,计算社会科学承认人类行为的复杂性,认为抽象模型和变量不足以反映社会现象,但处理方法则是将大量变量纳入分析中,变量丰富性及变量间复杂关系无疑超出了任何人类研究者进行纯粹定性研究的研究能力,从这个意义上讲,尽管人们将计算科学与“数据驱动”和“计算”等概念联系在一起,但是计算社会科学范式确实是各种范式相互竞争、启发及融合的结果。[26]
这种融合发展的范式特征也集中体现在了大数据政治学当中。大数据政治学呈现出较强的吸纳性,而非排他性。其中,最为典型的就是越来越重视将相关关系和因果关系进行结合,更加合理地利用大数据计算来全面解释复杂政治现象。大数据政治学越来越需要因果关系和相关关系相互结合且互为验证,既在宏观维度呈现出政治现象的相关性,也要基于因果关系理论来更加坚实地剖析内在机理。总的来说,大数据政治学研究更侧重于相关关系的挖掘,同时也致力于将因果关系容纳进来,形成了大数据与统计方法、大数据与小数据分析、大数据与实验研究、大数据模拟方法等多种生产和检验因果性知识的方法路径,[27]呈现出以有效计算大数据为中心的融合发展趋势。
通过上述分析,可以发现,大数据政治学的技术驱动特征集中体现于数据驱动和计算驱动两个方面。数据驱动和计算驱动的特征也决定了大数据政治学的整体特色和发展路径。在数据驱动方面,大数据为政治学提供了更具规模、更加多元和更加实时的数据来源,形成了数据密集的研究范式。而在计算驱动方面,计算社会科学的整体发展为分析和计算海量数据提供了更加丰富的工具体系和更具融合性的思维范式,致力于科学、有效且全面地从海量数据中挖掘潜在的规律和特征,并且致力于弥合大数据政治学和传统政治学研究之间的张力,使大数据政治学更具开放性和包容性,吸纳了更多的方法。大数据政治学正是在数据驱动和计算驱动双重效应影响之下得以产生并不断发展的,这两个方面的技术驱动特征深刻影响着大数据的发展走向,也能够成为追踪大数据政治学研究动态的观察视角。
(三)技术操作
在数据和计算双重驱动之下,大数据政治学的议题和方法不断扩展,突破了小数据时代政治学研究在材料和方法上的限度。一般而言,大数据允许更大的样本量、更便捷和更广泛的理论测试,并且能够对政治学的概念和理论进行持续评估。[28]也有学者将大数据对政治学产生的积极影响进行了全面总结,体现为更便捷、廉价、大规模的数据采集,数据分析新方法的引入,定量与定性方法的整合,政治学与计算科学,信息科学等的跨学科研究,数据民主化所推进的政治知识平民化的传播和普及。[29]从研究过程来看,数据和计算双重驱动全面体现在了大数据政治学的技术操作流程上,以获取和计算大数据为驱动,大数据政治学研究在技术操作层面上也不断丰富和成熟。
在数据驱动的技术操作环节,大数据政治学已经形成了一些极富操作性和启发性的技术手段,集中在数据收集和预处理两个阶段,这是两个前后衔接且极为重要的环节。在数据收集环节,计算机和互联网是主要渠道,利用数据爬虫技术能够快速获取海量的互联网数据,已经是大数据政治学获取数据最成熟也是最有效的方法。同时,利用数字化的扫描、识别等技术,也可以比较方便地将大量文本资料转化为文本大数据,例如,谷歌书籍搜索数据库就是利用这种方式形成了庞大的数据库,进而能够分析人类知识结构与变迁规律,从而发现之前难以呈现的人类社会发展规律。此外,一些高科技工具,比如GPS应用带来的海量空间信息数据、大量的卫星数据、人类在医疗过程中产生的大量数据,这些数据通过各种科技手段得到了记录,日益累积成为海量数据,对于理解人类政治现象及其背后隐藏的规律也非常重要。通过上述方式获取的大数据往往是结构混杂的数据,不仅包括结构化数据,也包括了大量的非结构化数据,同时还存在无法用来研究的数据。因此,在数据预处理环节,主要就是对数据进行清理,去除“噪声数据”等各种无效数据,使收集到的大数据成为可研究的数据。
在计算驱动的技术操作方面,计算和分析大数据的技术也日新月异,产生了一系列非常实用的操作方法。计算大数据的主要目的是利用各种算法和软件来挖掘大数据当中蕴藏着的关联,根据数据之间的关系来对政治现象及其规律进行描述、分析和预测。这种操作流程将使政治学研究从重视经验观察、理论假设和虚拟计算转向重视反映政治现象与政治生活中的各种原始数据,即通过智能设备将政治生活中的一切都转换为数据,通过大数据来描述复杂的政治现象,而且通过数据挖掘的方式来发现各种政治现象之间的关系,并通过图表等可视化手段把复杂的政治关系形象地表现出来。[30]在数据分析环节,常常会根据需要来进行更具针对性的操作。例如,对数据进行描述分析,以便掌握数据的基本特征;对数据进行质性的扎根分析,获取数据的基本维度;对数据进行可视化分析,以便掌握数据的特性;甚至可以对数据进行抽样,对非结构化的数据进行结构化的操作,使得数据能够进行统计操作;等等。这方面的分析技术层出不穷,不断地迭代更新,使大数据更易被计算和分析,增强了可操作性。
数据驱动和计算驱动使国内外政治学学者越来越多地利用大数据来研究政治问题,形成了大数据与政治学的交叉融合,产生了极具规模性的研究成果,反映了大数据政治学的发展路径和最新动态。根据大数据政治学研究的学术演进,结合大数据本身的类型,我们发现,大数据政治学在发展过程中产生了较为稳健的分析模式,即基于大数据的文本分析、时空分析和网络分析,国内外学者在利用这些模式研究实际问题时,发展出了更加多元的具体模式,扩展了大数据政治学的方法与议题(见表1),也使大数据政治学围绕着这三类分析模式形成了方法、议题和观点的聚类。
表1 大数据政治学的分析模式
