广州公共管理评论(第4辑)
上QQ阅读APP看书,第一时间看更新

从大数据到社会科学知识

〔美〕布拉德福德·W.海塞(Bradford W. Hesse)理查德·P.莫泽(Richard P. Moser)威廉·T.雷利(William T. Riley)沈本秋/译〔美〕布拉德福德·W.海塞(Bradford W. Hesse)、理查德·P.莫泽(Richard P. Moser)、威廉·T.雷利(William T. Riley),美国国家癌症研究所研究员;沈本秋,广州大学公共管理学院副教授。

 

摘要:与海量、多样化数据集相关的一种挑战是,将开放的数据流进行综合是否可以转化为可具操作性的知识。美国国家卫生研究院认识到这一挑战以及与这些数据相关的其他问题,开发了“大数据到知识或BD2K”这一项目。“将大数据转化为知识”这一概念从两个方面对社会和行为科学起着重要的作用。其一,向数据密集型科学转移会对所有学科产生影响,尤其是如果大数据源攫取到大量行为和相关结构,将对行为和社会科学有影响。其二,科学本身也是一项社会事业:将社会科学的原理应用到研究行为中,就可能改善大数据时代困扰科学事业的某些系统性问题。我们探寻重新调整科学事业基本机制的可行性,目的是使它们更具透明性和累积性、更具综合性和凝聚性、更具快速性和相关性,以及回应性。

关键词:大数据 数据可视化 整合数据分析 信息学

 

2003年,美国国家科学基金会(以下简称NSF)收到来自蓝带委员会的一份报告,该报告阐明了加强科学合作和发展电子网络的重要性(Atkins et al., 2003)。随后,NSF在2007年发表了一项行动计划,发布了《21世纪的网络基础设施发展愿景》。两份报告都提出了合作式的、数据密集型的研究环境——根据美国国家科学基金会主任雅顿·比门(Arden Bement)的看法——将改变科学的方方面面:从高能物理中的理论建设到规划分子医学的新领域,到支持社会学、行为学、经济学领域中关于人类工作的跨学科新观点。这份报告预示着有必要将大数据完全引入科学研究,包括医学和社会学。

一 生命科学和医学中的大数据

信息基础设施报告发表两年后,国家卫生研究所(以下简称NIH)新任所长弗兰西斯·科林斯(Francis Collins)认为,发展高通量计算技术将会是NIH使命不可分割的一部分。诚然,科林斯博士重视生命科学领域中的大数据技术,这源于他的以下观察:记录30亿+人类基因组碱基对的基因测序技术在运算速度上呈指数级增长,而成本却降低了(F. S. Collins 2010)。NIH开始意识到,在不久的将来,高通量运算技术的实用性将会创造一种有益于生物医学事业的全新型的临床环境。思想领袖称这些利用数据力量的医学为“4P医学”,它们与工业时代的同行相比,变得更具预测性(predictive)、先发制人(preemptive)、个性化(personalized)(或者有些人会说是更精确)以及更有参与性(participative)(Hood and Flores, 2012;Shaikh et al., 2014)。数据从临床实验的自然实验室流回到企业科研,也能预示一个新时代到来;在这样的时代,只要“快速学习保健系统”中的实际应用处于持续改善的良性循环状态,就能预示生物医药科学和卫生系统研究的新趋势(Etheredge, 2007)。

与此同时,消费领域出现的新技术催生了容纳健康和医疗领域大量涌入的、高速数据流的需求。例如,像苹果手表和fitbit日常活动追踪器这样的实时“穿戴式设备”市场,预计在美国2016年销售额有望超过60亿美元(Mearian, 2012)。食品和药品管理局一直积极讨论如何监测医学设备的效果和可靠性。同时,又密切关注出于研究和市场营销目的而收集数据所涉及的隐私、安全与保密问题。同样,根据报道,办公室采用电子病历(EHRs)办公的医生数量陡然从2002年的17%上升到2013年的78%,这些市场激励主要归功于2009年开展的经济与临床健康的卫生信息技术(HITECH)运动。创造新的临床工作流程的社会技术挑战应该被数据容量所强化,而不是被阻碍。在未来几年,这种数据容量将会稳居研究和工程活动的核心地位(Robert Wood Johnson Foundation, 2014)。

随着数据收集创新的出现,分析能力成为最后的瓶颈:如何把原始数据转化成可用信息;或简而言之,如何将大数据转化成知识?也正因为这个原因,NIH在2013年自主提出“从大数据到知识(BD2K)”(Ohno-Machado, 2014)这一概念。BD2K的工作不仅包括发展新的方法和分析学,还包括培训现有的处理大数据的生物医学和行为研究人员,这种培训不同于传统研究培训项目。

二 BD2K与社会科学的关联

大数据转化为知识所带来的机遇以两种途径与社会科学相关联。首先,计算技术需要整合和分析大量的数据,这在构建新知识基础方面对社会科学和物理学同样重要。数据密集型和网络科学时代,大数据运动要求所有学科重新审视它们基本的方法论和认识论基础,社会科学也不例外。事实上,近来,社会科学和行为科学被大众媒体批判,因为它们不能在由其组成的相关学科中复制一些基础研究(Winerman, 2013)。其他批评家哀叹社会科学从实验室到实践转化的步伐缓慢。他们也注意到,应该对基础学科出现的变化立法,以加速解决社会问题的进展(Baker, Mcfall and Shoham, 2009)。正如它们在当今时代重塑自我一样,社会科学在审视理论角色、出版、数据共享、知识产权、知识积累以及公共责任中逐渐参与到其他学科中。

其次,数据转化成知识,本身就是一项社会事业。社会科学研究需要明白,为了跨学科知识的进步,有多大的数据资产可以被创造、访问、共享,以及利用。总统委员会的科学和技术顾问们在他们2010年关于美国以及国外“设计一个数字未来”的报告中这样解释道:“过去二十年中,通过因特网和万维网改革的最显著特征是,其范围扩大得益于数百万用户的贡献,尽管他们中的绝大多数人很少有或者没有技术与编程能力。这些只是集体智能新领域的开端,包括现代技术领域对人类集体行为的新理解和在复杂系统和网络中解决问题的新方法。”

在这篇文章中,我们探讨社会科学中大数据转变为知识的意义。我们从应对基本结构带来的挑战和机遇开始。真正累积科学的创立要通过政策修改和新的、参与式的平台。然后我们检查必要的结构并分析其变化,这对从融合与平行数据流中提取价值非常必要。关于这一点,我们引入整合数据分析的概念。同时,我们通过在以健康为导向的社区所做的多层次分析,说明新技术如何开始提高我们对社会和行为过程的认识。我们在社会科学中通过检测的方式完成我们对BD2K的处理。通过检测方法,新数据结构能够通过设计来催生一门在未来更快速、更高效和相关联的科学课程。

三 改善累积科学的结构

1993年,本文的第一作者报告了网上调查的数据,该调查的对象是海洋物理学家。面对协同科学向网络化和以计算机为媒介的沟通环境发展趋势,该调查对其所导致的社会与心理效应进行了初步评估(Hesse et al., 1993)。该研究的结果使人深受启发。通常,电子联结与受访者科学生产率的提高呈正相关,其生产率通过发表的论文、发言、所获得的荣誉以及知道的科学家来衡量。有趣的是,这种关联对于海洋学家来说很强,因为他们在地理上远离那些沿海机构才能积累的资源(一种相互影响)。总的来说,这种早期研究强调通过电子联结支持分散式工作的潜能,这种支持通过科学中“无形学院”(Crane, 1972)的方式来完成。其他情况下的研究揭示了相似的结果(Sproull and Kiesler, 1991)。认识到电子网络对加快知识探索的潜能,NSF增加了它在电子联结上的投资,以改善数据收集、数据分析和科学报告。

四 一场面向开放存取的运动

越来越多的投资正在支持电子网络环境下的科学发展。同时,一个尖锐的焦点正在形成:决策者需要确保他们的权益——公共资金资助研究项目的好处对其他所有可能的受益者在分布上要透明,要平等。在人所熟知的2003年6月版《贝塞斯达关于开放存取的声明》中,NIH率先提出它的决定,要求任何由公共资金资助的生物医学研究学术出版物需要在正式出版12个月内对公众无偿开放。其他国际机构也提出了相似的决议,以利用与全球信息基础设施相联系的好处。美国立法机关提出了一些议案进行跟进,这表明由公共资金资助的研究对公众免费开放起到了激励创新作用。尽管大多数议案从未进行投票表决,但在美国2013年和2014年预算审议期间,这一立法意图被写了进来。

2014年综合拨款法案——经过协商的拨款法案使美国政府打破了2013年以来的政治僵局——包括制定一些细则使公众有权使用政府资助的研究成果。受到影响的机构包括健康和人类服务、教育、劳动部门,它们年支出超过1亿美元。立法部门要求各机构,通过纳税人的钱资助的论文在发表后不超过12个月的时间内以电子格式向公众免费开放。据估计,议案涉及范围的扩大,将会占美国政府向公众开放的总额达610亿美元的年度研究预算中的310亿美元。可以想象,该立法行为已经引发了各科学出版社持续的辩论,它们既要遵照法律的要求,同时又要满足出版的成本。社会科学出版社通常依赖订阅费用,而医疗出版商则经常以作者费用抵消成本。关于新商业模式的争论还在进行。

五 数据访问开放运动

同样,NIH和白宫也致力于确保研究的基础材料能够向更多的科技领域开放,尤其是出版物所使用的源数据。2003年,NIH发起了一项对每年超过50万美元的所有政府资助项目的数据共享政策。最近,NIH出台了一项基因组数据共享(GDS)政策,要求所有NIH资助的基因组数据,不管资助级别如何,应确保满足进行二级分析的NIH数据储存库的适用性。这项政策表明了数据开放面临许多挑战,包括:同意未来二级数据的使用、适当地分离识别特征并对敏感信息进行附加私密保护、保护知识产权,以及控制访问还是不受限制地访问这些数据储存库。NIH继续支持基因型和表型(dpGaP)数据库,并与大量其他数据储存库推动数据的访问和整合,但是行为和社会科学数据不包括在NIH支持的数据储存库中。

在行政层次上,第一位由总统任命的联邦首席信息官(该职务可能产生于2002年的电子政务法案)宣布其计划:通过“data. gov”网站的建立以及新近建的“healthdata. gov”网站,由联邦政府财政资助的数据库可以更好地以机器可读形式向公众开放。2013年2月22日,白宫科学和技术政策办公室通过向各行政部门和代理机构负责人发放一份备忘录来强化政策,指示表明,对联邦政府财政支持的研究项目的数据集,公众能有优先访问权。该备忘录强调,气象数据的提供能够推动预测行业的发展,同时,基因测序技术的提供能促进生物医学创新以及其他令人叹服的运用案例。

六 提高精确性和可复制性

另一个走向开放科学的理由,是要把研究当成完全透明和合作的事业,提高研究的严密性和可复制性。开放科学的支持者常常指出,对纸质材料的历史性依赖和出版地点受限,已经造成了一系列意想不到的障碍,且阻碍了累积知识的构建(Nosek and Bar-Anan, 2012)。例如,印刷刊物版面有限,也许在稍微任意武断的基础上,会经常导致有意义的研究被排除在外,如统计学上启发式的p<.0.5阈值的有意义的测试(Cumming, 2014)。当任期、经费和专业认可度都可以根据出版物级别断定,对于调查者而言,就有不那么微妙的压力去应变假设:该设想是至少在他们数据集的某些发现中,可以探索达到一个有意义的0.05的水平的方式(Ioannidis et al., 2014),这被一些人称为“P黑客”(Simonsohn, Nelson and Simmons, 2014)。当对积极和消极结果的预期频率进行评估,对成功复制重要结论的证据进行评估时,生命科学领域的大部分文献似乎没有符合原先的期望(Simonsohn, Nelson and Iorns, 2012)。

为了应对这些问题,专业协会和资助机构开始努力鉴别限制累积科学的系统性因素,同时尝试一些潜在的补救措施。2012年,心理科学协会协同NIH行为和社会科学研究办公室在Perspectives on Psychological Science出版了一期特刊,主题是心理学研究结果的可复制性。差不多同一时间,美国心理协会发行了一份名为Achives of Scientific Psychology的开放获取的杂志,作为进军数据归档和开放存取出版的一步。2014年2月,NSF的社会学、行为学、经济科学部门召集了一个专家讨论会,讨论社会科学的严密性和可复制性的阻碍因素,同时,在大数据时代,为进一步探索提出有价值的方案。

七 集成数据流

在信息基础设施对科学的支持下,大数据的另一个推动力是能够将孤立的数据流转化成一张融合模式的集成图。集成图能帮助社会科学家、决策者、身体力行的专业人士以及一般大众形成态势感知能力(Thacker,Qualters and Lee, 2012)。描述这种能力的例子,可以用本文前面提到的物理海洋学家工作的意义来阐明。物理海洋学家早期采用分散式网络技术的一个原因是,他们依赖这些技术从远程浮标、卫星遥感技术和传感、远洋船舶、机载气象气球以及其他大容量的数据源、覆盖大范围地理区域的高速数据输入来整合信号。政府机构如NSF、国家航空和航天局、国家海洋和大气管理局联合提供资金支持,确保来自这些传感器的输入符合保真度和可靠性的高标准。

融资机构意识到,它们可以允许第三方以这些数据为基础设计应用程序,从而将收益返回给公众。商业气象学家将每日读取的这些输入数据转化成天气预报和海洋情况报告,并通过新闻媒体以及新近产生的手机天气软件播报。全球定位系统(GPS)装置的研发人员已经在航海、航空和汽车导航系统领域创造了一个全新的经济部门。信息技术巨头,如谷歌、苹果、安卓和其他公司,有能力通过来自交通传感器、开放的地理信息系统结构和商业供应商的互补数据流来增强这些系统,并制成面向消费者的地图软件,甚至已经开始尝试自主驾驶技术。

八 构建态势感知的原型

使用这些来自以物理科学活动为背景的整合数据,2007年,我们努力证明,这些与健康知识、态度、行为相关的互补数据流能够对社区增加价值,使其努力满足2010年人类健康以及2020年人类健康的目标。通过国家癌症研究所的行为研究项目,我们委托了一项发展性研究,旨在探索使用整合数据分析技术的可行性,为用户提供一种根据长时段数据源制定的交互作用趋势图。图1说明了我们随后构建的以人口科学网络(例如,人口科学网络)为原型的技术蓝图。图1的底部描述了常用数据元素,连同其他语义上相互协作的本体,可以用来将公开的有效监测数据和使用开放存取工具包与元数据可扩展标记语言(XML/XMi)的协作网络结构联系起来。数据集的来源,理论上,可以从美国联邦政府保存的大量公开有效监测数据集中采集。通过使用网格上的这些可视化数据集,将有可能构建一个将相关部件集合起来的互动公共层,来通知公共政策规划者、新闻记者、研究人员和公众。

图1 人口科学网络

注:由示意图可知,多数据源通过使用通用词汇及时整合,同时,一个可扩展网络服务中间层能为当前用户提供一种关于健康行为、社会决定因素和公众健康结果的综合意见。网格启用措施(GEM)工具利用Web 2.0、用众包的方式进行数据协调。人口科学网络2.0是在2007~2009年版的基础上发展而来的。

图2说明了一个这样的界面如何被构建,使用了来自被汉斯·罗斯林概念化的Gapminder动画统计的元素(Rosling and Zhang, 2011)。这个原型提供动态途径,访问有关香烟税收政策、自我报告吸烟率和有关吸烟有害影响的知识和态度的各种数据,同时,允许在时间维度内探索趋势的走向。美国西北大学的“社区网络运算科学”(SONIC)小组引导初始设计和程序,而由伦斯勒理工学院的德博拉·麦吉尼斯和她的团队进行实验的改进(MacGuinness et al., 2011)。福克斯蔡斯癌症中心的华敏和她的同事从医学和公共卫生的信息学视角进行补充开发。这些协作说明,为了将大数据资产融入集体智慧框架,多学科团队为参与创造公共健康新架构聚集在一起(Hesse et al., 2011)。

图2 数据流如何通过一个通用界面整合以控制社区层次的态势感觉和行动

这个团队的工作,不管怎样,确实有它自身需要应对的挑战,但大部分与数据本身有关。因为合并在一起的数据来自几个独立的源头,对所有源头都通用的识别措施显得至关重要;在有些情况下,为了将数据按照一种共同的比例放置,需要将其格式化(如在变量中创造可比较的教育水平)或者将不可能的数据排除在分析之外。数据固有的缺陷同样也会排除一些本来会显示的信息类型(和一些本来可以做的分析类型)。例如,尽管在州一级就可以获得烟草税信息,吸烟行为和其他人口统计信息只有在地区层次才可获得,因而它也成了地图上可以显示的最小地理范围;这同样适用于一些年份的显示,因为不是所有数据每年都会采集。另一个挑战,和数据本身无关,而是通过网站分析的统计分析类型。我们想要避免对结果的过度诠释,尤其是所给数据具有代表性的性质,所以我们限制对描述性统计学和双变量相关性进行分析,因为我们不想让用户去解释其因果关系。不管怎样,在我们的多学科团队工作中也面临一些挑战。鉴于该团队涵盖了宽广的学科范围,加之其成员有一段共同工作的历史,那么他们就不会为了资源而竞争,共同目标和信任感的建立又指导项目团队成员朝着集体目标前进。没有这种背景的团队很有可能会明争暗斗。

九 改善数据整合的方法

通过NIH在BD2K的投资活动,我们获得了新的数据流。伴随而来的需求促使我们扩大数据管理和分析方法,以应对多样化的新类型数据。获得关注的分析发展领域在数据整合分析范围之内(IDA)。IDA指的是一组策略:将两个或者更多独立的数据流合并或者组合成一个,然后进行统计学分析(Current and Husson, 2009)。IDA的相关数据可以同时定量和定性(Castro et al., 2010)。IDA处理不同于甚至优于其他方法和技术,因为它努力构建累积数据库,比如荟萃分析(Cooper, Hedges and Valentine, 2009)。利用荟萃分析,汇总统计多学科研究数据(Cooper, Husson and Valentine, 2009; Glass, 1976)。因为IDA技术合并的是最初的原始数据,所以在荟萃分析方法中,不会丢失找到的个体数据。同时,不仅允许研究人员回答工作是什么,还包括为谁工作,在什么方面工作(Cooper and Patall, 2009)。通过研究组合的数据能够提供充足的动力去考察主持人和中介的影响,而个人临床研究很少有充足的动力去考察,或者帮助独特的跨研究比较。除此之外,IDA的使用能扩大社会科学研究许多领域的调查。例如,IDA可以通过追踪和社会背景、理解、信念或者行为有关的变量,来加强监测集中于生物医学领域的数据集。

尽管IDA是一门强大的分析技术,但它也有其自身的局限性,该局限性与被整合的数据有关。为了成功地组合共同的数据元素,至少被评估的构造必须是相同的。一旦它被建立,当评估构造的措施(或项目)是不同的表达、应对方案,或者评估小组(通常归功于调查迭代中不同的跳过模式),尤其是处理自我报告调查数据,挑战随之而来。当整合数据时,有关时间(收集数据)、抽样法、地理和其他异质性资源的差异也可能导致问题,虽然它们也可以用于跨研究比较。因而这也能成为一种优势(Curran and Husson, 2009)。在许多方面,当前最大的挑战是测量问题,尽管有心理测量和统计方法——都是传统的,近期又得到了发展——都可以直接整合数据和比较差异化测量的措施(Boaerand Hussen, 2009; Choi et al., 2014)。

本文的第二作者率先说明IDA技术怎样用于为NCI的健康信息全国趋势调查(HINTS)扩展分析价值,同时解决一些整合调查数据的挑战。HINTS项目是一个全国代表性项目,这个代表性调查于2002年至2003年秋季第一次部署。从那以后,在11年间有连续7次迭代调查。根据开放存取精神,这些调查产生的数据以可下载格式安装,随同的还有工具、方法报告、研究和技术文件。2003年开始,一个强大的用户群开始积极参与分析开放的数据,同时整合他们自己的研究中作为共同数据元素的项目,并将本地结果和国家数据进行比较。过去10年,修改的HINTS项目有助于韩国人、西班牙人(在美国本土和波多黎各领土范围内)以及讲汉语的中国人。几个州的调查均采用这些数据,包括集中在阿拉巴契亚州和关岛境内的一种由受访者驱动的特殊适应的样本。伴随着2003年和2005年利用的一种以电话为基础的随机拨号框架,问题管理模型也多样化;2007年至2008年使用了一种混合的电话/邮政框架;从2012年至2015年,只有邮政框架在使用;同时,有个提议认为可将项目转化成美国手语(Finney, 2012, 2010;Moser, 2011; Nelson et al., 2004; Tortolero-luna et al., 2010)。

在一波又一波的HINTS数据收集之间架设分析的桥梁,一直是一种挑战,尤其是当项目没有被连续评估或者没有被全部评估时;这些数据的形态变化可以使结果产生质的差异;这些数据在国家和特殊的重点人群中;这些数据也在对从国家到地区的用户以及国家决策进行的层次分析中。为了迎接这些挑战,HINTS分析团队编制了一份公开可用的技术报告。该报告可以作为一份适用于学校交流、心理学、公共卫生、医药和政治学的实用指南(Moser et al., 2013)。这份报告通过循序渐进的例子(和相关的统计软件语法)证明如何使用IDA原则来调查和控制误差,运用什么方法可以更接近“地方”水平(即更小的地理单元)的稳定估计,以及在扩大研究的广度时允许循环往复趋势。

这份报告提及,这些方法的成功应用,对理解两位研究作者能够使用州一级的受限数据也很重要。这些地理数据不会向公众提供,尽管他们可以访问——如果用户签一份协议,同意以道德的方式使用数据,并且报告任何违反机密性的行为。

十 实现快速的、响应的和相关的研究

面向消费者,而且经常挑衅的基因测序公司——23andMe,引起了生物医学科学家的注意,他们证明了如何可能地用少于1/6的时间和相当于原来研究一小部分的成本来复制NIH资助的一个大型试验(Nuemann et al., 2009)的结果。NIH资助的试验遵循特有的惯例,6年的轨迹经历了从假设生成到提议发展、提供资金、数据收集、数据提交、分析、编写和验收出版。它的方法产生的结论性证据表明,GBA基因突变者患帕金森症的可能性比那些没有异常基因的人高5倍。另一方面,23andMe公司的试验,在概念化、执行和总结上只花了12个月。它通过借助公民科学练习中客户的意愿来捐赠数据,同时又借助一个大规模分布式电子网络的容量上传来自成千上万客户的数据来完成这项试验。最终的结果显示,花在收集、分析和证明GBA基因和帕金森症联系上的时间显著减少。

由用户或者患者发起的注册中心和储存库,如23andMe公司和量化自我为快速学习提供了独一无二的基础设施,但这些数据源也遭受了高度自我选择、非概率抽样,从而限制了调查结果的普遍性。不管怎样,这些储存库的参与者希望他们的数据能被用于研究。与此相反,在搜索引擎留下数字痕迹的用户、移动应用程序和社交媒体网站却不希望他们的数据被用于研究。这些数据因为质量改进和市场营销的意图而被广泛开发,同时,这些数据经常被认为是档案并免除知情同意权。此外,这些数字服务经常进行对照试验,术语称为“A-B测试”,即选择最优特征、功能和他们的产品对接。但是对最近一项研究的批评却很明显,该研究是以脸谱网(Kramer, Guillory and Hancock, 2014)用户行为的实际操作为内容的情绪控制,研究目的要求对研究参与者提供更多保护,而不要求对界面特征和功能的实际操作。

十一 发现再造

根据一些观点,在网络科学时代,这些新能力也许是“发现再造”的一个机遇(Nelson, 2012)。沿着这一思路,本文的第三作者,美国国家卫生研究院BD2K项目指导委员会的一名贡献者,努力工作以促进社会科学研究进程的速度和相关性,增强信息革命的能力。他在2013年的论文中明确表达了他的目标:设计一个能更快速催化发现的新研究环境;更加适应现实社会的需求;与科学知识转化成可复制行为更加相关(Riley et al., 2013)。这一目标提出得很及时,医学研究所正致力通过电子健康记录系统使可互操作数据流的使用变得可行。该系统能使有效治疗建议更迅速地从“板凳到床边”,然后再“回到板凳”,在学习健康系统中还可以进一步完善(Abernethy et al., 2010; Etheredge, 2007)。

如果要创造一个更快速的环境将移动数据转化成知识,部分重点在于回顾构成我们在社会和生物医学领域所做研究的假设。无处不在的新移动传感技术是“穿戴式装置”革命的一部分,可以在一个“n-of-1”模式中,经常悄悄地提供收集快速记录行为数据的能力(Ginexi et al., 2014; Riley et al., 2011)。基于排列于系列稀疏数据点的试验设计,那些构建理论基础的科学家尽管试验并不缓慢、步伐并不蹒跚,但是不能加速他们的发现(Riley et al., 2011)。如果要与现在的治疗和决策更相关,研究必须要加快,而不是从现在开始的7~14年;更快速的研究,尽量减少技术和程序上产生过时或者陈腐的结果,那时的结果反而是有用的。

幸运的是,研究可以在不损害严谨性情况下变得更快速和灵敏,因为新的设计和分析方法的兴起——许多是从互补学科中借用的——能够更加迅速地应对以下挑战:从累积数据源中推动知识。例如,工程师使用分数阶乘方法快速做出有关工程系统关键特性的决定,然后设计被修改,通过快速迭代被重新测验。经方法学家修改来创造连续多重任务研究实验(SMART)模型,进而测验行为医学干预措施(L. M. Collins, Murphy and Strecher, 2007)。同样,在制造业尤其是计算系统动力方面,潜存于“六个西格玛”质量提升努力中的统计程序控制设想,可以用来在个人(Timms, 2013)和系统层面(Gaglio, Shoup and Glasgow)提高干预和行为的关联上。

这些快速研究方法和途径并没有试图取代传统的随机对照试验(RCT),以及以国家为代表的大型流行病学研究,或者其他“慢”研究方法。不管怎样,慢不是严谨的同义词。随机对照试验也许是测试新干预措施效果的最优方法。但是一些问题涉及在实际设置中的真正病人,如干预措施的效果、干预措施的安全性和副作用,以及确定干预对谁才最有效。这些最好是通过借助医疗体系电子病历和其他大的数据源处理。新数据技术也在其他领域出现。在生物医药科学方面,基因组研究人员正试图探索:潜在的基因突变和物理、社会环境的影响之间是否有联系,影响范围所及者称为“接触组”(Wild, 2005),来预测疾病的风险和调节治疗。该领域有一项新兴研究设计是“全基因组关联研究”,这种技术将从患有特定疾病的个体提取的DNA和从不患有该疾病的对照组提取的DNA进行比较。上百万的遗传变异体通过使用单核苷酸多态性(SNP)基因芯片读取,然后在个体间探索多态性和当前疾病的关联。最后的结果是一个图形化的散点图,被称为曼哈顿图(因为作为结果的峰值看起来像摩天大楼)。在该图中,统计关联强度列在Y轴,鉴定等位基因(基因组的坐标)列在X轴。该图的目的是帮助研究人员寻找与疾病有强关联的突出的等位基因。这些技术可以探索其他类型的关联研究,包括接触组特征对疾病发病机理的影响(Topol, 2012)。

十二 广泛参与科学

本部分开头给出的23andMe公司的例子,突出了在社会科学研究中的另一个趋势,这种趋势被一些人称为“公民科学”。由美国国家科学基金会资助的研究人员推测,在适当的情况下,普通市民会发现他们自己能够积极并有能力在科学事业中作为合作伙伴向研究人员捐赠数据。在一项“参与传感”实验的研究中,患有哮喘的个人自愿使用安装在他们手机上的特制应用程序,在他们生活的过程中监测洛杉矶的空气质量。公民捐赠的数据在此之后可以编译成数据丰富的大气地图,指示哪里的空气质量差,哪里的空气质量相对更清洁。这个方法的好处就是反应快速(这些是实时传感器)、灵敏,与参与者的需求相关,又惊人的强大(Chen et al., 2012)。

公民科学的其他表现已经产生了不同程度的成功。生物医学领域,众包平台“Foldit”使用游戏化技术(如来自视频游戏产业的界面思想能吸引注意和促进互动)激励一般大众“解决科学难题。难题与折叠蛋白质有关,这是一项很难通过自动化程序进行推演的任务,但有兴趣帮生物化学家解决现实世界难题的外行公众有可能解决”(Parslow, 2013)。另一个表现是“Patients Like Me”网站的存在,这些网站向患有各种疾病的病人提供了一个和其他遭受相同疾病的病人互动的机会。然后,同样出于利他目的,他们在一种“数据利他主义”行为中,主动提供自己的情况和治疗的数据。最后,食品和药品管理局的“Mini-Sentinel”试点计划也代表一种努力:使用电子分布式数据收集技术,对医疗产品,包括药物、设备和生物制剂等的安全性进行售后监测数据统计(Platt et al., 2012)。

十三 总结

在这篇文章中,我们研究了快速演变的电子分布式工作环境对科学家在一系列问题上进行合作的意义,这些问题既有来自物理海洋学和生物医学领域的,也有来自社会学和行为科学领域的。在此过程中,我们试图探索重新调整科学事业基本机制的可行性,使其变得比它们在以往任何时候更透明和累积,变得更综合和凝聚,变得更快速、相关和灵敏。我们认识到,正如总统委员会的科学和技术顾问们所做的那样,这些机遇是由信息科学家通过艰苦工作促成的,他们努力实现“数字化未来”,给所有经济领域带来好处。我们也认识到,像总统委员会做的,这是一种社会技术努力;在其核心部分,是关于一个“社会计算”的新时代。社会科学不仅从中获益,也必须是其中的一部分。

参考文献

Abernethy, Amy P., Lynn M. Etheredge, Patricia A. Ganz, Paul Wallace, Robert R. German, Chalapathy Neti, Peter B. Bach, and Sharon B. Murphy.2010. “Rapid-learning System for Cancer Care. ”Journal of Clinical Oncology 28(27):4268-4274.

Atkins, Daniel E., Kelvin K. Droegemeier, Stuart I. Feldman, Hector Garcia-Molina, Michael Klein, David G. Messerschmitt, Paul Messina, Jeremiah P. Ostriker, and Margaret H. Wright.2003. “Revolutionizing Science and Engineering Through Engineering. ”Report of the National Science Foundation Blue-Ribbon Advisory Panel on Cyberinfrastructure. Arlington, VA: National Science Foundation.

Baker, Timothy B., Richard M. McFall, and Varda Shoham.2009. “Current Status and Future Prospects of Clinical Psychology: Toward a Scientifically Principled Approach to Mental and Behavioral Health Care. ”Psychological Science in the Public Interest 9(2):67-103.

Bauer, Daniel J., and Andrea M. Hussong.2009. “Psychometric Approaches for Developing Commensurate Measures Across Independent Studies: Traditional and New Models. ”Psychological Methods 14(2): 101-125.

Castro, Felipe G., Joshua G. Kellison, Stephen J. Boyd, and Albert Kopak.2010. “A Methodology for Conducting Integrative Mixed Methods Research and Data Analyses. ”Journal of Mixed Methods Research 4(4):342-360.

Chen, Connie, David Haddad, Joshua Selsky, Julia E. Hoffman, Richard L. Kravitz, Deborah E. Estrin, and Ida Sim.2012. “Making Sense of Mobile Health Data: An Open Architecture to Improve Individual and Population-level Health. ”Journal of Medical Internet Research 14(4):112.

Choi, Seung W., Benjamin Schalet, Karon F. Cook, and David Cella.2014.“Establishing a Common Metric for Depressive Symptoms: Linking the BDI-II, CES-D, and PHQ-9 to PROMIS Depression. ”Psychological Assessment 26(2):513-527.

Collins, Francis S.2010. “Research Agenda. Opportunities for Research and NIH. ”Science 327(5961):36-37.

Collins, Linda M., Susan A. Murphy, and Victor Strecher.2007. “The Multiphase Optimization Strategy(MOST)and the Sequential Multiple Assignment Randomized Trial(SMART): New Methods for More Potent eHealth Interventions. ”American Journal of Preventive Medicine 32(5 Suppl.): S112-118.

Cooper, Harris M., Larry V. Hedges, and Jeff C. Valentine.2009. The Handbook of Research Synthesis and Meta-analysis.2nd edtion. New York, NY: Russell Sage Foundation.

Cooper, Harris M., and E. A. Patall.2009. “The Relative Benefits of Meta-analysis Conducted with Individual Participant Data Versus Aggregated Data. ”Psychological Methods 14(2):165-176.

Crane, Diana.1972. Invisible Colleges: Diffusion of Knowledge in Scientific Communities. Chicago, IL: University of Chicago Press.

Cumming, Geoff.2014. “There's Life Beyond.05: Embracing the New Statistics. ”APS Observer 27(3):19-21.

Curran, Patrick J., and andrea M. Hussong.2009. “Integrative Data Analysis: The Simultaneous Analysis of Multiple Data Sets. ”Psychological Methods 14(2):81-100.

Etheredge, Lynn M.2007. “A Rapid-learning Health System. ”Health AffairsMillwood)26(2): W107-18.

Finney Rutten, Lila J., Terisa Davis, Ellen B. Beckjord, Kelly D. Blake, Richard P. Moser, and Bradford W. Hesse.2012. “Picking Up the Pace: Changes in Method and Frame for the Health Information National Trends Survey(2011-2014). ”Journal of Health Communication 17(7):979-989.

Finney Rutten, Lila J., Bradford W. Hesse, Richard P. Moser, and Gary L. Kreps.2010. Building the Evidence Base in Cancer Communication. Cresskill, NJ: Hampton Press.

Gaglio, Bridget, Jo Ann Shoup, and Russell E. Glasgow.2013. “The RE-AIM Framework:A Systematic Review of Use Over Time. ”American Journal of Public Health 103(6):e38-e46.

Ginexi, Elizabeth. M., William Riley, Audie A. Atienza, and Patricia L. Mabry.2014.“The Promise of Intensive Longitudinal Data Capture for Behavioral Health Research. ”Nicotine Tobacco Research 16(Suppl.2): S73-S75.

Glass, Gene V.1976. “Primary, Secondary, and Meta-analysis. ”Educational Researcher 5: 3-8.

Hesse, Bradford W., Mary O' Connell, Erik M. Augustson, Wen-Ying Chou, Abdul R. Shaikh, and Lila J. Finney Rutten.2011. “Realizing the Promise of Web 2.0: Engaging Community Intelligence. ”Journal of Health Communication 16(Suppl.1): 10-31.

Hesse, Bradford W., Lee Sproull, Sara B. Kiesler, and John P. Walsh.1993. “Returns to Science: Computer Networks in Oceanography. ”Communication of the ACM 36(8):90-101.

Hood, Leroy, and Mauricio Flores.2012. “A Personal View on Systems Medicine and the Emergence of Proactive P4 Medicine: Predictive, Preventive, Personalized and Participatory. ”New Biotechnology 29(6):613-624.

Ioannidis, John P. A., Marcus R. Munafo, Paulo Fusar-Poli, Brian A. Nosek, and Sean P. David.2014. “Publication and Other Reporting Biases in Cognitive Sciences: Detection, Prevalence, and Prevention. ”Trends in Cognitive Science 18(5):235-241.

Ioannidis, John P. A., Brian A. Nosek, and Elizabeth Iorns.2012. “Reproducibility Concerns. ”Nature Medicine 18(12):1736-1737.

Kramer, Adam D., Jamie E. Guillory, and Jeffrey T. Hancock.2014. “Experimental Evidence of Massivescale Emotional Contagion Through Social Networks. ”Proceedings of the National Academy of Sciences 111(24):8788-8790.

McGuinness, Deborah L., Abdul R. Shaikh, Richard P. Moser, Bradford W. Hesse, Glen D. Morgan, Mike Jacobs, Yvonne Hunt, Zaria Tatalovich, Gordon Willis, and Kelly Blake, et al.2011. “A Semantically Enabled Community Health Portal for Cancer Prevention and Control. ”Paper Presented at the Third International Web Science Conference, Koblenz, Germany.

Mearian, Lucas.2012. “Wearable Technology Market to Exceed $6B by 2016. ”Computerworld 8(11): 114-130.

Min, Hua, Riki Ohira, Mindy A. Collins, Jessica Bondy, Nancy E. Avis, Olga Tchuvatkina, Paul K. Courtney, Richard P. Moser, Abdul R. Shaikh, and Bradford W. Hesse, et al.2013. “Sharing Behavioral Data Through a Grid Infrastructure Using Data Standards. ”Journal of American Medical Information Association 21(4):642-649.

Moser, Richard P., Bradford W. Hesse, Abdul R. Shaikh, Paul Courtney, Glen Morgan, Erik Augustson, Sarah Kobrin, Kerry Y. Levin, Cynthia Helba, and David Garner, et al.2011. “Grid-enabled Measures: Using Science 2.0 to Standardize Measures and Share Data. ”American Journal of Preventive Medicine 40(5 Suppl.2): S134-S143.

Moser, Richard P., Sana Naveed, David Cantor, Kelly D. Blake, Lila J. Finney Rutten, Susana G. Ramirez, Benmei Liu, and Mandi Yu.2013. “Integrative Analytic Methods Using Population-level Cross-sectional Data. ”Bethesda, MD: National Institutes of Health.

National Science Foundation.2007. “Cyberinfrastrure Vision for 21st Century Discovery. ”Arlington, VA: National Science Foundation.

Nelson, David E., Gary L. Kreps, Bradford W. Hesse, Robert T. Croyle, Gordon B. Willis, Neeraj K. Arora, Barbara K. Rimer, Kasisomayajula Viswanath, Neil Weinstein, and Sarah Alden.2004. “The Health Information National Trends Survey(HINTS):Development, Design, and Dissemination. ”Journal of Health Communication 9(5):443-460.

Neumann, Juliane, Jose Bras, Emma Deas, Sean S. O'Sullivan, Laura Parkkinen, Robin H. Lachmann, Abi Li, Janice Holton, Rita Guerreiro, and Reema Paudel, et al.2009.“Glucocerebrosidase Mutations in Clinical and Pathologically Proven Parkinson's Disease. ”Brain 132(Pt.7):1783-1794.

Nielsen, Michael A.2012. Reinventing Discovery: The New Era of Networked Science. Princeton, NJ: Princeton University Press.

Nosek, Brian A., and Yoav Bar-Anan.2012. “Scientific Utopia: I. Opening Scientific Communication. ”Psychological Inquiry: An International Journal for the Advancement of Psychological Theory 23(3):217-243.

Ohno-Machado, Lucila.2014. “NIH's Big Data to Knowledge Initiative and the Advancement of Biomedical Informatics. ”Journal of American Medical Information Association, 21(2). doi: 10.1136/amiajnl-2014-002666.

Parslow, Graham R.2013. “Commentary: Crowdsourcing, Foldit, and Scientific Discovery Games. ”Biochemistry and Molecular Biology Education 41(2):116-117.

Platt, Richard, Ryan M. Carnahan, Jeffrey S. Brown, Elizabeth Chrischilles, Lesley H. Curtis, Sean Hennessy, Jennifer C. Nelson, Judith A. Racoosin, Melissa Robb, and Sebastian Schneeweiss, et al.2012. “The U. S. Food and Drug Administration's Mini-Sentinel Program: Status and Direction. ”Pharmacoepidemioly and Drug Safety 21(Suppl.1):1-8.

President's Council of Advisors on Science and Technology.2010. Designing a Digital Future: Federally Funded Research and Development in Networking and Information Technology. Washington, DC: Executive Office of the President of the United States.

Riley, William T., Russell E. Glasgow, Lynn M. Etheredge, and Amy P. Abernethy. 2013. “Rapid, Responsive, Relevant(R3)Research: A Call for a Rapid Learning Health Research Enterprise. ”Clinical and Translational Medicine 2(1). doi: 10.1186/2001-1326-2-10.

Riley, William T., Daniel E. Rivera, Audie A. Atienza, Wendy Nilsen, Susannah M. Allison, and Robin Mermelstein.2011. “Health Behavior Models in the Age of Mobile Interventions: Are Our Theories Up to the Task? ”Translational Behavioral Medicine 1(1):53-71.

Robert Wood Johnson Foundation.2014. Health Information Technology in the United States:Progress and Challenges Ahead, 2014. Princeton, NJ: Robert Wood Johnson Foundation.

Rosling, Hans, and Zhongxing Zhang.2011. “Health Advocacy with Gapminder Animated Statistics. ”Journal of Epidemiology and Global Health 1(1):11-14.

Shaikh, Abdul R., Atul J. Butte, Sheri D. Schully, William S. Dalton, Muin J. Khoury, and Bradford W. Hesse.2014. “Collaborative Biomedicine in the Age of Big Data: The Case of Cancer. ”Journal of Medical Internet Research,16(4). doi: 10.2196/jmir.2496.

Simonsohn, Uri, Leif D. Nelson, and Joseph P. Simmons.2014. “P-curve: A Key to the File-drawer. ”Journal of Experimental Psychology: General 143(2):534-547.

Sproull, Lee, and Sara Kiesler.1991. Connections: New Ways of Working in the Networked Organization. Cambridge, MA: MIT Press.

Thacker, Stephen B., Judith R. Qualters, and Lisa M. Lee.2012. “Public Health Surveillance in the United States: Evolution and Challenges. ”Morbidity and Mortality Weekly Report 61(3):3-9.

Timms, Kevin P., Daniel E. Rivera, Linda M. Collins, and Megan E. Piper.2013.“Control Systems Engineering for Understanding and Optimizing Smoking Cessation Interventions. ”Proceedings of the American Control Conference 2013: 1964-1969.

Topol, Eric J.2012. The Creative Destruction of Medicine: How the Digital Revolution Will Create Better Health Care. New York: Basic Books.

Tortolero-Luna, Guillermo, Lila J. Finney Rutten, Bradford W. Hesse, Terisa Davis, Julie Kornfeld, Marta Sancheza, Richard P. Moser, Ana Patricia Ortiza, Ruby A. Serrano-Rodríguez, and Kia L. Davis.2010. “Health and Cancer Information Seeking Practices and Preferences in Puerto Rico: Creating an Evidence Base for Cancer Communication Efforts. ”Journal of Health Communication 15(Suppl.3):30-45.

U. S. Institute of Medicine.2012. Public Engagement and Clinical Trials: New Models and Disruptive Technologies: Workshop Summary. Washington, DC: National Academies Press.

Wild, Christopher P.2005. “Complementing the Genome with an ‘Exposome': The Outstanding Challenge of Environmental Exposure Measurement in Molecular Epidemiology. ”Cancer Epidemiology Biomarkers and Prevention 14(8):1847-1850.

Winerman, Lea.2013. “Interesting Results: Can They Be Replicated? ”Monitor On Psychology 44: 38-41.

责任编辑:彭铭刚