在线健康社区的知识抽取与用户行为研究
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第一节 研究背景

随着网络的快速发展和社会的进步,人们更加注重健康,而传统的医患沟通模式使得稀缺的医疗资源很难发挥最大作用。在线健康社区的出现,能最大限度地整合和利用现有的医疗健康资源,提高了健康服务水平和质量。在线健康社区整合医院、医生、健康咨询、医疗保健等多种服务,实现了线上线下方便地进行信息交换和沟通,并结合线下共同为患者提供健康管理、疾病管理、远程医疗、远程监护、家庭保健、通过传感器进行行为干预、信息发布、健康咨询、健康教育、电子挂号、心理辅导等多种医疗保健服务(吕英杰,2013)。

互联网深入医疗健康领域,给互联网医疗注入了新的活力,患者获得健康信息的渠道也发生了巨大改变。据统计,2019年,在我国,互联网医疗的用户规模已达到4.66亿人,网上预约挂号、在线健康平台使用率最高网经社电子商务研究中心.2019年度中国互联网医疗市场数据报告[EB/OL].https://www.100ec.cn/zt/2019hlwylbg/.。统计数据显示,有63%的美国网络用户在网上查找医疗健康信息,并且有48%的互联网用户在去医院就医前,通常会在互联网上查找相关的健康信息(纳尔逊,2005)。在过去十年间,健康2.0技术的流行,使得在线健康社区给患者提供了获得诊疗信息、医学知识和情感知识的途径。有调查显示,2012年有72%的美国用户在互联网上寻找相关的健康信息(杨洋,2015)。在线健康社区已经深入到人们的生活中。

国务院在2015年发布的第50号文件《促进大数据发展行动纲要》中指出,健康大数据的意义在于:“未来分析医疗健康大数据,对于改善医疗状况,帮助人们进行疾病管理,获得健康知识,改善健康状况,方便人们交流信息……提高生活质量具有重大意义。”2016年,国务院发布的第47号文件《国务院办公厅关于促进和规范健康医疗大数据应用发展的指导意见》中指出,生命周期健康管理的意义在于:“发展智慧健康医疗便民惠民服务。发挥优质医疗资源的引领作用……整合线上线下资源……大力推进互联网健康咨询、网上预约分诊……探索互联网健康医疗服务模式。……推动覆盖全生命周期的预防、治疗、康复和健康管理一体化电子健康服务。”健康大数据的广泛产生场景有:社区居民的健康档案数据、社区居民医疗保险数据、社区健康屋(智能血压仪、血糖仪实验数据)、智能健康家居设备(可穿戴设备)以及运动手环、面部表情识别仪和脑电仪数据,医疗期刊文献数据、社交网站、网络论坛等媒体数据,气象和环境数据、电信联通大数据等中共中央 国务院印发《“健康中国2030”规划纲要》[EB/OL].https://www.gov.cn/zhengce/2016-10/25/content_5124174.htm.

信息技术的快速发展以及虚拟社区的流行,使得越来越多的用户开始使用在线健康社区寻求情感支持,以及查找健康信息来帮助治疗他们的疾病。针对和自己病情相关的话题,用户可以从其他人的帖子以及临床专家的意见中受益(林天春、徐建生、程海林,2015)。通过人工智能从社交媒体中提取知识的应用最近引起了生物医学和健康信息学界的极大兴趣。公共在线论坛如糖尿病论坛(刘旭、孙敏、李娟,2018)、乳腺癌论坛(张苏、格拉夫、斯科拉,2017)、CSN网络(邱波,2011)、Facebook组(班德、希门尼斯—马罗昆、贾达德,2011)等网络健康社区在用户中越来越流行。这些健康社区包含了许多用户产生的数据,其中也包含了用户的重要信息,这些在线健康社区的用户产生的数据正在成为当前研究的肥沃土壤。通过人工智能方法分析这些非结构化数据,从中提取医疗健康方面知识,正在成为一个热点研究领域。作为一种在线社交平台,对于当前医患问答社区的研究有以下现实和理论背景:

(1)在线健康社区关于疾病诊断的知识抽取研究。从在线健康社区海量的数据中抽取医患问答中与疾病相关的症状、检查之间的关系,能够增加健康知识的获取途径,获取这些知识能够帮助用户在就诊前知道更多的相关医学信息,同时能够提高医疗就诊的效率,补充和完善现有的疾病、症状和检查的知识库,对于辅助医生进行诊断和制定诊疗决策也具有重要意义。

(2)关于疾病用药健康管理的知识抽取研究。从医患问答健康社区中抽取疾病、药物和药物效果方面的知识,并基于这些知识对用户提问的时间序列数据进行疾病用药健康管理研究。其中,生命周期的健康管理正在成为一个越来越热门的学术领域。随着人们生活水平的提高,不同疾病、不同年龄阶段、不同的严重程度、不同类别(用药、运动、饮食、环境)的健康管理,引起了人们的高度重视。本书进行疾病用药的生命周期健康管理研究,分析多用户疾病用药不同周期的健康管理,获得不同人群的用药效果,其结果对于其他具有类似病情的用户具有重要的参考价值,同时其分析结果可以辅助医生诊断,其中获得的多范围多病历数据具有重要的应用价值。

(3)基于在线健康社区的知识抽取和知识图谱构建正在成为健康知识领域的一个重要组成部分。医患问答健康社区中留下的海量问答数据,数据规模过于庞大,引起了信息泛滥,于是人们在知识抽取的基础上,基于语义网络进行智能语义分析。知识图谱技术的出现就是专门解决这一问题的。在线健康社区中存在疾病百科数据,包含疾病的症状、适合做的检查、常用的药物等,通过对这些半结构化的信息进行处理,可以构建一个结构化的知识图谱原型。对于医患问答健康社区中的问答数据,进行疾病诊断和疾病用药管理的知识抽取,获得疾病、症状、检查、药物和药物效果之间的关系,在将知识抽取的结果与疾病百科数据融合后,可以构建一个基于在线健康社区的知识图谱,进一步发现疾病、症状和检查之间的关系,或者疾病、药物和药物效果之间的关系,进而基于用户提问的时间序列数据进行疾病进展演化的相关研究。从在线健康社区中抽取与疾病相关的多种关系,作为知识图谱构建的一种来源渠道,对于线下医疗知识的补充,具有非常现实的指导意义,可以使其他具有类似病情的患者从中获取更多医学知识,对于其去医院就医前缓解紧张情绪和信息不对称的压力具有重要作用。同时,医疗健康领域知识图谱正在成为一个越来越热门的研究问题,构建一个基于在线健康社区数据的知识图谱,不断补充、完善和更新现有医学知识库,系统化地组织和管理医学知识,对于帮助病人进行健康管理,提供健康管理方面的借鉴等具有重要的应用价值。

(4)医患问答健康社区中的用户对健康信息的评估以及对健康知识的采纳情况得到了广泛关注。在线健康社区作为医疗健康大数据的重要组成部分,是一种有效的知识共享和交换平台,正逐渐成为患者和医生之间知识和信息传递、活跃医患关系和拓展医患沟通渠道、提升医疗服务质量和管理效率的重要工具(奥马尔、纳兹里、阿布,2009)。医患问答健康社区中存在海量的用户提问和相关回复,哪些因素影响了用户的知识采纳行为,以及哪些意见最适合用户成为学者们关注的问题。对于开放型社区如百度问答上影响用户采纳行为的因素已有学者进行实证分析(金家华、闫相斌、李明,2016)。深入分析在线健康社区用户对健康信息采纳的影响因素,深入挖掘用户的知识采纳行为对于个人和组织来说都具有重要影响,对于在线健康社区的发展具有指导意义,同时也对在线健康社区如何更好地服务用户提出了挑战,从而要求在线健康社区采取策略提升医生的活跃程度、服务能力等。

(5)在线健康社区的信息有用性研究。医患问答健康社区有数量庞大的问答信息,通常在一个用户提出问题后,有多个医生进行回复,其中有的医生回复被采纳,有的医生回复被点赞,回复被采纳和点赞代表了一定程度的信息有用性。但是没有被采纳和点赞的医生回复也不代表就一定没用。因此,识别医患问答健康社区中医生回复的有用性以及最好的回复成为摆在研究者面前的问题。这个问题的解决,可以使得在线健康平台重新考虑其知识管理策略,从而更好地满足用户需求。同时,对于在线健康平台内的信息检索和知识推荐,除了可以考虑相关的信息外,还应该考虑更有用的信息。此外,对在线健康社区的信息有用性研究结果还可以被应用到其他领域,对于未来的知识工程,例如从候选答案中选择最好的答案,以及自动问答聊天机器人的研究等都具有借鉴意义。

本书的研究中提到了用户知识行为,是因为在线健康社区是一个医生进行知识共享的平台,用户提出一个问题,多个医生会对用户的问题进行回复,用户采纳医生回复的行为是一种用户知识采纳行为;社区中还有用户点赞医生回复的行为,也是用户的知识行为。用户对医生回复进行采纳或点赞,是用户行为改变和知识获取的过程,因此我们称其为用户知识行为。

在线健康社区形式多种多样,但参与的人群主要有患者、患者家属、医生以及相关医护人员,参与的形式主要有医患论坛、与医疗健康相关的微博、病友论坛等。医患论坛主要是患者及其家属向医生提问,医生进行相关诊疗解答。健康博客主要是博主(病人、家属或者相关医护人员)发表的关于治疗经历或相关文章以及其他评论等。病友论坛是患者或家属进行疾病交流、发挥情感支持功能的一个平台。本书的研究基于医患问答在线健康社区的数据,进行疾病诊断、疾病用药管理的知识抽取,以及融合疾病百科数据构建一个基于在线健康社区的知识图谱原型,可以补充和完善现有知识库;还研究了用户采纳一个自己最满意的医生回复的知识采纳行为;最后研究了基于用户的采纳和点赞的知识行为,以识别在线健康社区中医生回复的有用性。