人工智能与中医信息技术导论(全国中医药行业高等教育“十四五”创新教材)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第二节 人工智能技术与应用

一、自然语言处理

(一)自然语言处理的概念

自然语言是人类思维的载体和交流的基本工具,也是人类区别于动物的根本标志,更是人类智能发展的外在体现形式之一。本节讨论的主题仅针对自然语言的文本符号,而非语音信号。自然语言处理(natural language processing,NLP)主要研究用计算机理解和生成自然语言的各种理论和方法,属于人工智能领域的一个重要甚至核心分支,是计算机科学与语言学的交叉学科,又常被称为计算语言学(computational linguistics,CL)。

(二)自然语言处理的任务

1.自然语言处理的任务层级 自然语言处理涉及的任务众多。按照从低层到高层的方式,可以分为资源建设、基础任务、应用任务和应用系统四大类。资源建设主要包括两大类任务,即语言学知识库建设和语料库资源建设。所谓语言学知识库,一般包括词典、规则库等。语料库资源指的是面向某一自然语言处理任务所标注的数据。基础任务包括分词、词性标注、句法分析和语义分析等,这些任务往往不直接面向终端用户,除了语言学上的研究价值,它们主要为上层应用任务提供所需的特征。应用任务包括信息抽取、情感分析、问答系统、机器翻译和对话系统等,它们往往可以作为产品直接被终端用户使用。应用系统特指自然语言处理技术在某一领域的综合应用,又被称为NLP+,即自然语言处理技术加上特定的应用领域。在智慧医疗领域,自然语言处理技术可以帮助医生跟踪最新的医疗文献,帮助患者进行简单的自我诊断等。

2.自然语言处理的任务类别 虽然自然语言处理任务多种多样,刚涉足该领域的人可能会觉得眼花缭乱、无从下手,但是这些复杂的任务基本上都可以归纳为五类问题。

(1)回归问题 即将输入文本映射为一个连续的数值,如对作文的打分、对案件刑期或罚款金额的预测等。

(2)分类问题 即判断一个输入的文本所属的类别,如在垃圾邮件识别任务中,可以将一封邮件分为正常和垃圾两类;在情感分析中,可以将用户的情感分为褒义、贬义和中性三类。

(3)匹配问题 即判断两个输入文本之间的关系,如它们之间是复述或非复述两类关系;或者蕴含、矛盾和无关三类关系。另外,识别两个输入文本之间的相似性(0到1的数值)也属于匹配问题。

(4)解析问题 特指对文本中的词语进行标注或识别词语之间的关系,典型的解析问题包括词性标注、句法分析等,另外还有很多问题,如分词、命名实体识别等也可以转化为解析问题。

(5)生成问题 特指根据输入(可以是文本,也可以是图片、表格等其他类型数据)生成一段自然语言,如机器翻译、文本摘要、图像描述生成等都是典型的文本生成类任务。

(三)自然语言处理在中医学中的应用

1.关联规则挖掘 关联规则是数据挖掘的常用方法,包括简单关联、时序关联、数量关联、因果关联等,核心算法是以支持度和置信度作为判断标准,确定是否存在关联关系。在中医学中,关联规则可应用于方剂的关联性挖掘,将方剂中常用的搭配药物分析出来,对中药的配方循证起到指导作用。关联规则也可用于中医医案的关联规则挖掘,如哮喘医案的病因、病位、证候与四诊信息的关联关系,病因、病位、证候、四诊信息与用药的关联关系。

2.聚类分析 聚类分析应用于中医学,应当与中医自身的性质相契合。学者们利用聚类分析方法对中医文本挖掘进行研究,具体为症状分类和药物评价。

(1)对症状的聚类 症状分类的语料多来自中医的诊断手稿,常见于从某一种特殊的疾病入手,利用诊断手稿对症状聚类,得出该疾病的表型特点。

(2)药物评价聚类 药物评价方向主要是利用聚类方法将类似性状或相同功效的药物聚在一起,应用中医药理论总结知识。如对中药按照功效聚类,定义药物之间的相似性。

3.信息抽取 中医文献大都是以自然语言的方式描述的,而且纷繁复杂,医疗记录中蕴含着症状、诊断信息,医书中蕴含方剂、病理信息,药物典籍中蕴含组分、制作方法信息等,如果采用人工方法提取这些信息,耗费的人力、物力难以估量。然而,由于中医术语名词都包含在描述语言中,而且文献描述语言简练、逻辑简单,因此可以考虑使用信息抽取算法来自动获取结构化信息。近年来,隐马尔可夫模型(hidden Markov model,HMM)在信息抽取领域中被广泛应用。有研究利用HMM对中医古籍进行了信息抽取,将症状、病因、脉象和方剂看作模型的4种状态,然后利用命名实体识别结合人工标注的方法从文献中提取相应的名词,最终计算出HMM相关参数,达到了信息抽取的目的。