人工智能:语言智能处理
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.3 基于神经网络的自然语言处理

伴随着人工智能发展历程的起起落落,自然语言处理在长达半个多世纪的发展过程中曾经历了以基于规则方法为主的理性主义与基于统计方法为主的经验主义之争,现阶段已形成了理性主义方法与经验主义技术相辅相成、互相融合发展的趋势。近年来,随着深度学习热潮的到来,强大的学习机制在一定程度上缓解了原有自然语言处理方法的数据稀疏问题,吸引了众多研究者的关注,自然语言智能处理开始进入基于深度学习的时代。图1-2概要展示了几十年来,自然语言处理的发展历程。

img

图1-2 自然语言处理的发展历程

神经网络源自模拟类脑计算,是机器学习的重要分支,可以为语言智能处理提供强大的学习能力。神经网络模型以其自身的优越性,为语言智能处理的很多核心任务和领域带来革新性的解决方案,广泛应用于诸多任务场景,极大地促进了自然语言处理的发展,在算力、数据、技术等各种要素的支持下,语言智能处理迎来了蓬勃发展的黄金时代,基于深度学习的语言智能处理的研究取得了越来越多的可喜进展。

从图1-3可以看到,从2001年到2018年,基于神经网络的自然语言处理出现了包括神经网络语言模型、词向量、注意力机制和预训练语言模型等一系列具有重要影响力和代表性的里程碑式的成果。这些成果深刻影响着语言智能处理的研究方法和未来的发展方向,极大地推动了语言智能处理技术的革新和实用系统的落地。

img

图1-3 基于神经网络自然语言处理的重要里程碑成果

下面以语言智能处理领域的部分重要会议相关信息为引,一窥本领域的技术发展趋势。

语言智能处理领域的重要国际会议包括国际计算语言学大会(ACL)、自然语言处理实证方法大会(EMNLP)、欧洲计算语言学大会(EACL)和北美计算语言学大会(NAACL)等。从2012年到2017年,在这几个重要会议录用的论文中,与深度学习主题相关论文的占比呈显著上升态势,2012年占比为30%~40%,2017年占比上升为60%~70%。

近几年,基于深度学习的自然语言智能处理论文的增速迅猛,体现了深度学习在该领域的“热度”。

以NLP领域顶级的ACL大会为例,从1999年到2019年,ACL大会每年的投稿数量、审稿人数量和领域主席的数量一直呈现增长趋势[1]

1999年到2007年,这段时间的数据变化比较平缓,投稿数量由293篇上升到588篇,审稿人数由210人上升到332人,领域主席由6人上升到10人。

2007年到2012年,这段时间的数据变化开始加快,投稿数量由588篇上升到940篇,审稿人数由332人上升到665人,领域主席由10人上升到20人。

2012年到2019年,这段时间的数据剧烈上升,投稿数量由940篇上升到2906篇,审稿人数由665人上升到2281人,领域主席由20人上升到230人。

特别是近年来,投稿数量激增,2019年的投稿数量几乎是2018年的两倍。

从投稿领域来看,ACL大会的投稿范围涉及理论和应用等20余个研究方向,每个类别几乎都涉及了深度学习和神经网络模型,反映了深度学习方法在自然语言处理中的重要性。这些研究在一定程度上代表了目前语言智能处理的热门研究方向和前沿技术发展态势。

在ACL 2020大会上,投稿的研究主题包括[2]

●机器学习;

●对话和交互系统;

●机器翻译;

●信息抽取;

●自然语言处理应用;

●文本生成;

●情感分析;

●自动问答;

●资源及评价;

●自动摘要;

●社交科学和媒体计算;

●语义:句子级别;

●NLP模型分析和可解释性;

●语义:词汇级别;

●信息检索和文本挖掘;

●语义:文本推断和其他语义领域;

●语言融入视觉、机器人学及其他;

●话题模型;

●认知模式和心理语言学;

●语音和多模态;

●句法:标注、词块、语法分析;

●交叉学科;

●话语和语用学;

●音素学、形态学、分词;

●伦理及NLP。