自然语言处理应用与实战
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第1部分 自然语言处理基础

自然语言处理(Natural Language Processing,NLP)是计算机科学领域与人工智能领域的一个重要方向。它主要研究人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门包含计算机科学、数学和语言学的综合性学科。简单来说,自然语言处理就是机器与人之间的沟通桥梁,以实现人机交流。

自然语言处理作为计算机与人之间的沟通桥梁,它包含两大核心任务:一是计算机能够自动或半自动地理解自然语言文本,懂得人的意图;二是计算机能自动处理、挖掘和有效利用海量语言文本,满足不同用户的各种需求,实现个性化信息服务。本部分主要讲述自然语言处理的基础,包括第1~3章,主要包括以下几部分内容。

(1)第1章为自然语言处理综述。首先介绍自然语言处理的基本概念、发展历程、研究内容和挑战与发展趋势。其次介绍文本处理技能,包括字符串处理和中文分词,重点介绍如何使用jieba实现中文分词。最后介绍文本数据处理,包括文本操作基础、文本数据统计和词云生成,重点内容是使用wordcloud实现词云生成。

(2)第2章为词向量技术。首先介绍词向量,重点是词向量表示的问题。其次介绍词向量离散表示,包括独热编码、词袋模型和词频-逆文本频率等。最后介绍词向量分布表示,包括神经网络语言模型、Word2vec模型、中文词向量训练。

(3)第3章为关键词提取。首先介绍关键词提取技术和算法,包括关键词提取基础、基于TF-IDF的关键词提取、基于TextRank的关键词提取、基于Word2vec词聚类的关键词提取。其次介绍关键词提取的实现,包括案例介绍、关键词提取综合案例。