3.4 使用Python提取文章的关键字_自己动手做大数据系统（第2版）-QQ阅读男生武侠网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

3.4　使用Python提取文章的关键字

3.4.1　中文分词和关键字的提取

文章抓取后要进行分类处理，虽然会使用4个关键字进行检索，但每篇文章都讲了什么内容，哪些内容是重要的呢？我们希望通过自动化的方式进行归纳和抽取，这时需要用到的便是关键字的提取技术。

关键字的提取就是利用技术手段归纳出一篇文档中和意义最相关的一组词，这些词能够准确地反映文档的含义。提取关键字可以用在文本聚类、分类、自动生成摘要等多个场景。提取关键字的第一步就是进行分词，把一句话切分成多个词语（短语）。使用计算机提取关键字是机器学习领域的一个研究课题。目前很多高级语言都有分词和关键字提取模块。Python中使用得最多的是jieba分词模块。

3.4.2　Python的中文分词模块jieba

jieba分词支持跨平台使用，可使用pip install jieba安装。其使用方法也非常简单。首先看一下分词的效果：

jieba.cut()用于实现分词功能，其有3个参数：

1）第1个参数text（文本）指的是需要分词的字符串，需要为Unicode或UTF-8编码格式。如果要对一篇文章进行分词，则可以利用file.read方法读取文件的内容以形成一个字符串。

2）第2个参数是布尔类型的参数：取值为False代表精确模式，取值为True代表全模式。在精确模式下会把所有能组合成词汇的字全部切出来，速度快，但可能出现歧义；在全模式下会尽量准确地切分，适合于进行文本分析。

3）第3个参数为是否启用HMM模型。如果一个词是没有在词典中出现过的新词，则可以使用基于汉字构词的HMM模型进行分词。

cut()返回的是可迭代的生成器，可以用for循环遍历其中切分好的词。如果想返回列表，则可以使用和cut()参数相同的lcut()。

第9行代码中的cut_for_search()为细粒度分词。如果分词后要放在搜索引擎中去检索，则可以用它（因为它返回的是适用于搜索引擎构建倒排序索引的分词结果）。

上面的分词结果还有几个问题：“罗泾小公园”中的罗泾是一个地名，被切分开了，如何让jieba知道它是一个整词？另外，切分用于提取关键字，结果中的“和/在/的/得/啊”等没有什么意义的词语能不能去掉？

3.4.3　使用自定义词典和停用词

jieba分词支持用户自定义词典和停用词库，把上面的代码稍加调整：

第3行的jieba.load_userdict()在分词前加载了用户词典。参数userdict.txt是一个采用UTF-8编码格式的文本文件，每行一个词语。e:\\study\\userdict.txt 文本中包含了“罗泾”这个地名，因此在分词时其不会被切开。在实际应用中，词库中包含的是地名、人名或某个行业的专业词汇，用户可以在网上下载一些免费的输入法词库，下载相关的文件，转成txt格式来使用。各词库的特点不一，大家要找适合自己项目的。

如果要去掉分词中的某些虚词，则可以使用筛选过滤的方法：