上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
3.5 小结
• 本章讲述了如何使用Python爬虫获取新闻类型的数据。数据获取是大数据系统的第一步。获取结构化数据,即从关系型数据库中导入数据,可以通过Sqoop工具实现;非结构化数据,可以通过爬虫抓取。网络爬虫可以用各种高级语言实现,目前流行的是采用Python。
• requests模块可用来模拟浏览器以获取网页数据,可以保存Cookie和Session;解析HTML数据使用Beautiful Soup解析器。获取数据虽然容易,但维护的工作量会一直存在。
• 使用Fiddler等抓包工具可以方便地找到数据提交的地址。如果要抓取的是App等中的数据,则得到的基本上就是JSON格式的数据。这时在程序中利用高级语言直接转换即可使用,但要注意字符集编码。
• 中文分词使用jieba模块既方便又准确。分词和提取关键字使用不同的方法。可以使用自定义词典和停用词典来让提取效果更加符合实际场景。jieba模块是Python在自然语言处理领域中的一个很好实践。有关如何实现自然语言分词的原理和应用,可以参看本书作者之一吴茂贵等著的《Python深度学习:基于TensorFlow》(机械工业出版社出版)一书。