第二部分　离线大数据处理

特别声明

本书仅限于讨论爬虫技术，书中展示的案例只是为了读者更好地理解抓取的思路和操作，达到防范信息泄露、保护信息安全的目的，请勿用于非法用途！严禁利用本书所提到的技术进行非法抓取，否则后果自负，本人和出版商不承担任何责任。

第一部分主要讲解了大数据处理所涉及的各种组件及环境的安装，相当于建造房屋的采购备料阶段——把钢筋、水泥、砂石等都准备到位。第四部分会介绍如何“打地基”，而第二、三部分会讲述如何一步步地把大楼造出来。大数据处理场景从大的方面可以分为离线数据和流式数据。这两个环境下所使用的组件侧重点不同。本书将以一个相对完整的案例，构造出各种组件如何协同工作的使用场景。

笔者在给北方某电信集团进行企业培训时，客户提出了一个需求，业务部门想从一些特定的词汇中（比如2022年冬奥会），筛选出网上都有哪些热门的新闻与之相关，并能通过页面点击量，展示出用户的关注度，从而间接地利用这些关注点实现精准营销。

第二部分的案例，以“云计算、大数据、物联网、人工智能”（以下简称“云大物智”）4个关键字为索引，利用爬虫抓取两个示例网站的数据并落地，通过Hive进行ETL数据处理，使用Spark进行数据分析，最后使用列表和词云图做数据展示。读者可以访问本书的Support页面来查看项目的演示效果（可通过http://www.broadview.com.cn/38202，查看本书相关网站的使用说明）。比如，可以根据文章发表的时间段和关键字检索新闻内容（见图1）。

图1　检索抓取文章界面

第二部分 离线大数据处理

第二部分　离线大数据处理