上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
第二部分 离线大数据处理
特别声明
本书仅限于讨论爬虫技术,书中展示的案例只是为了读者更好地理解抓取的思路和操作,达到防范信息泄露、保护信息安全的目的,请勿用于非法用途!严禁利用本书所提到的技术进行非法抓取,否则后果自负,本人和出版商不承担任何责任。
第一部分主要讲解了大数据处理所涉及的各种组件及环境的安装,相当于建造房屋的采购备料阶段——把钢筋、水泥、砂石等都准备到位。第四部分会介绍如何“打地基”,而第二、三部分会讲述如何一步步地把大楼造出来。大数据处理场景从大的方面可以分为离线数据和流式数据。这两个环境下所使用的组件侧重点不同。本书将以一个相对完整的案例,构造出各种组件如何协同工作的使用场景。
笔者在给北方某电信集团进行企业培训时,客户提出了一个需求,业务部门想从一些特定的词汇中(比如2022年冬奥会),筛选出网上都有哪些热门的新闻与之相关,并能通过页面点击量,展示出用户的关注度,从而间接地利用这些关注点实现精准营销。
第二部分的案例,以“云计算、大数据、物联网、人工智能”(以下简称“云大物智”)4个关键字为索引,利用爬虫抓取两个示例网站的数据并落地,通过Hive进行ETL数据处理,使用Spark进行数据分析,最后使用列表和词云图做数据展示。读者可以访问本书的Support页面来查看项目的演示效果(可通过http://www.broadview.com.cn/38202,查看本书相关网站的使用说明)。比如,可以根据文章发表的时间段和关键字检索新闻内容(见图1)。
图1 检索抓取文章界面