上QQ阅读APP看书，第一时间看更新

第1篇自己动手抓取数据

第1章全面剖析网络爬虫

你知道百度、雅虎、谷歌是如何获取数以亿计的网页并且实时更新的吗？你知道在搜索引擎领域人们常说的Spider是什么吗？本章将全面介绍网络爬虫的方方面面。读完之后，你将完全有能力自己写一个网络爬虫，随意抓取互联网上任何感兴趣的东西。

既然百度、雅虎、谷歌等搜索引擎巨头已经帮我们抓取了互联网上的大部分信息，为什么还要自己写爬虫呢？因为深入整合信息的需求是广泛存在的。在企业中，爬虫抓取下来的信息可以作为数据仓库多维展现的数据源，也可以作为数据挖掘的来源。有人甚至为了炒股，专门抓取股票信息。既然从美国中情局到普通老百姓都需要，那你还等什么，让我们赶快开始吧。

本周热推：

C语言编程兵书深入理解Kafka：核心设计与实践原理 C++ 从入门到项目实践（超值版）机器学习实战 Python数据分析与应用

第1篇 自己动手抓取数据

第1章 全面剖析网络爬虫

第1篇自己动手抓取数据

第1章全面剖析网络爬虫