上QQ阅读APP看书,第一时间看更新
1.3 数据获取
掌握了初步的数据分析后,你会发现自己变成了“数据饥渴症患者”。如果没有数据,你就无法思考、解答现实问题。
如何获取数据呢?我们先要区分数据的来源。数据的来源很多,但是对于研究者来说,来自网络和文献的数据比较常用。目前主流(合法)的网络数据获取方法主要分为3类:
开放数据集下载;
应用程序接口(Application Programming Interface,API)读取;
爬虫抓取(Crawling)。
在第4章,我们讲解了如何把开放数据集下载到本地,并且在Python中使用,还介绍了常见的CSV、JSON和XML等格式的开放数据文件的读取、初步处理和可视化方法与流程。
如果没有开放数据集可供下载,网站只提供API,该怎么办呢?在4.2节中,我们使用Python读取阿里云云市场的一款天气数据API,获得指定城市的天气变化记录,并且做可视化分析。
如果没有开放数据集,网站也没有提供API,那就得“直接上大锤”了。4.3节介绍了非常人性化、易用的网页抓取软件包requests_html,你可以用它尝试抓取网页内的指定类型的链接。
希望这些内容可以帮助你高效地获得优质数据,支撑起你的思考和探索。