前言
随着数据分析的需求不断提升,Excel渐渐无法满足价值挖掘的日常需求,需要更专业化的软件做数据分析。相应的问题就来了,统计学软件那么多,SPSS、R、Python、SAS、JMP、Matlab等,该选哪一个?目前市场上较为火热的软件是R和Python。
开源软件的R能够迅速发展,很大程度上取决于其活跃的社区和各种R包的使用。截至目前(2017年2月25日),CRAN(Comprehensive R Archive Network)上已经有10162个可以获取的R扩展包,内容涉及各行各业,可以适用于各种复杂的统计。
数据科学者的工作就是操纵数据,把原始数据加工成建模需求的形状,而R语言是帮你实现整理数据的最佳的工具。
该书深入浅出地介绍R语言在大数据分析应用中的相关知识,全书分为绪论(第1章)、基础篇、应用篇和进阶篇。基础篇(第2~10章)学习如何用R完成数据处理,包括数据准备、数据探索、数据变换、数据可视化和数据建模等;应用篇(第11、12章)学习如何用R完成实际的数据分析报告撰写,包括背景与目标、指标设计、描述性分析、模型分析和结论与建议;进阶篇(第13、14章)学习如何使用R提高大数据处理性能,包括RHadoop、SparkR。
绪论从数据、统计学和逻辑学3个方面探讨了树立正确的数据思维的一些原则。数据分析师的数据思维对于整体分析思路,甚至分析结果都有着关键性的作用。普通数据分析师与高级数据分析师的主要差异就是有正确的数据思维观。正确的数据思维观与数据敏感度有关,类似于情商类的看不见,摸不着的东西。简单来说,正确的数据思维观是一种通过数据手段解决问题的思维。
基础篇,讨论数据处理的R环境,包括R数据结构(数据框、列表等)、数据导入/导出、数据清洗(处理数据的缺失值、不一致、异常值)、数据变换(汇总、集成、透视表、规约等)、可视化、高级语言编程、数据分析常用建模方法和原理,涵盖了目前数据挖掘的主要算法,包括分类与预测、聚类分析、关联规则、智能推荐和时序模式,利用可视化数据挖掘包Rattle进行试验指导。
应用篇,讨论2个经典的数据分析报告案例,通过案例分析使读者能够把学到的R基础知识应用到解决实际问题中,把数据变成价值。
进阶篇,解决R语言在处理大数据时性能低下的问题,讨论了两个R包:RHadoop、SparkR。
本书特点如下:
(1)知识学习的重点是模型的运用而不是模型的原理。第9章既是R语言的重点也是难点,本书利用可视化数据挖掘包Rattle进行试验指导,简化了建模需要具备的数学基础,只要了解相应模型的函数,设置几个参数就可以轻松完成分类与预测、聚类分析、关联规则、智能推荐和时序模式等数据挖掘任务。
(2)注重数据变成价值。数据分析师工作的最重要一环就是写出有情报价值的数据分析报告。直接将分析结果罗列到PPT或Word中,不仅看上去不美观,而且也会影响报告的可读性,使一份数据分析报告成为简单的数据展示。本书通过案例探讨了写出一份具有情报价值的分析报告的技巧。
(3)关注大数据分析。R语言的最大缺点就是处理大数据的性能较低,无法直接处理TB以上的数据,本书进阶篇讨论的两个R包(RHadoop、SparkR)基本上可以处理任何级别的数据。
(4)向读者提供了书中所用的配套代码、数据及PPT,读者可通过上机实验,快速掌握书中所介绍的R语言的使用方法。
本书由程显毅、刘颖和朱倩负责编写。在本书编写过程中,孙丽丽、季国华、赵丽敏、杨琴和章小华等提供了许多参考资料,在此表示由衷的感谢。由于水平有限,书中可能会有不当之处,希望读者多加指教。本书的编写得到刘鹏教授和清华大学出版社王莉编辑的大力支持和悉心指导,在此深表感谢!
编者
2018年5月