前言
机器学习是人工智能的重要组成部分,主要是设计一些让计算机可以自动“学习”的算法,从而让计算机能够从数据中获得经验,进而根据场景中的输入数据给出建议和决策。本书旨在对机器学习的基本知识进行讲解,并结合R语言中一些前沿的机器学习工具来帮助读者掌握机器学习的基本技巧。
全书共16章内容,提供了丰富的案例和操作演示,力求帮助读者了解机器学习场景中常用的R语言工具和建模技巧,让读者在机器学习项目中能够有条不紊地开展分析,进而高效完成统计建模,让获得的结果能够有效地应用在科学研究和实际工作中。
在阅读本书时,读者还可以借助随书提供的配套案例数据和相关代码,跟随书中的提示,逐步进行实践操作。读者将在相关案例的学习中,进一步巩固机器学习的相关知识,掌握R语言在机器学习领域的实践应用能力。
本书涵盖以下主要内容。
第1章介绍机器学习的一些基本知识,包括概念、意义、种类和基本流程。
第2章介绍R语言综合基础,首先讲述了如何对R语言的软件环境进行配置,随后分别讲解了编程保留符号、基本数据类型、常用数据结构、程序流程控制和函数使用技巧,以帮助读者熟练掌握R语言的操作环境。
第3章介绍高效数据操作,主要聚焦在如何使用R语言的一些工具来完成包括排序、汇总、分组计算在内的常用数据操作。
第4章介绍广泛流行的R语言数据科学工具集tidyverse,从数据的读取、整理和可视化3个方面介绍了工具集中的各种程序包,包括readr、purrr、forcats、lubridate、stringr、tibble、dplyr、tidyr、ggplot2等。
第5章介绍探索性数据分析中的基本内容,并给出了R语言的实现方法,同时还介绍了一系列探索性数据分析工具包,包括vtree、skimr和naniar。
第6章介绍特征工程的基本概念,从特征修饰、特征构造和特征筛选3个方面展开讲解,并给出了R语言中的实现方法。
第7章介绍重采样方法,分别针对模型评估和类失衡两种情况进行探讨,阐明了为何要使用重采样方法,以及如何使用不同的重采样方法(如交叉验证、自举法)来实现目的。
第8章介绍模型表现的衡量,分别基于回归模型和分类模型,列举了一般用哪些指标来对模型的效果进行衡量。
第9章介绍模型选择,首先对当前流行的机器学习算法进行了简要的介绍,然后介绍了在R环境中如何使用mlr3工具包来对其进行实现,并给出了一个实践案例进行演示。
第10章介绍参数调节,即在机器学习过程中如何选择最合适的超参数组合来提高模型表现,本章结合mlr3框架介绍了如何在R环境中使用不同的参数调节策略。
第11章介绍模型分析,旨在提高模型的可解释性,分别讲述了变量重要性评估、变量影响作用分析和基于个案的可加性归因方法。
第12章介绍了集成学习,首先对集成学习的3种常见策略(Bagging、Boosting和Stacking)进行了介绍,然后利用caret和caretEnsemble框架演示了如何在R语言中对集成学习进行实现。
第13~16章为实践案例,分别依托caret、mlr、mlr3和tidymodels这4个R语言中较为流行的机器学习工具包,按部就班地完成各项机器学习任务,旨在让读者将前面章节所学的知识融会贯通,提高实践应用能力。
目标读者
本书内容深入浅出,可供对机器学习感兴趣的读者自学,有助于其快速了解机器学习的基础知识,并使用R语言系统化地完成一系列机器学习任务。此外,本书结合机器学习主题展示了R语言的丰富特性和强大魅力,适合对R语言感兴趣的读者学习参考。
配套资源
本书提供配套的案例数据和相关代码,希望能够帮助读者更好地复现书中的实例并掌握相关知识点,上述资源可以从异步社区免费下载。