前 言
随着我国医疗卫生事业的发展与壮大,广大医学工作者对数据分析方法的需求也越来越大。医疗健康领域的从业人员往往具有较强的专业知识,但缺乏对数据分析和人工智能技术的认知和运用能力,无法充分发挥和利用医疗数据的价值。在数据分析领域,Python语言简单易用,第三方库功能强大,提供了完整的数据分析框架,深受广大数据分析人员的青睐。因此,编写本书的主要目的是结合医学数据系统地介绍如何利用Python进行数据分析,以帮助读者解决数据分析中的实际问题。本着让非专业读者易于理解的原则,本书强调实战和应用,着重介绍数据分析的思路和方法及其实质、特点、应用条件和结果,尽量淡化分析方法的推导和计算。
本书各个章节的内容按照由浅入深的顺序进行安排。全书可以分为三部分。
第一部分包括第1~6章。其中前3章介绍了Python语言的基本用法;第4章和第5章分别介绍了数据分析的两个基本库——NumPy和Pandas,涵盖了基本数据操作和数据预处理的方法;第6章介绍了如何用Python进行数据可视化操作,重点介绍了Matplotlib库和Seaborn库。
虽然大多数统计学检验也可以使用统计学模型的方法来完成,但是在很多情况下,统计模型并不是所有生物医学研究所必需的。因此,本书第二部分介绍了常用统计分析方法,包括基本的统计描述和统计推断。其中,第7章介绍了描述性统计分析和各种单因素分析方法;第8章结合实际数据介绍了医学研究中最常用的4种回归模型,即线性模型、Logistic回归模型、Poisson回归模型和Cox回归模型。
第三部分由第9~11章组成,主要讲述机器学习算法。第9章介绍了如何使用Scikit-learn实现简单高效的数据挖掘和机器学习算法,第10章介绍了如何使用TensorFlow建立和验证深度学习模型,第11章介绍了如何使用卷积神经网络模型对图像进行分类。
全书共计11章,并且各章自成体系。读者可以从头至尾逐章学习,也可以根据自己在实际中遇到的问题有选择地在相应章节寻找解决方案。书中配有大量的案例解析和程序示例,以及使用Python绘制的图形,所有代码均在Python 3.8.5环境下运行通过。书中每一章都配有习题,书末附有习题参考答案。书中所有的示例数据和代码均可以从异步社区(https://www.epubit.com)下载。
本书不仅适合临床医学、公共卫生及其他医学相关专业的本科生或研究生使用,亦可作为其他专业的学生和科研人员学习数据分析的参考书。希望本书能够让读者更深入地理解数据分析,并进一步促进开源软件在医学领域的应用。
本书参阅了许多国内外教材和资料,并引用了部分示例数据,在此向相关作者表示衷心的感谢。本书得到了湖北医药学院公共卫生与健康学院和研究生院的支持,在此也表示诚挚的谢意。此外,特别感谢人民邮电出版社的王峰松编辑在本书出版过程中给予的支持和协助。
本书前8章由赵军编写,后3章由刘文婷编写。由于编者水平有限,书中难免存在不妥和谬误之处。读者可以将书中的错误及遇到的任何问题反馈给我们,欢迎发送邮件至邮箱zhaojun@hbmu.edu.cn。
编 者
2021年7月