深度学习高手笔记(卷2):经典应用
上QQ阅读APP看书,第一时间看更新
 前言

前言

人工智能是一个跨学科、跨领域的研究方向。《深度学习高手笔记 卷1:基础算法》(简称卷1)介绍了深度学习的基础知识,其中涉及卷积神经网络、自然语言处理和模型优化这3个方向。在有了这些深度学习的基础知识之后,您不仅可以实现一些简单的图像识别、文本分类等应用,还可以将不同领域的算法结合起来,设计更复杂、更有价值的应用。

本书倾向于介绍深度学习中经典的、前沿的应用,它们往往是多个不同算法、模型和策略的结合体。通过阅读本书。您不仅能了解近10年来深度学习在各个领域的进展,更重要的是,您将学到如何应用不同方向、不同领域的算法,真正打通应用深度学习的“任督二脉”。

本书包括三篇,共12章。第一篇介绍深度学习中的目标检测与分割。目标检测与分割是两个密不可分的方向,它们都可以看作特征提取、输出头预测和模型结果后处理的流程。其中,目标检测方向有清晰的优化思路,而且有诸多的应用场景,是您接触深度学习必须掌握的一个应用方向。第二篇的核心是光学字符识别(optical character recognition,OCR),在实际应用中OCR一般包括场景文字检测和场景文字识别两个阶段。场景文字检测有两种思路:一种是继承自目标检测;另一种则是继承自图像分割。场景文字识别则是经典的图像和文本结合的应用,一般采用卷积神经网络(convolution neural network,CNN)作为特征的提取器,采用循环神经网络(recurrent neural network,RNN)作为文本的生成器。第三篇将介绍更多的深度学习应用方向,如图像翻译、图神经网络、二维结构识别、人像抠图等,可作为您深入了解这些方向的“敲门砖”。

卷1和本书均源自同一个专栏,它们之间难免会有知识点的重叠和交叉。由于本书的大部分内容都依赖于卷1,因此建议您同时阅读这两本书。尤其是如果您在深度学习方面的基础较为薄弱,则强烈建议您在阅读完卷1之后再来阅读本书。

我对本书的阅读建议有3个:

如果您在深度学习方面的基础较为薄弱,那么可以结合这两本书以及本书提供的知识拓扑图和章节先验知识,选择优先阅读知识拓扑图中无入度的章节,读懂该章节后您可以在知识拓扑图中划掉这个节点,然后逐步将知识拓扑图清空;

如果您在深度学习方面有一定的基础,对一些经典的算法比较熟悉,那么您可以按顺序阅读本书,并在遇到陌生的概念时再根据每一节提供的先验知识去阅读相关章节;

如果您只想了解某些特定的算法,则可以直接阅读对应章节,因为本书各章节的内容比较独立,而且会对重要的先验知识进行复盘,所以单独阅读特定章节也不会有任何障碍。

卷1和本书是我历时5年,在阅读了上千篇论文后独立编写的两本书,对我来说,这是一个开始而且远不是一个结束。首先,由于个人的精力和能力有限,书中涉及的知识点难免有所欠缺,甚至可能因为个人理解偏差导致编写错误,在此欢迎您前去知乎专栏对应的文章下或到异步社区本书页面的“提交勘误”处积极指正,我将在后续的版本中对本书进行修正和维护。其次,随着深度学习的发展,无疑会有更多的算法被提出,也会有其他经典的算法再次流行,我会在知乎专栏继续对这些算法进行总结和分析。

卷1和本书的付梓离不开我在求学、工作和生活中遇到的诸多“贵人”。首先,感谢我在求学时遇到的诸位导师,是他们带领我打开人工智能的大门。其次,感谢我在工作中遇到的诸位领导和同事,他们给予了我巨大的帮助和支持。最后,感谢我的亲人和朋友,没有他们的支持和鼓励,这两本书是不可能完成的。

大师兄

2023年5月25日