前言

“注意是我们心灵的唯一门户，意识中的一切，必然都要经过它才能进来。”

——俄国著名教育家、俄国教育学体系创立者乌申斯基

幼儿园阿姨总是拍着手对小朋友说“小朋友请看我这里……”，英语老师也常常敲着黑板要求学生“pay attention……”。无论是幼儿园阿姨还是英语老师，他们的目的是相同的——让他人“集中注意”。那么，所谓的“注意”到底是什么？

不同的学科会从不同的视角对注意做出不同的解释。从生理学视角，注意是我们的感觉器官对外界事物做出的有侧重的响应，并由此引发一系列的生理活动。例如，以视觉注意力为例，就在此时此刻，你正在读的这句话，没错，就是这句话，你的眼球就聚焦在这句话上，其他的文字仿佛“形同虚设”；从心理学视角，注意是心理活动对对象的指向和集中。我们对某事物“有所思”，正是因为我们将心智指向并聚焦在该事物上，即对该事物产生了注意；从认知学视角，注意是外界信息进入认知环节的唯一通路……但无论从哪个视角定义，注意的核心理念是统一的：注意是一切思维活动的起点——有注意，方有思考，通过注意，才能认知。

人工智能（Artificial Intelligence）作为计算机科学的一个重要分支，是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术体系。能够让机器以人类智能相似的方式认知世界并做出恰当的反应，一直是人工智能技术追求的目标。既然注意作为一切认知的起点，对注意力机制的探索与模拟也是人工智能领域的一个重点研究方向。

本书从注意力机制这一重要角度入手，阐述注意力机制的产生背景和发展历程，通过详实的理论剖析，以深入浅出的方式着重介绍注意力机制在计算机视觉（Computer Vision）与自然语言处理（Natural Language Processing）两大人工智能方向中的体系、模型与算法，并在最后将注意力机制在其他智能领域的应用加以拓展。

全书一共分7章。第1章沿着时间线索，从相对宏观的角度，从哲学思辨到计算机科学，介绍注意力机制研究的“前世今生”。尤其是在计算机科学部分，介绍目前人工智能领域中各方向围绕注意力机制的研究现状。第2章介绍计算机视觉领域中的注意力机制。该章从注意力的分类谈起，讨论视觉显著性模型这一注意力在计算机视觉的最直接体现。然后从5类典型计算机视觉任务入手，介绍计算机视觉领域任务驱动注意力机制的应用并深度剖析若干算法实例。最后再举若干模型实例，介绍神经网络中“即插即用”的注意力模块。需要说明的是，本章内容不包括Transformer在计算机视觉领域“踢馆”的部分，我们将该部分作为第6章的内容。第3章介绍“前Transformer时代”自然语言处理领域中的注意力机制。这一章可以认为是自然语言处理领域的“Transformer前传”。第4章详细剖析Transformer这一具有里程碑意义的重要模型，尤其是对自注意力机制的原理进行深刻剖析。第5章从自然语言处理领域的预训练范式谈起，重点讨论Transformer“一统江湖”下自然语言处理领域的最新进展，分门别类地对诸多经典模型进行详细分析。第6章介绍“后Transformer时代”的计算机视觉领域。以算法实例的方式分析基于Transformer的各类计算机视觉模型。第7章针对多模态机器学习领域，对注意力机制的最新研究进展和应用展开详细讨论。

对注意力机制的讨论与研究涉及诸多交叉学科，可谓枝繁叶茂，源远流长。尤其是本书介绍的人工智能领域，发展更是日新月异，迅速异常。笔者自认才疏学浅，且时间与精力皆有限，故书中错谬、偏颇恐在所难免。若蒙读者不吝指教，笔者将不胜感激！

作者