人工智能:智能人机交互
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

前 言

人机交互(Human-Computer Interaction, HCI),作为一个术语,首次使用在由 Stuart K. Card、Allen Newell 和 Thomas P. Moran 撰写的著作The Psychology of Human-Computer Interaction(《人机交互心理学》)中,它是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。人机交互技术是计算机用户界面设计中的重要内容之一,与认知学、人机工程学、心理学等学科领域有密切的联系。

人机交互与人工智能是智能信息时代备受关注的两大重要研究领域。通过人机交互与人工智能发展历程可以发现,二者的关系从过去的此起彼伏逐渐变成了当下的相互促进,基于二者深度融合的典型应用也在教育、医疗等关键领域不断涌现。人机交互为人工智能提供了应用需求和研究思路,而人工智能也驱动了人机交互技术的发展和变革。放眼未来,人机交互与人工智能将保持当下这种相互促进、相互驱动的关系,从而更加深入地融合并协同发展。

从人机交互历史的发展规律来看,人机交互的发展模式可以归纳为技术的革新、范式的变迁、关键人和事件三者之间的关系:技术的革新导致范式的变迁,范式的变迁产生关键人和事件;而关键人和事件实现了范式的变迁,范式的变迁又进一步促进了技术的革新。伴随这一过程的结果是人机交互技术从概念提出到研究实现,再走向应用。

1997年,计算机“深蓝”战胜国际象棋冠军。这场“人机大战”是人机竞争的序幕,展现了一个新时代,即一个被称为“智能时代”的来临。随着深度学习方法成功应用于多个领域,人工智能迎来了第三个发展高潮。在最新的一场“人机大战”中,Google的人工智能AlphaGo打败了曾获得多项世界冠军的围棋高手李世石,再次揭开人们对“智能革命”的关注。另外,可穿戴设备等新的交互设备的出现,使得人机交互空间发生了极大变化。与此同时,语音分析、手势识别、运动跟踪、凝视控制等技术不断进步,使用心电图、声音、面部特征等独特个人特征的安全认证技术的发展,都在引导着人机交互技术的发展轨迹和范围。

本书从一个相对全面的角度对人机交互的相关概念、方法、技术和应用进行了介绍,希望能为从事人机交互研究、开发和应用的人员提供参考。

第1章为绪论。本章首先从人机交互的定义入手,介绍人机交互过去的发展历程以及人机交互的核心问题,之后对人工智能与人机交互交替沉浮、协同共进的关系进行了分析,最后探讨了智能人机交互的发展趋势。

第2章为智能人机交互基础理论。智能人机交互面临的一个关键问题是如何通过量化人类的感知、认知和运动执行能力,对交互行为进行建模,并预测人类在不同环境下与不同系统交互的行为表现。本章将分别对现有的主流模型进行阐释:用户认知模型对用户的感知、认知和决策过程进行建模;用户运动模型对用户的运动和执行能力进行建模;智能人机交互模型则对用户和机器的交互过程进行建模。

第3章为生理计算与交互。生理计算是人机交互领域的一个重要分支。本章首先介绍生理学的基础概念,紧接着介绍常用的生理信号采集和分析方法,然后分析在设计生理交互系统过程中应当考虑的问题,最后通过三类实例介绍经典的生理计算应用。

第4章为手势理解与交互。手势理解与手势交互是一个既有理论研究意义又有重要应用前景的挑战性问题,已引起了国内外研究者的广泛关注。本章以面向手势交互中的核心问题(包含手势理解与交互模型、人手检测与姿态估计、手势识别模型等)介绍代表性的工作和思路。

第5章为草图计算与交互。草图交互是重要的自然人机交互技术之一。草图作为一种具有抽象特性的形象化信息,是自然、直接的思维外化和交流方式,可以有效地描述用户意图,真实地反映用户个性化特点。本章首先介绍草图表征方法与认知模型,然后重点介绍草图智能处理技术,包括草图手势、草图研判以及草图补全,最后介绍基于草图交互的技术在视频操作方面的应用。

第6章为情感计算与交互。随着人工智能和人机交互技术的发展,人们对于如何使计算机能够识别用户的情感并进行智能反馈的应用需求越来越强烈,使得情感计算成为人机交互领域的主要研究内容之一。人类在进行社会活动时,与环境和人类个体之间不断进行着各种类型的情感交互,在这些交互活动中产生、传递着大量的情感信息。这些信息直接或间接地反映着人们在整个过程中的活动。与人类可以自然而然地进行情感的表达、领会和运用相比,对信息系统而言,情感是最难被分析、处理和加工的一类信息。本章将围绕着如何将人类情感引入人机交互系统这一问题展开,详细介绍人机情感交互的一些方法和技术。

第7章为言语计算与交互。言语交互已成为人与计算机之间交互的重要通道,也可看作智能时代“自然交互”的重要方式。本章首先介绍语音识别技术及其发展过程;然后建立言语表示模型,以及基于语义三角形的人机交互模型,刻画言语交互过程中的知识转移过程,实现人机之间知识空间的共享;在此基础上,重点介绍“开发(Exploitation)-探索(Exploration)融合”的言语交互意图理解和计算方法;最后通过金融审计领域的一个实例进行说明。

第8章为智能仿真与交互。MR(Mixed Reality,虚实融合)的核心是人机交互。MR未来的发展将走向网络化、智能化、泛在化,深化MR和人机交互的基础理论研究,支持云计算、移动互联网、人工智能、大数据技术等新一代计算技术与MR的融合将具有重大意义。本章首先介绍虚拟仿真环境下的界面范式、交互任务和交互设备,然后对包括三维交互、语音交互、多通道交互等在内的交互技术进行介绍。

第9章为交互式机器学习。本章首先介绍交互式机器学习界面范式,系统是如何通过界面使用户与机器学习模型进行交互从而优化算法的;其次介绍交互式机器学习在相关领域的应用(推荐系统、信息检索、情境感知系统),一些较为成熟的应用已经和人们的日常生活息息相关;接着通过回顾几个典型实例,总结了它们如何利用丰富的交互设计来实现人与机器有效沟通理解并实现高效学习;最后总结了交互式机器学习领域现存的开放性问题和未来的研究机遇。

本书在写作过程中,邓小明、朱嘉奇、何小伟、姚乃明等提供了相应帮助,在此表示感谢。

限于作者水平,本书难免会有疏漏和不足之处,敬请广大读者朋友批评指正。

作 者

2020年11月于北京