上QQ阅读APP看书，第一时间看更新

译者序期待具身模拟假说带来自然语言理解的飞跃

我并不是认知科学领域的研究者，能遇到这本书有些偶然的缘分。2017年5月湛庐出版了人类历史上第一本完全由人工智能算法创作的诗歌集——《阳光失了玻璃窗》，很幸运我的团队为它贡献了核心算法，我也从那时起正式进入自然语言理解领域。

自然语言理解领域有着悠久的历史和让人抓狂又着迷的难度。2012年以来，深度学习算法先后给计算机视觉、听觉和机器翻译领域带来了质的飞跃，大家都在期待自然语言理解领域的那一跃。沈向洋博士更是用“得语言者得天下”这样有趣的说法来佐证这个领域的重要性。

起步之初，我向李航博士请教过一些关于语言的问题。比如，什么是理解，如何评价一个人工智能程序是否理解了语言。他曾向我推荐过几本他读过之后觉得很受启发的语言学和认知学方面的著作，包括史蒂芬·平克（Steven Pinker）的《语言本能》（这本书的中文版也已由湛庐策划出版）、莱考夫和约翰逊合著的《我们赖以生存的隐喻》以及本书。这些书带我进入了一个神奇的语言世界。

据说人们在收到别人推荐的书单时，通常会收藏起来，或者趁当时那股劲头下单买回来，然后就没有然后了，我的书架上也有很多这样的书。回想起来，我能把李航博士推荐给我的书认真读起来，除了因为我对他的敬仰，还有一个原因是，我的团队每个暑期都会组织“共读一本书”的活动。2019年暑期，我决定一起读Louder than Words，大家的热情都很高，这跟作者的写法有关：每一章，作者都会从一个故事入手，有时会有一种在看奇闻逸事的错觉，然后从中引出一个大家都会感到好奇的问题，再把科学家是怎么找到解决这一问题的线索的历程娓娓道来。那些科学实验总是在我们迫切地想要知道“后来怎么样了”的时候出现，巧妙的方法和翔实的结论让人叹为观止。

不妨思考一下，你是如何了解字词和句子的含义的？又是如何填补它们之间存在的“缝隙”的？你是如何做到这一切的？这就是意义的秘密，也是本书探讨的主要内容。

近来，我一直在重读这本书，因为其中很多内容正好与我要研究的课题相关，细读这本书会对我的研究大有裨益。2019年，当我和李航博士再次见面时，我给他看了我们完成的自动生成故事板的结果，其算法的核心想法正是基于这本书里所介绍的具身模拟假说。

以《画饼充饥》的故事为例，它讲述了这样一个故事：

很久以前，有个小男孩在森林里迷了路，他走了好久，又累又饿，很想吃妈妈做的饼，可这时候他回不去呀！于是他就在地上画了一个大大的饼，还在饼上点上芝麻。小男孩一直看着，好像自己已经吃上了大饼，于是他就不觉得饿了，并重新站起来，沿着小路往前走。没过多久，小男孩的爸妈找到了他，他们一起回到家，吃上了真正的香喷喷的饼。

借用本书作者的写作手法，这里，我请你暂时停下来，回想一下你在阅读前面这段文字时到底发生了什么，你是如何理解它的。你把目光聚焦在每一个方块字上，这些方块字组成了词，然后，你认出一些熟悉的词，比如“男孩”“森林”“迷路”“饼”。这一切看起来非常直截了当，自然语言处理中的分词模块也能做到。但接下来你认出了这些词是什么，并开始理解它们蕴含的意义。你知道它们分别指的是哪一类物体、动作或事件。这些句子描述的画面开始变得生动起来：你似乎看到了那个男孩在森林里无助的神情；读到他饿了，你的胃似乎也会有一点不舒服；读到他在地上画饼的时候，你的手指似乎也忍不住想要去画。接下来，是更加不可思议的部分：你在继续深入的时候会补上一些从未在句子里明确提到过的细节。例如，想要去画饼的时候，你会不自觉地画出一个圆，吃大饼的时候是用手拿着而不是用筷子。这就是作者所说的具身模拟：

也许，我们对语言的理解，就是通过在我们的脑海中进行模拟，感受这些语言所描述的事物若换成我们自己亲身去体验是怎样的。

我们借由人们描述电影的数据，对计算机来说，这些数据可以类比为我们个人以往的体验。接下来，算法通过文字和视觉的双重匹配得到了9幅图片来对应《画饼充饥》的故事（见图0-1）。

图0-1　2019年发表于ACM国际多媒体技术大会（ACM MM）的论文Neural Storyboard Artist: Visualizing Stories with Coherent Image Sequences中为《画饼充饥》检索出的故事板

结果令人惊喜，它们所展示的画面能很好地与《画饼充饥》的故事匹配。例如，第1幅图看起来的确是一个人走在森林中；而第2幅图真的很像妈妈端来的香喷喷的食物；第6幅图是一个人蹲在地上吃东西，手中恰好握着一张饼；第8幅图是由“小男孩的爸妈找到了他”这句话检索而来的，我们从这幅图中可以看到一个男孩抚摸着父母的脸，面带哭泣的表情，这是非常典型的重逢场景，虽然检索词中没有提到哭泣，但算法得出的画面却“脑补”出了这样的细节。

对体验的模拟不只适用于图像，如果我们能模拟文字表达的概念之间的关系、典型的生活对话场景以及人的三观，又会如何呢？我们把时间投入在了对话和其他文本生成的任务上，例如，我们的算法可以生成这样的比喻：“爱情像脂肪，是点点滴滴的积累”；也可以根据一句内容简述生成一小段台词（见表0-1中的例子）；还可以控制对话中人工智能的三观，不只是对简单事物的观点，甚至可以模拟人的爱情观（见表0-2中的例子）。

表0-1　2020年发表于国际计算语言学会议（ACL）的论文ScriptWriter: Narrative-Guided Script Generation中提出的算法所生成的一段台词

表0-2　2019年发表于国际网络搜索和数据挖掘会议（WSDM）的论文Attitude Detection for One-Round Conversation: Jointly Extracting Target-Polarity Pairs中提出的算法可以控制人工智能的三观，来塑造不同的性格

近年来，我留意到，计算机从业者多年来对文字、语音、图形、图像等模态的单独研究有一种融合的趋势，也许会带来下一个自然语言处理领域的重大突破，因为人类的小孩就是在同时接收多种信息的基础上学习语言的。希望在未来人工智能的研究中，本书所述的具身模拟假说可以给研究者及大众带来一些启发。

扫码下载“湛庐阅读”App，
搜索“我们赖以生存的意义”，
看宋睿华教授如何解读影响我们的思考和行为的机制。

译者序 期待具身模拟假说带来自然语言理解的飞跃

译者序期待具身模拟假说带来自然语言理解的飞跃