1.1.3 理解困境_自然语言理解与行业知识图谱：概念、方法与工程落地-QQ阅读男生武侠网

上QQ阅读APP看书，第一时间看更新

1.1.3　理解困境

自然语言存在太多复杂现象，是机器语言理解的绊脚石，特别是歧义消解、未知语言现象、表示和学习问题。

1.歧义消解

人类并非孤立地使用语言，语言使用需要考虑复杂的语境。以语言的多义性为例，自然语言有不同粒度的语言单元，如字词、短语、句子乃至文档互联，歧义体现在各种语境下的同一语言单元具有差别，需要结合外部复杂的语境信息消解语义上的分歧，也就是我们常说的消歧。即使在正确消歧的情况下，话语或文本的字面意思已经得到准确理解，不同人也会因为认知水平的差异而产生不同的理解。语言理解不可避免会受到个体的影响，因此带有强烈的主观性和个性化，进一步造成机器理解的标准难于确定。

2.未知语言现象

自然语言具有创造性、递归性、多义性、主观性和社会性等特点，既让语言具备强大的表达力和生命力，同时也呈现出非常复杂且难以捉摸的语言现象。作为人类信息交流的工具，自然语言需要具有强大的创新活力，要能够对最新概念、时尚表述有与时俱进的表示，比如新词引入、旧词新意、多层嵌套等。由于很多未知词汇、结构引入，语言系统会随着社会发展而不断演化，因此对系统的容错能力和鲁棒性有更高的要求。这就需要机器理解建立与人类相近的语言认知，具备与人类相似的背景知识库，否则机器就不会理解很多语言现象和常识。因此，人们试图通过知识图谱来协助机器建立对未知语言现象的认知能力。

3.表示和学习

人类一直在探索如何让语言知识灌入机器“大脑”中，形成理解机制，其中主要包括两个环节：语言表示和语言学习。

语言表示是机器阅读语言的第一步，需要将语言信息在特定表示空间中建模，希望其语义计算能力能比拟人类语言表达能力。现在的语义表示方案中，符号表示过于粗略，无法考虑语言符号背后丰富的语义信息；向量表示虽然具有更为强大的表示能力和自由度，但目前只能通过特定任务下的数据学习，建立满足特定需求的语义表示。这带来的问题是，一方面缺少可解释性，鲁棒性差，另一方面通用性和迁移性也不足。未来需要探索更加强大的结构化语义表示空间，例如，可以将向量表示与符号表示相结合，既保留分布式表示的泛化能力，又兼顾模块化和层次化符号表示的逻辑计算能力。也许这会是下一轮自然语言理解取得革命性进展的突破口之一。

语言学习是机器理解语言的方式，过去几年，以深度学习为代表的连接主义取得了丰硕的成果，但是这些方法存在严重的样本依赖、模型算法局限、数据覆盖度低等问题。部分研究者已经关注到以知识图谱为代表的符号知识学习方向，但是如何转化为机器语言理解的解决方案还有待研究。此外，如何结合开放复杂语境，实现对语言语义的准确理解，仍是具有挑战性的难题。