1.1.3 理解困境
自然语言存在太多复杂现象,是机器语言理解的绊脚石,特别是歧义消解、未知语言现象、表示和学习问题。
1.歧义消解
人类并非孤立地使用语言,语言使用需要考虑复杂的语境。以语言的多义性为例,自然语言有不同粒度的语言单元,如字词、短语、句子乃至文档互联,歧义体现在各种语境下的同一语言单元具有差别,需要结合外部复杂的语境信息消解语义上的分歧,也就是我们常说的消歧。即使在正确消歧的情况下,话语或文本的字面意思已经得到准确理解,不同人也会因为认知水平的差异而产生不同的理解。语言理解不可避免会受到个体的影响,因此带有强烈的主观性和个性化,进一步造成机器理解的标准难于确定。
2.未知语言现象
自然语言具有创造性、递归性、多义性、主观性和社会性等特点,既让语言具备强大的表达力和生命力,同时也呈现出非常复杂且难以捉摸的语言现象。作为人类信息交流的工具,自然语言需要具有强大的创新活力,要能够对最新概念、时尚表述有与时俱进的表示,比如新词引入、旧词新意、多层嵌套等。由于很多未知词汇、结构引入,语言系统会随着社会发展而不断演化,因此对系统的容错能力和鲁棒性有更高的要求。这就需要机器理解建立与人类相近的语言认知,具备与人类相似的背景知识库,否则机器就不会理解很多语言现象和常识。因此,人们试图通过知识图谱来协助机器建立对未知语言现象的认知能力。
3.表示和学习
人类一直在探索如何让语言知识灌入机器“大脑”中,形成理解机制,其中主要包括两个环节:语言表示和语言学习。
语言表示是机器阅读语言的第一步,需要将语言信息在特定表示空间中建模,希望其语义计算能力能比拟人类语言表达能力。现在的语义表示方案中,符号表示过于粗略,无法考虑语言符号背后丰富的语义信息;向量表示虽然具有更为强大的表示能力和自由度,但目前只能通过特定任务下的数据学习,建立满足特定需求的语义表示。这带来的问题是,一方面缺少可解释性,鲁棒性差,另一方面通用性和迁移性也不足。未来需要探索更加强大的结构化语义表示空间,例如,可以将向量表示与符号表示相结合,既保留分布式表示的泛化能力,又兼顾模块化和层次化符号表示的逻辑计算能力。也许这会是下一轮自然语言理解取得革命性进展的突破口之一。
语言学习是机器理解语言的方式,过去几年,以深度学习为代表的连接主义取得了丰硕的成果,但是这些方法存在严重的样本依赖、模型算法局限、数据覆盖度低等问题。部分研究者已经关注到以知识图谱为代表的符号知识学习方向,但是如何转化为机器语言理解的解决方案还有待研究。此外,如何结合开放复杂语境,实现对语言语义的准确理解,仍是具有挑战性的难题。