自然语言理解与行业知识图谱:概念、方法与工程落地
上QQ阅读APP看书,第一时间看更新

3.1.2 行业语言文本特征

与上述通用语言文本特征不同,行业语言文本是依照行业标准拟订的规范化文献,本身还具有自身的专业性特征。行业语言文本特征与通用语言文本特征的不同主要体现在如下几个方面:

①特定文本撰写格式,行文表达抽象。以专利行业为例,通常标题和摘要都比较清楚,比如标题会写明主要发明点,而摘要则会简要概述技术背景、技术问题、解决方案、有益效果等。但是专利文献的特殊之处在于它是一个法律文件。由于是法律文件,权利要求往往表现为概念抽象、上位、零散,行文特征捉摸不定,然而又往往凝结了整个行业文件的精华,所以“行业语言处理让你又爱又恨”。另外专利文献的说明书部分涵盖了技术领域、技术背景、发明方案、具体实施方式、附图等,每个部分既有固定的句法格式,又可以随意书写,只要符合规范即可,因此是一种个性化文本。

②文本语法和语义特征复杂。很多情况下,专业文本本身通篇可能是领域术语词的堆砌,句法逻辑错综复杂,行文没有固定模式。行业命名实体在上下文中可能有不同称谓,实体消歧是一个较大的问题。此外,实体关系往往在权利要求和具体实施方案中得以体现,但是关系隐含、模糊的现象明显,无法像通用文体那样形成大规模的训练数据集,标注非常困难。

③文本解释与实际需求隔阂明显。行业文本解释结果往往见仁见智。比如专利文献本身注重新颖性、创造性和实用性,这些评价主观性强,是行业特有的“文字游戏”。一些焦点问题的专家解释,可能与多数人认知不同。因此,文本处理难以标准化和普及化。

④文本跨语言分析困难。由于不同国家行业发展水平参差不齐,不同语种撰写的行业文本之间存在语言隔阂、行文差异、语义分歧大等问题。此外,行业新词和术语繁多,很多未登录的词缺乏内容说明和解释,再加上使用不同语言撰写的行业文本特征和语法差异很大,一种语言的行业文本模型通常无法翻译或直接迁移到其他语言上,因此形成明显的语义理解壁垒。现有的跨语言分析基本停留在机器翻译层面。

⑤行业文本技术性强,与金融、财报、新闻等其他类型的文本融合时,涉及自然语言形态学、语法学、语义学和语用学等几个层次的考虑,需要摸索规律。