自然语言理解与行业知识图谱:概念、方法与工程落地
上QQ阅读APP看书,第一时间看更新

1.3.1 文本分析之锚

以专利行业为例,目前全球已经有约1.2亿篇多语言专利文献,凝聚着全人类的技术创新知识。如何对这些知识进行保护、利用以及支持创新是摆在我们面前的难题。为了解决这些问题,专利行业的文本分析主要从以下三个角度开展。

专利文本首先解决的是技术问题。专利文本记载的是技术方案,体现了技术方案的新颖性、创造性和实用性。对使用者而言,我们需要了解专利文本的技术内容,其主要内容包括技术领域、技术问题、技术手段和技术功效。如果能够有效地抽取这四个方面的信息,通过结构化方式展现出来,比如用知识图谱展示这个技术方案的特征,进而给出各部分的分析粒度、层次结构或逻辑关系,那么就能够为研发提供有效的技术信息。技术领域包括了技术的层级分类,能够与现有国际专利IPC分类、科技文献、新兴技术产业分类、国民经济分类形成有效的互动和融合,可以方便技术领域导航、技术发展规划等。技术问题尽量用短语或句子明确给出,方便研究者定位行业要解决的问题。技术手段的表达方式多种多样,比如可以是一组技术词,一个完整的技术方案,也可以是发明内容的操作顺序,或者权利要求的特征等。技术功效即技术方案能够带来的技术效果,这部分内容给研究者描述了相关领域的技术效果,为后续的研发提供启发。总体而言,技术层面上如果能够按照以上方式开展,基本能够满足行业应用的需要。

专利文本其次是法律文件。这是因为行业需要公开换保护,作为法律文书的权利要求能够为防侵权提供法律证据支持。所以除了已有的反映法律状态的各字段以外,从文本中提炼法律信息,比如权利要求以及对应的实施方案,就极具价值。权利要求分为独立权利要求和从属权利要求两部分,独立权利要求保护范围最大,信息至关重要。通过对独立权利要求进行文本分析,可以判断文本大体的保护范围,进而判断技术保护程度,也为后续的技术吸收、规避奠定基础。

专利文本最后是经济或商业文本。由于专利代表了技术垄断力,决定了个人或企业在商业界的技术地位,因此从经济的角度看,如何打好这张牌至关重要。除了已有的专利权人、发明人、同族、引用等结构化信息以外,还能够从文本中挖掘出什么样的经济相关的信息呢?这里主要关注从文本中挖掘出的“产业链-产品-结构”信息,通过文中提到的产品实体、产品关系、产品结构以及产品上下游逻辑关系,甚至通过知识图谱技术打通“技术-产品”链条,那么可以直接为用户提供商业情报,因此这些信息的重要性不言而喻。

所以,从专利文本的三个角度出发,通过深入挖掘进而给出完整情报,这是专利行业文本理解的目的和发展方向。