自然语言理解与行业知识图谱:概念、方法与工程落地
上QQ阅读APP看书,第一时间看更新

1.4.2 行业知识图谱构建问题

当我们认清了机器认知的关键在于语义知识后,那么落脚点则变成了如何在细分行业上,搭建一套涵盖行业语义知识的知识图谱,以及如何让机器掌握语义知识。

首先是知识表示问题,哪种表示可以让计算机获得更充分的语义信息量?从自然语言发展的角度看,图表示的信息量更为充分。西方字母文字适合用字符进行表达,由于强调词法和句法的逻辑结构,现有的分布式嵌入表示和模型设计就非常适合。汉字作为仅存的语素文字,具有音节少、信息集中、音义结合以及句法结构灵活等特点,再加上中文通过表意能力吸收了字母文字的发音,呈现出强大的生命力。对于汉字文字,上述表示空间是否合理?中文本身叠加了行业文本特征以后,如何将向量表示与符号表示相融合,如何在统一的表示空间表达多模态知识?这些都是在行业知识图谱的搭建过程中需要面对的问题。

其次是行业知识获取任重道远。第一,存在行业元知识(Meta-knowledge)归纳问题,机器认知框架难以自动高效搭建。第二,机器很难具备常识,更不用说具有情感的机器。第三,跨模态的知识适配有待进一步研究。虽然目前多模态预训练和图神经网络的使用能够初步展示机器的多模态感知能力,但相关工作才刚刚起步。

最后是推理和掌握行业规律。这是机器认知智能的体现。Yoshua Bengio在2019年NeurIPS大会上提出认知系统除了直觉以外,还有负责逻辑推理的单元,能够包括目前常见的图注意力机制、意识先验框架(如元学习、因果发现)等[1]。阿里达摩院的杨红霞认为,当前融合知识图谱是实现关系推理和协同推理最为可行的方案。可以看出,行业知识图谱的搭建仍然充满挑战。

[1] https://nips.cc/Conferences/2019/Schedule?showEvent=15488