上QQ阅读APP看书,第一时间看更新
1.6.1 第一步:数据的准备
做知识图谱的第一步(也是重要的步骤)就是数据的准备。数据的来源多种多样,既有不同类型的数据集,也有根据项目需求由项目组自行准备的数据集。本例中笔者准备一份体育影视明星数据,形式如图1.28所示。
图1.28 一份体育影视明星数据集
文本是由json这种非结构化数据构成的,不同的key值对应不同的内容。获取其内容的方法可以采用字典的形式进行。数据集中需要注意的是以下几个特定的key:
- text:文本内容。
- new_spo_list:三元组实体组合。
- s:主体。
- p:依赖关系。
- o:属性。
- entity:内容。