让数据成为生产力:数据全生命周期管理
上QQ阅读APP看书,第一时间看更新

2.2.1 文本类数据

文本类数据常用于描述性字段,如姓名、性别、地址、交易摘要等。这类数据不是量化值,不能直接用于计算。在使用时,可先对该字段进行标准化处理(如地址标准化)再进行字符匹配,也可直接模糊匹配。

文本类数据可以包含结构性字段,如标题、作者、出版日期、长度、分类等,也可以包含大量的非结构化数据,如摘要和内容等,因此,文本类数据既不是完全无结构的数据也不是完全结构化的数据。