文本数据挖掘:基于R语言
上QQ阅读APP看书,第一时间看更新

1.2 为什么要做文本数据挖掘

要探究文本数据挖掘的意义,可以从两个视角出发,即驱动因素和其必要性。从驱动因素来说,人们想要对文本进行挖掘,是因为文本中蕴含着价值,能够解决很多业务问题。对于科学家来说,社会科学家想要通过对社交媒体文本进行挖掘,从而掌握舆情的走向;金融分析师会对股民的评论进行情感分析,从而获知民众对市场行情的期望;电商平台要对用户的评价反馈进行文本数据挖掘,从而不断改进其服务。文本数据挖掘能够帮助科研人员和行业从业者从另一个侧面来提炼信息,并总结成知识经验,进而为科学研究或商业增值提供有指导意义的结论。

从必要性上讲,在纸媒为主的时代,文本数据挖掘并没有那么盛行。一方面,当时的信息量级不大,某些分析甚至不如人直接阅读然后进行解读来得便捷;另一方面,因为计算机技术不够发达,技术体系也不够完善,因此也难以获得正确有效的洞见。但是随着信息时代的到来,海量的文本数据涌入人们的生活中。与图像和音频不同,文本是一种静态抽象的语言表达形式,所占内存相对较少而信息量往往更加丰富而准确,能比较直接地完成信息的交流。单一文本的分析,其实不如直接阅读然后解读来得实在。但是在大数据时代,纷繁复杂的文本信息多得让人窒息。单以生态学学科的科学文献数量来讲,根据Web of Science数据库的统计,在 1969—1978年生态学主题下共发文 217488篇,而在 1979—1988、1989—1998、1999—2008和2009—2018阶段分别发文421106、728660、1184689和2184734篇,阶段性发文总量几乎每隔十年就翻一番。而在学术领域之外的社交媒体中,全民分享的时代下哪怕在一个相对狭窄的主题下都能找到上百篇甚至上千篇博客、帖子等各式各样的文字材料,这在以前是难以想象的。如此庞大的文本数据中,综合了来自各行各业科研人员和从业者的认知和经验,往往蕴含着巨大的价值,但是也给数据科学家提出了挑战。为此,数据科学家开始构建完善的文本数据挖掘体系,对这些非结构化的数据进行清洗、整理、检索、提取、分析、建模、可视化等一列处理,最后形成了一个个特定的方法体系。

综上所述,之所以要做文本数据挖掘,从驱动因素来说是因为文本中包含着价值,海量文本能够综合大量科研人员或民众的思想、经验,如果可以发掘出来,有助于提高人们对人类社会和客观世界的认知。而从必要性角度,因为数据量太大,数据结构复杂,因此必须在方法学上予以足够的重视,最终实现智能系统来对文本进行自动化处理。