前言
数据和信息正以前所未有的速度增长。正如Kevin Kelly在著名的What Technology Wants里面提到的那样,人类几百万年的基因变异,平均速度大约是每年1bit;而现在信息社会每年新增的信息量为400艾(exa, IE=1018),即人类1s内处理数据的总量,等于我们的DNA用10亿年处理的数据量。在这样的滔天数据洪流面前,如何及时地对已产生的数据进行挖掘和分析,从中提取我们关心的、与企业产能和效益有密切关系的潜在信息,是信息时代的企业需要特别关注的问题;其中一个重要的方面,就是对关联关系(频繁模式)和高效用模式的挖掘。
由于数据流具有海量性、实时性和动态变化性的特点,这就要求数据流上的挖掘算法有较高的时空效率。尽管数据流上模式挖掘技术取得了一定的进展,但是挖掘算法的时空效率仍然是当前数据挖掘领域中的研究焦点之一。
本书以数据流上的频繁模式和高效用模式挖掘计算为背景,介绍该领域相关的概念、理论及近年来相关的最新研究成果,内容包括传统数据集中的频繁模式挖掘及其大数据集下的频繁模式挖掘算法、不确定数据流中的频繁模式挖掘算法、具有效用值的数据流中的高效用模式挖掘算法,以及包含相应静态数据集中的挖掘算法。全书共分为五章:第1章首先对已有的频繁模式和高效用模式挖掘算法进行了回顾,详细地介绍了算法Apriori和FP-Growth等;第2章探讨传统的动态数据中的频繁模式挖掘算法;第3章首先探讨不确定静态数据上的频繁模式挖掘算法,然后探讨了不确定数据流中的频繁模式挖掘算法;第4章探讨静态数据集上的高效用模式挖掘算法,然后基于静态数据集上的挖掘算法,介绍数据流中的高效用模式挖掘算法;第5章以传统数据集为例,介绍了MapReduce框架下的频繁模式挖掘算法。各章内容相对独立又相互联系,较为系统地阐述了数据流中几种模式挖掘算法的研究现状。
本书主要内容为作者在攻读博士学位期间的研究成果,其中部分工作得到国家自然科学基金项目“大数据环境下高维数据流挖掘算法及应用研究”(61370200)、宁波市自然科学基金项目“面向大数据的高频金融时间序列高效用时态频繁模式挖掘研究”(2013A610115)和“多重不确定数据流上模式挖掘的建模及算法研究”(2014A610073)等项目的支持,并得到宁波大红鹰学院优秀博士计划资助。书稿的撰写过程中,大连理工大学的冯林教授、杨元生教授、金博博士等老师给予了大力支持和热心指导,同时也得到姚远、刘胜蓝、张晶、姜玫、吴明飞、王辉兵、蔡磊等同学的关心和合作,在此一并感谢!
作者
2014年7月于宁波大红鹰学院