1.7 数据挖掘的发展趋势
随着一些对数据挖掘影响甚大的相关学科的发展和成熟,数据挖掘的功能也越来越强大,应用的范围也越来越广。在一些热门问题研究上,像Web挖掘、空间数据挖掘、生物信息或基因的数据挖掘方面,数据挖掘呈现出的强大功能为这些领域的发展做出了里程碑式的贡献。
1.7.1 Web挖掘
Web挖掘作为一个新的研究领域,正受到越来越广泛的关注。Web 挖掘技术把互联网和数据挖掘结合起来,其应用非常广阔,进一步的研究将包括以下几方面。
◆ Web数据的收集,结构转换等预处理技术的研究。
◆ 现有的数据挖掘方法在适应性和时效性方面的研究。
◆ 基于Web挖掘和信息检索的智能搜索引擎及相关技术的研究。
◆ Web挖掘在特定领域如电子商务领域的应用研究。
◆ 半结构化文档挖掘。
1.7.2 空间数据挖掘
空间数据挖掘(Spatial Data Mining,SDM),也称基于空间数据库的数据挖掘和知识发现(Spatial DataMining and Knowledge Discovery),作为数据挖掘(Data Mining,DM)的一个新的分支,是指从空间数据库中提取用户感兴趣的空间模式与特征、空间与非空间数据的普遍关系及其一些隐含在数据库中的普遍的数据特征。但SDM不同于一般的DM,有别于常规的事务性数据库的数据挖掘,比一般数据库的发现状态空间理论增加了空间尺度维(Scale)。由于空间数据的复杂性,空间数据挖掘不同于一般的事务数据挖掘,它有如下一些特点。
◆ 数据源十分丰富,数据量非常庞大,数据类型多,存取方法复杂。
◆ 应用领域十分广泛,只要与空间位置相关的数据,都可对其进行挖掘。
◆ 挖掘方法和算法非常多,而且大多数算法比较复杂,难度大。
◆ 知识的表达方式多样,对知识的理解和评价依赖于人对客观世界的认知程度。
1.7.3 生物信息或基因的数据挖掘
数据挖掘在生物信息学中的应用潜力如序列分析、基因表达、蛋白质结构预测、药物发现及设计是生物学领域的关注点。已有许多有意义的挖掘模式、挖掘算法应用在这些方面并取得相应成果。研究证明,数据挖掘是生物信息处理的强有力工具。目前数据挖掘在生物信息领域的研究重点主要表现在以下几个方面。
◆ 数据清理,数据集成,异种、分布式数据库的语义集成。
◆ DNA序列相似搜索和比对。
◆ 基因组特征及同时出现的基因序列的分析。
◆ 路径分析:发现在不同阶段的致病因。
◆ 生物数据可视化和可视的数据挖掘。
◆ 生物文献的挖掘。
◆ 基于隐私保护的数据挖掘。