上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
1.4.7 数据挖掘
计算机网络发展得越来越快,计算机处理的信息量也随之增加。然而,数据库中存储着许多没有被有效利用的信息,这不仅造成了资源浪费,还导致了数据垃圾堆积。为此,人们开始尝试从数据库中挖掘出新的知识。数据挖掘和知识发现就是涌现出的两种方法。数据挖掘就是从大量数据中提取出有价值或者有意义的信息或者模式;知识发现就是将这些信息或者模式转化为可理解或者可应用的知识。这两个概念都属于20世纪90年代初期兴起并日益活跃的一个研究领域。
人们可以用知识发现系统来从数据库中找出新的知识。这个系统会用各种学习方法,自动地分析数据库里面很多没有处理过的数据。它会从这些数据里面筛选出有规律性和意义性的信息,比如客户购买行为、市场趋势、疾病预防等。这样,就能看到这些数据之间有什么联系和规律,也就能得到新的知识。知识发现就是整个从数据库中找出新知识的过程。而数据挖掘只是其中一个重要的环节,就是用数学或者统计方法来提取信息。
数据挖掘就是从数据库里发现有用的模式,也就是一些能够表示知识的规则、聚类、决策树或依赖网络等。一般来说,数据挖掘要经过四个步骤,即数据预处理、建模、模型评估和模型应用。在数据预处理阶段,要了解数据的特点,选择合适的属性,把连续属性分成几个区间,处理数据中的噪声和缺失值,选择有效的实例等。在建模阶段,要选择合适的学习算法,并确定算法的参数。在模型评估阶段,要用训练集和测试集来检验模型的性能,并对模型进行评价。如果得到了满意的模型,就可以用它来解释新数据。
知识获取是人工智能领域一个很重要的问题。因此,在人工智能研究中,知识发现和数据挖掘也就成了一个热门话题。