1.4 数据挖掘与云计算
1.云计算的提出和概念
云计算的思想可以追溯到1961年图灵奖得主John McCarthy提出计算能力将作为一种像水、电一样的公用事业提供给用户。2001年,Google CEO在搜索引擎大会上首次提出“云计算”的概念:用户可以利用终端设备接入互联网,透明地访问“云端”的服务,“云”负责管理一切计算资源,快速响应用户的各种请求、提供服务,所需费用则根据享受的服务进行计算。
目前,对于云计算的认识在不断地发展变化,从一般应用的观点看,云计算是基于互联网的超级计算模式,包含互联网上的应用服务及在数据中心提供这些服务的软硬件设施,进行统一的管理和协同合作。云计算将IT相关的能力以服务的方式提供给用户,允许用户在不了解提供服务的技术、没有相关知识以及设备操作能力的情况下,通过互联网获取需要的服务。
2.云计算的发展
未来云计算发展的首要问题是标准化问题。云计算的标准化关乎云计算的规模应用和普及,例如云系统之间的互操作问题,用户需要将云计算应用程序迁移到另一家公司的云计算平台上,等等,都需要统一的云计算公共标准,但由于云计算涉及IT领域较多,例如基础设施、平台、应用和服务,很难在短期内形成统一的标准。
此外,云计算的推广还依赖于有效的并行计算的解决方案,涉及编程模型、开发语言和开发工具等方面。大规模的集群计算系统支撑大容量计算和云存储,有效地进行系统配置、监控、管理、调度等需要可靠的系统技术。
3.基于云计算的数据挖掘分析
云计算的动态性和可伸缩性为高效实现海量数据挖掘创造了可能性;云计算环境下云用户的参与为基于群体决策的数据挖掘方案研究提供了条件;云计算使面向大众的数据挖掘成为可能。
云计算的海量数据挖掘能力更加高效,但也带来了两个问题:首先,云环境下从海量数据中获取用户满意的信息,这一核心目标直接导致云环境下用户对数据挖掘功能的需求产生变更,用户对海量数据挖掘的需求主要体现为个性化需求与多样性需求的增加;其次,海量数据的挖掘除了要处置其数量级,还要处理高维、动态的数据。