第2章 数据仓库与数据挖掘的应用和发展
本章引言
数据仓库与数据挖掘技术卓越的分析能力鼓舞着人们将其应用到自己的领域中,出现了不少成功的应用实例。但是,各行各业都有自身的特点,在实施数据仓库和数据挖掘时,应该找到本企业与这两项技术的合理结合点。本章介绍了数据仓库和数据挖掘技术在金融业、通信与安全行业、生产制造与零售行业以及其他一些行业领域的应用状况、技术与行业的结合点等,最后通过实例进一步说明数据仓库与数据挖掘技术在这些行业的应用水平。
数据仓库与数据挖掘技术是充满希望的,它们在将来会有巨大的发展前途。因此,有必要了解这两门技术未来的发展特点是什么,掌握它们的技术走向和应用趋势。本章正是从技术和应用两个方面,展望了数据仓库和数据挖掘的未来。
本章重点
● 数据仓库与数据挖掘的应用领域
● 数据仓库与数据挖掘在各个行业的应用
● 数据仓库技术的发展趋势
● 数据挖掘技术的发展趋势
● Web数据挖掘
2.1 金融行业的应用
在银行、证券公司、保险公司等金融行业企业中,每天的业务都会产生大量数据。利用目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏知识的手段,导致了“数据爆炸但知识贫乏”的现象。与此同时,金融机构的运作必然存在金融风险,风险管理是每一个金融机构的重要工作。利用数据挖掘技术不但可以从这海量的数据中发现隐藏在其后的规律,而且可以很好地降低金融机构存在的风险。学习和应用数据挖掘技术对我国的金融机构有重要意义。
2.1.1 银行
目前,银行基于经营绩效和风险控制的要求,都十分重视数据仓库技术的应用。美国《幸福》杂志评选的1998年全球100家最大银行中已经有90家建有数据仓库,国内几大商业银行已经或正在尝试实施基于数据仓库技术的各种应用方案。对于银行业来说,数据仓库的应用面非常广,基本上涵盖了银行经营管理与业务运作的各个方面,银行能在以下几方面提高绩效管理、风险控制能力。
1.银行绩效考评
基于数据仓库全面考核银行绩效,以账户为基础计算每个账户的平均余额、直接收益、应分摊的资金成本和非资金成本、风险成本和资本成本,再根据账户逐级汇总到客户、产品、渠道和业务单元,从而精确、客观、多角度考核客户、产品、渠道和业务单元的经济附加值和风险调节的资本回报率情况。从而识别高收益的客户和产品,并有效考核机构业绩,更好地配置银行资源,提高银行的赢利能力,并降低成本。
2.银行风险管理
数据挖掘还可以解决银行经常面临的诈骗行为,如信用卡的恶性透支及可疑的信用卡交易等。通过数据挖掘,人们可以得到这样的判断:“什么样的人使用信用卡属于什么样的模式”,而且一个人在相当长的一段时间内,其使用信用卡的习惯往往是较为固定的。因此,一方面,通过判别信用卡的使用模式,可以监测到信用卡的恶性透支行为;另一方面,根据信用卡的使用模式,可以识别“合法”用户,如此便可以得到诈骗行为的一些特性。当某项业务符合这些特征时,就可以向决策人员提出警告。这方面应用非常成功的系统有FALCON系统和FAIS系统。
3.银行信用等级评估
金融业风险与效益并存,分析账户的信用等级对于降低风险、增加收益是非常重要的。利用数据挖掘工具进行信用评估的最终目的(也就是其输出)是:从已有的数据中分析得到信用评估的规则或标准,即得到“满足什么样条件的账户属于哪一类信用等级”,并将得到的规则或评估标准应用到对新的账户的信用评估,这是一个客户信誉分析。上文介绍的OLAP也可以用来进行账户信用分析,但其目的不同于数据挖掘工具。应用OLAP信用分析,其输入是信用评估的规则或标准,其输出是账户的信用评估结果,即得到“某账户的信用等级是……”、“不同信用等级的账户的成分比例分布是……”等对分析问题的回答。如果将OLAP工具再深入一层,还可以对不同的信用等级的账户进行特征归纳。因此,数据挖掘得到的规则可以作为OLAP工具的输入,反过来OLAP工具分析得到的答案又检验规则的有效性、可信度,OLAP工具分析得到的特征归纳还可以用来完善规则。
4.银行客户关系管理
随着竞争的日益深入,全球商业银行中的“深度效益”观念浮出水面,银行由传统的注重交易转变为注重客户关系和客户价值,从而产生了“关系银行”这个概念。例如,美国Bank One银行对自己的客户进行调查发现,20%的客户创造银行利润,其他80%的客户并没有给银行创造利润。针对这种情况,Bank One银行用各种数据集中起来建立数据仓库与数据挖掘系统,从所建立的数据仓库中挖掘出为银行创造利润的这部分客户,从复杂的客户信息中建立模型,对客户记录信息进行动态跟踪和监测,计算客户价值,锁定特定客户群,分析潜在客户群,制定不同市场需求、不同客户群的市场战略,根据客户的价值选定服务产品配置,从而与创造利润的优良客户建立长期关系。这些模式大大帮助提高了客户忠诚度。
5.银行服务分析和预测
Mellon银行使用Intelligent Miner数据挖掘软件对银行数据进行分析,发现其数据模式及特征,然后可能发现某个客户、消费群体或组织的金融和商业兴趣,并可观察金融市场的变化趋势。举一个简单的例子,当银行对业务数据进行挖掘后,发现一个银行账户持有者突然要求申请双人联合账户,并且确认该消费者是第一次申请联合账户,银行会推断该用户可能要结婚了,它就会向该用户定向推销用于购买房屋、支付子女学费等长期投资业务,银行甚至可能将信息卖给专营婚庆商品和服务的公司。美国Firstar银行使用Marksman数据挖掘工具,根据客户的消费模式预测何时为客户提供何种产品。Firstar银行市场调查和数据库营销部经理发现:公共数据库中存储着关于每位消费者的大量信息,关键是要透彻分析消费者投入到新产品中的原因,在数据库中找到一种模式,从而能够为每种新产品找到最合适的消费者。Marksman能读取800到1000个变量并且给它们赋值,根据消费者是否有家庭财产贷款、赊账卡、存款证或其他储蓄、投资产品,将它们分成若干组,然后使用数据挖掘工具预测何时向每位消费者提供哪种产品。预测准客户的需要是美国商业银行的竞争优势。
数据仓库和数据挖掘技术在银行应用的最高阶段是实现决策支持的“智能化”,也即实现金融智能(FI,Financial Business Intelligent)。金融智能是对银行掌握的信息进行收集、分析和管理,以使银行各级决策者获得洞察力,促使他们做出对企业更有利的决策。金融智能的管理模式包括基于目标、基于例外和基于事实的三种管理。不同类型的银行或不同业务部门可能选用不同的智能管理模式,如侧重于提供个人金融服务的银行多采用基于目标的管理,侧重于提供投资银行服务的银行,则多采用的是基于例外的管理模式。
实例:中国银行省、市两级金融管理信息系统采用数据仓库技术(引自广东省科学技术厅公众网www.gdstc.gov.cn)
中国银行省、市两级金融管理信息系统是中国银行广东省分行承担开发的国家“八五”科技攻关项目。该系统在工程组织和总体方案设计上采用数据仓库及联机分析处理理论。系统重点围绕中国银行资产负债管理的要求,建立覆盖全省22家分行的数据采集网络,初步实现了计算机业务系统数据和手工报表数据采集、存储的自动化。同时面向各级经营管理人员,开发出财务分析、业务管理、动态报表和金融信息等共计50余项管理分析应用。目前,系统已在广东省各家分行全面推广使用,成为中国银行省、市分行实行科学管理的有力工具。中国银行省、市两级FMIS系统在利用和规范现有网络资源、系统资源的基础上,构造出数据采集、数据仓库、数据呈现3个分系统框架,与中国银行收付清算网络、中国银行办公自动化网络、香港德励财经资讯网络,以及ES/9000、AS/400主机业务系统均实现了连接和集成。
2.1.2 证券
证券市场存在巨大的风险,受多方面因素影响,券商的经营对数据的正确、实时、安全性要求极高。数据仓库与数据挖掘技术作为分析与辅助决策工具已经越来越得到国内券商的重视。证券公司应该能够给自己的客户提供大盘及各股的未来走势信息,给客户的投资、选股提供有价值的参考,尽可能地回避风险。更何况,大多数证券公司本身就是证券的投资者,因此证券业对数据仓库和数据挖掘技术存在着很大的需求。目前数据仓库和数据挖掘技术在证券行业的应用主要体现在以下几个方面。
1.客户关系管理
我国证券业在与我国证券市场同步发展的同时,也随着证券市场不断规范和成熟而从粗放式管理进入到集约化管理的阶段,证券业的竞争在不断加剧。这使得证券业对管理日益重视。而且由于行业特殊性,证券业的多项核心业务都与客户有密切关系。客户关系管理对于证券业大有用武之地,因此也越来越成为证券业管理的焦点和核心。
创建“以客户为中心”核心思想的证券客户关系管理(CRM)以及合作伙伴关系管理(PRM)系统,来适应竞争日益激烈的市场。其实施思路首先是实现交易的网络化,并在此基础上构建客户关系管理及合作关系管理系统,进而实现系统集中化,建立客户服务中心,为决策人、经纪人提供投资管理服务,为客户提供个人化的财务和投资服务。
证券CRM可以对交易数据进行数据总结,生成客户股票交易行为数据系统。股票交易库中保存有用户交易的历史数据,可以利用这些数据按聚类方法对用户进行分类。用客户交易数据统计出每个客户的交易情况。根据客户行为进行聚类。通过对客户数据进行聚类,将客户进行分群,考察每类客户对证券公司的贡献情况。这样可以根据客户类别产生的交易行为等特点,知道该类用户是否对公司最有价值;而证券公司根据客户行为等特点,对贡献度大的客户类采取相应的政策照顾,这样能吸引某些行为类似的贡献度较低的客户发展为贡献度较高的客户。
2.用于股市的基本面分析
对庞大的数据进行主成分分析,剔除无关的甚至是错误的、相互矛盾的数据,可以更有效地进行金融市场分析和预测。
上市公司的财务报表,向各种报表使用者提供反映公司经营情况及财务状况的各种不同数据及相关信息,而不同的报表使用者阅读报表时有不同的侧重点。一般来说,股东都关注公司的赢利能力,发起人股东或国家股股东则更关心公司的偿债能力,而普通股东或潜在的股东则更关注公司的发展前景。
不同投资策略的投资者,对报表分析的侧重点也不同。短线投资者通常关心公司的利润分配情况以及其他可作为“炒作”题材的信息,如资产重组、免税和产品价格变动等,以谋求股价的攀升,博得短差;长线投资者关心公司的发展前景。虽然公司的财务报表提供了大量可供分析的第一手资料,但它只是一种历史性的静态文件,只能概括地反映一个公司在一段时间内的财务状况与经营成果,这种概括的反映远不足以作为投资者进行投资决策的全部依据。进行报表分析不能单一地对某些科目关注,而应将公司财务报表与宏观经济面一起进行综合判断,与公司历史进行纵向深度比较,与同行业进行横向宽度比较,把其中偶然的、非本质的东西舍弃掉,得出与决策相关的实质性的信息,以保证投资决策的准确性。因此在各类公司财务报表的基础上进行有效的知识发现有两个特点:一是需要长期的、动态的公司财务数据,二是面向不同用户的知识挖掘工具。解决这么多且具有不同特点的数据挖掘,需要一个有效的数据仓库来进行数据的存储和准实时的分层知识发现。
建立较完整的数据仓库和有效的数据挖掘规则,对于验证理论分析中的特征指标也有很大好处。市盈率是财务分析中的一个重要指标,正确判断市盈率水平对分析和研究股票市场有重要意义。政府金融监管部门通过对市盈率水平的分析,可以准确地把握股市的强弱,从而提出合理的调控措施,使股票市场能平稳发展,保证国民经济健康运行。对广大投资者,市场整体的市场盈率分析有助于辨明市场风险;而分析个别板块、个别股票市盈率,有助于把握住投资价值最大的板块和股票,获取较高的投资收益。对于每股收益,即公司增长性预测,投资者不应采用直观判断,而应采用科学的分析方法,可以在数据仓库的基础上,通过数据挖掘规则的发现和验证来支持决策。
3.进行股市的技术分析
目前,数据挖掘技术主要利用时间来序列预测股票价格。数据挖掘是对大量的历史数据进行处理和分析,提炼出有价值的信息(表现为规则、模型等模式信息),其中的时间序列模型,可以用于股票价格的预测。
4.从股票交易的历史数据中发现规律
从股票交易历史数据中得到股票交易的规则或规律,发现隐藏在数据后面不同的财政金融指数之间的联系。研究探测金融政策与金融业行情相互影响的关联关系,数据挖掘将可以从大量历史记录中发现或挖掘出这种关联关系的更深层次、更详尽的一面。
美国LTCM基金是于1993年建立的“对冲”(hedge)基金,从事各种债券衍生物交易。LTCM基金的投资策略是根据数学金融学理论建立模型,运用计算机预测债券价格走向。具体做法是从各种债券历年的价格中找出统计相关规律(相当于建立数据挖掘规则)。投资者将债券分为两类:第一类是美国的联邦公券,由美国联邦政府保证,几乎没有风险;第二类是企业或发展中国家发行的债券,风险较大。LTCM基金通过数据挖掘发现,两类债券价格的波动基本同步,且通常两者间保持一定的平均差价。当通过计算机发现个别债券的市价偏离平均值时,若及时买进或卖出,就可赚取利润;并且在一定范围内,无论价格上涨或下跌,按这种方法投资都可以获利。LTCM基金在1994年3月至1997年l2月的三年多中,资金增长高达300%。
5.金融突发事件的预警
现代金融体系具有非常复杂的特点,不可能通过一两个确定性的数学模型或一两条规则和有限的数据来完全了解金融市场。建立一个完整的财经数据仓库和具有开放特性的数据挖掘模式是正确决策的有力保障。如近年来多次出现的金融危机促使人们研究突发事件对金融市场的影响,事实上人们是有可能对全球范围的财经数据,通过数据挖掘技术来研究其机理和特点,从而为金融预警做出贡献。
所谓突发事件,按其机制可大致分为以下两大类:
①“能量”积累型。泡沫经济的破灭就可以看做是“能量”积累型,这里的“能量”是被人为抬高的产业之虚假价值。这种虚假价值不断积累,直至其经济基础无法承受时,就会突然崩溃。积累的虚假价值越多,突发事件的威力就越大。日本泡沫经济在1990年初崩溃,其重要原因之一就是房地产所积累的虚假价值过分庞大。
②“放大”型。例如企业间的连锁债务就有可能导致“级联放大”,即由于一家倒闭而引起一系列债主的相继倒闭,甚至可能触发金融市场崩溃。金融界所谓的“杠杆作用”利用期货交易到交割时才需付款的规定,大做买空卖空的无本交易,使其利用“杠杆作用”投资的资金可以很高,一旦出问题、这种突发事件的震撼力是惊人的。
金融突发事件的复杂性表现在:
① 多因素性。金融突发事件除了金融诸因素外,还涉及政治、经济、军事、社会等多种因素。
② 非线性。影响金融突发事件的不仅有多种因素,而且各个因素之间一般具有错综复杂的相互作用,即为非线性的关系。例如,大户的动作会影响到市场及散户的行为。用数学语言说就是:多种因素共同作用所产生的结果,并不等于各个因素分别作用时结果的线性叠加。突发事件的理论模型必须包含非线性项,这种非线性理论处理起来比线性理论复杂得多。
③ 不确定性。金融现象一般都带有不确定性,而突发事件尤甚。如何处理这种不确定性是研究突发事件的关键之一。例如,1998年8月间俄罗斯经济已濒临崩溃边缘,几乎可以确定某种事件将会发生,但对于投资者更具有实用价值的是:到底会发生什么事件?在何时发生?这些具有较大的不确定性。因此在数据仓库设计中如何定量化各种社会因素,如何在数据挖掘中关联这些因素,如何突破传统挖掘规则的设计,考虑到非线性和不确定性是应用中的关键问题。
实例:深圳国信证券建立数据仓库(引自信息时报网www.cninfotimes.com)
2002年4月,深圳国信证券的数据仓库系统(由Sybase公司提供解决方案)一期工程完成,该项首期投资近200万元的数据仓库系统建设的出发点是为当前公司的决策者提供快速有效的各种报表和分析方式,提高公司的市场反应速度和竞争力水平。更有效地发挥OLTP系统的效益,在此基础上“多快好省”地建设Data Warehouse/DSS。同时,考虑到公司业务系统的不断完善和决策支持的更高要求,对不断增长的企业数据具有无限的可扩展性并提供可控的快速查询响应时间。该系统包括了客户分析、账户分析、证券汇总分析、资金交易分析、期货盘钱交易分析等多个业界关心的主题。公司用户可以通过固定灵活报表、多维分析等多种形式实现多个层面的数据访问,数据访问的手段包括访问授权的内部Web站点、通过自动E-mail邮件转发、直接Client/Server连接等多种方式。该系统的完成是国内开放平台数据仓库系统建设的一个成功案例。
2.1.3 保险
保险业作为数据密集型行业,其数据类型多、动态变化、数据量大。数据挖掘是特别针对这些特点的分析工具,它能够对大量的数据进行深层次的分析和挖掘,让海量数据发挥巨大的增值作用。在国外,数据仓库与数据挖掘技术已经成功地运用到保险领域,要提升我国保险公司的竞争力,必须彻底改变我国落后的数据管理,运用数据仓库和数据挖掘技术辅助决策信息,从而在竞争中取得优势。目前,数据仓库与数据挖掘技术在保险领域的应用主要集中在以下几个方面。
1.医疗保险欺诈与滥用
随着我国寿险公司竞争越来越激烈,理赔服务效率便成为民众选择保险公司的重要因素。精简理赔审核流程后的后续问题是,有些人利用漏洞滥报保险金,造成保险公司沉重的财务负担。
通过数据挖掘,兼顾效率以及风险监管,能够利用过去数据建立预测模型,且通过自动化计分的功能,快速将理赔案件依照滥用欺诈可能性进行分类处理;同时协助无问题案件快速过关,也能够提供理赔审核人员追查可疑案件的线索。
一般认为,一个成功的预测模型应该具备下列功能:可以找出可疑滥用案件;整合XML格式数据挖掘模型,能够在网络上轻松运用数据挖掘结果;使用者(理赔部门)不需了解详细数据挖掘原理及技术便能直接应用;给予每个理赔案件滥用分数,让理赔人员可以根据分数高低,来迅速处理核发理赔金或决定追查;提供给理赔人员明确的追查方向;提供医院地理信息系统,协助理赔人员找出异常就诊状况及协助病历调阅。
美国Empire Blue Cross公司是纽约最大的医疗保险公司,运用数据仓库与数据挖掘技术,2003年共计节省6000万美元的欺诈理赔支出,同时也根据数据挖掘模型成功告发了不实开立医疗凭据的医生。
2.车险欺诈分析
除了寿险,保险业的车险理赔欺诈事件也是层出不穷,不但耗损公司资源,同时又会影响整体理赔金发放的服务效率。通过数据挖掘,能够利用过去的欺诈事件建立预测模型,将理赔申请分级处理,解决恼人的诈骗案。
数据挖掘的应用主要表现为:车险理赔申请欺诈侦测、业务员及修车厂勾结欺诈侦测以及显示理赔欺诈追查方向等。通过浏览器接口,车险理赔调查人员无须解读繁杂的数据挖掘模型,就能够给予每个理赔案件评级,作为案件审理以及欺诈追查的依据。
3.业务风险分析
在分析保险业务时,索赔率是我们最关心的问题。可以通过决策树来判断具备一定条件的投保人或被保险人发生风险事件而索赔的概率;关联规则可以发现投保人中索赔率高的人群具有什么样的特征。比如,数据挖掘得出在某一地区,某年龄段,对某险种投保的投保人有比较高的索赔率,那么可以看出该险种在这个地区具有比较大的风险,保险人可以通过提高保费和审慎保险来降低风险。
另外,为避免保险欺诈,一味提高保费或过分惜保并不明智,正确的做法是确定一个临界值,使有欺诈动机的投保人的诚实投保收入大于欺诈投保的收入而降低欺诈动机,此临界值主要是由保险欺诈被发现的概率以及对保险欺诈的惩罚度决定的。因此,通过数据挖掘正确确定这两个决定因素是十分重要的。
4.维持保单持有率
一个好客户的流失会严重影响企业的获利。《一对一的未来》作者Peppers与Rogers指出,若能将客户流失率减少5%,利润将会有l00%的增长。什么原因造成客户的离去呢,是否存在一些迹象可循以便能在客户离去之前予以贴心的服务,以降低客户离去的意愿?
在此,同样是通过数据挖掘机制来制定流失预警分数,以协助行销人员制定行销策略来挽回可能流失的顾客。同时,根据由数据挖掘所找出的规则,也可以协助行销人员改进企业问题,例如某家银行就在流失模型中找出一群顾客容易因为等候客服专线而造成流失,因此银行在这些客户的账单上所打印的专线号码与其他客户不同,根据由这种成本不高的措施(不需要大幅扩增客服专线数量),来减少顾客不耐久候的问题,成功地提升了顾客忠诚度。
另一方面,根据研究指出,如果一名消费者向金融机构多购买一项金融商品服务,该名顾客的流失机率会降低l5%~35%。因此,这样就为前面所介绍的交叉销售模型的应用开辟了市场,使通过交叉销售来提升顾客保单持有率成为可能。
5.既有客户保单再销售
从已经花过l0块钱的人身上再赚l0块钱,远比新客户容易。对于保险业来说,经过一次交易之后,不但建立起与客户之间的情感信任,同时更在交易过程中收集了更多的资料。通过这些资料能够对这些客户将来对于公司的忠诚度进行分析吗?在保险和金融服务领域,对这个问题做出回答是非常具有挑战性的。因为在这个领域,第一年或者是第二年和客户发生摩擦的费用是相当高的。此时,应用数据挖掘的技术,可以进行更细致的分析,掌握顾客的喜好与需求,进行后续的交叉销售以及垂直销售,来改善公司和客户之间的关系,增进客户和公司的感情。
数据挖掘的主要功能表现在:找出险种销售组合、找出保户提高保额的时机、建立现有客户再销售清单与规则、建立顾客消费周期事件时序关系。通过数据挖掘的技术,不但能够运用关联规则找出一次销售给顾客的最佳保险组合;同时还能利用时序规则技术找出在顾客生命周期中,购买保险的时间顺序与规律,协助保险公司找出针对既有客户再销售的最佳方案。
6.保单电话行销
除了业务员推销之外,电话行销也是拓展保险业绩的重要渠道。在直销盛行的今天,各寿险公司莫不将电话行销中心视为竞争力的重要指针。
数据挖掘能够利用过去的电话访谈、成交记录建立预测模型,协助电话行销人员找出较有购买意愿的潜在客户,让行销人员不必再乱枪打鸟,从而提升电话销售成交率。同时,数据挖掘模型结果可以与电话行销中心内部系统整合,提供给电话行销人员最快速的协助。包括:决定最有可能的销售险种、决定成交机率最高的call out时机、决定销售成本、提供交叉销售与再销售规则、提供现有客户流失解约可能性指针。
通过数据挖掘协助电话行销人员的系统只要一个按键,就可以将该客户的个人资料放进数据挖掘的预测模型中,便可以立即显示该消费者选购住院日额险的可能性。另一方面,在进行out-bound call的同时,也可以利用这项机制,筛选出最有可能的族群进行电话行销,以减少电话行销资源的成本,将电话行销效益最佳化。
7.保单直效邮件销售
由于寿险业竞争日渐激烈,在减少业务员佣金成本的条件下,原本动辄被业务体系抗议的直效行销手法,已经逐渐为国内寿险业接受。如何节省邮件行销资源,提升邮件回复率,成为各寿险公司直效行销部门的重大挑战。通过数据挖掘,能够利用过去邮件行销的历史响应纪录,协助寿险公司进行下列分析:筛选可能的响应客户名单、选择可能购买的险种、分配免费保单资源。
在直销邮件销售中,用增益表或累计增长图,可以很快确定目标族群,根据图形显示判断,只要发送20%的邮件,就能够得到全部发送的55%~60%左右的回复率,也就是说,通过数据挖掘技术,能够将邮件回复率大幅提高数倍。
实例:菲奈特与深圳华安保险公司的合作(引自数据仓库之路网www.dwway.com)
2000年6月菲奈特与深圳华安保险公司合作,联合开发财产险主业务系统(SPS)和保险决策支持系统(IDSS)。这是金融决策支持系统在华南地区的首例商业应用,也是数据仓库在保险业的成功应用。该系统是以数据仓库技术为基础,联机分析处理和数据挖掘工具为手段(DW+OLAP+DM=DSS)的一整套可操作、可实施的整体解决方案,适用于UNIX和Windows NT平台,可以使用SQL Server、Platinum、Sybase IQ、Informix Meta Cube等OLAP服务器,可连接多个业务系统的异构数据源(如Informix、Oracle、DB2、Sybase、SQL Server),并同时提供Client/Server与Web两个操作版本。该系统充分利用了数据仓库的先进技术以及联机分析处理机制对数据的多维动态查询、分析和钻取功能,建成了保险决策支持系统。该系统能进一步挖掘保险公司现有的各种数据的潜力,提供关键业务指标分析、业绩分析、财务分析、市场分析、重要险种分析、重大事件分析、即席分析、风险评估、业务预测、风险告警和风险预测等功能,为保险公司领导层及时掌握经营管理的真实动态,做出科学决策提供多方位、多层次、多视觉的信息服务和重要的数据依据。
2.2 通信与安全行业的应用
通信与信息安全行业的加工对象都是信号与数据,因此这两个行业也可以称为“数据的世界”。在这两个充满数据的领域里,数据仓库与数据挖掘技术大有用武之地。
2.2.1 电信
在数据仓库技术不断发展的过程中,全球许多著名大型电信运营商已通过采用数据仓库系统获得了巨大收益。AT&T、美国西南贝尔(SBC)、Bell South、Sprint、GTE、南新英格兰电信、比利时电信、法国电信、巴西BCP电信等几十家全球著名大型电信运营商,就是在激烈的市场竞争中,纷纷采用数据仓库解决方案来占据优势的成功典范。目前,全球各大电信运营商对数据仓库的应用主要集中在以下几个方面。
1.数据整合
将多个信息系统的数据进行整合,解决由于数据的多个出口、多种表现形式而导致的异构性等问题,生成一致的、中央集成的数据是国外电信运营商对数据仓库最基本的应用。
Vodafone(沃达丰),英国一家全球性的电信运营商,以全资或完全控股的形式掌握着分布在全球26个国家的子公司。到2003年6月末,Vodafone在全球的用户数量已经超过了l2.2亿。它需要一个中央报告系统,来负责整合广泛的数据源。IT环境日益增加的异构性——包括主机、UNIX和Windows操作系统——使中央访问相关的数据成为企业需要解决的首要问题。
借助于中央报告系统,Vodafone的员工能够整合广泛数据源的数据和在非常短的时间内生成先进的报告。新系统的核心是SAS IT资源管理。来自多个数据源的数据,包括HP OpenView、ARS Remedy以及SAP R/3的IBM Tivoli和CCMS数据(通过SAS IT Management Adapter for SAP)可以自动提取并整合到数据仓库中。目前数据仓库包含不到10GB的数据。基于完备的数据整合方案,该公司还在计划将数据源的数量从5个增加到10~20个。
2.消费行为分析
通过对用户的分类,从消费能力、消费习惯、消费周期等诸方面对用户的话费行为进行分析和预测,为企业的相关解决措施提供依据和帮助。
Telecom Italia Mobile(TIM)是全球最大的电信运营商之一,在欧洲和南美拥有4800万客户。为避免客户流失和向现有客户交叉销售产品,TIM使用基于数据仓库的客户行为分析软件分析客户行为,对公司的客户数据库进行分段。该系统为TIM提供准确的、最新的客户信息,旨在提升客户赢利和市场投资回报。在竞争激烈的移动服务市场,TIM需要准确预测最有可能流失的客户,以便有针对性地开展维系工作。借助对客户行为的分析,TIM实现了这一目标。在使用该分析系统之前,TIM只有客户的联合视图。而现在,TIM拥有了开展有效客户关系管理所需要的客户行为的完整视图。
该分析系统可以帮助TIM运行复杂的分析,这一功能可以提高公司的竞争力。例如,应用它来监视促销活动之后的新产品或服务的提供,监视响应的速度使公司能够随意变更促销活动,以及评估任何变更对客户赢利的影响。
3.建立预测模型
建立一个客户流失预测模型,尽可能准确地预报客户流失的概率和可能性,以便及早采取相应的措施,防止现有客户的流失。还可以利用数据仓库技术实现优惠策略在模型上的仿真,根据优惠策略进行模拟计费和模拟出账,其仿真结果将提示所制定的优惠策略是否合适,并可按情况进行调整、优化,使优惠策略获得最大的成功。
Telefonica de Argentina是南美洲最大的电信服务供应商。公司拥有10000多名员工,提供多项通信服务,有400多万条线路和近140000名互联网客户。
面临在客户当中建立忠诚度,同时减少客户流失的挑战,Telefonica的商业智能部门采取的数据挖掘解决方案流程的一部分是建立不同的预测模型,旨在根据以前知道的信息来了解客户的行为。通过应用数据挖掘技术,Telefonica预测有可能流失的客户。根据这类信息来为措施分配优先级和有效的管理资源,以支持客户维系和收缴客户的应收账款。通过根据赢利性对客户进行分段,一旦知道高赢利性的客户即将离开,系统将提示公司采取挽留措施。
借助于预测模型,Telefonica实现了预测客户行为,建立更具赢利性的长期关系;根据对行为进行分段,预测个人愿意购买的产品;使用预测功能,来更有效地管理活动,为目标客户提供更多的产品。
4.客户关系管理(CRM)分析
客户关系管理的应用是根据客户属性,从不同角度深层次分析客户,从而达到了解客户以增加新客户量,提高客户忠诚度,减少客户流失,不断增加利润贡献度的目的。一些世界级电信运营商,如英国电信、AT&T、德国电信、MCI、SPRINT、TELIA等,无不把CRM作为企业竞争的利器。
比利时第二大移动运营商Mobistar为200多万客户提供服务,拥有30%以上的市场份额。公司的网络质量部门通过CRM来处理网络信息和客户调查,指出最常见的客户问题领域,从根本上帮助Mobistar让现有的客户满意和吸引潜在的客户加入进来。
Mobistar的网络质量部门与技术部门协作,以全面洞悉客户需求、以及导致客户流失的原因。评测电信行业客户满意度的一种方法涉及查看网络性能、每日评测和客户满意度调查。公司通过这种方法来了解哪类技术问题真正影响了客户满意度,以及每个技术问题的相对重要性。CRM推动精心设计的调查和全面分析的完美组合,为Mobistar提供了增强客户了解的强大工具。Mobistar通过应用CRM来确定有可能流失的客户类型,以及确定网络质量有可能让客户不满意的领域。它可以真正帮助Mobistar了解客户,以及规划真正有效的资源使用方法的变革。
5.欺诈防范
据统计,全球每年由于电信用户欺诈所造成的损失约占电信营收总额的5%~10%。在欧洲,电信公司每年因此减少收入近170亿英镑,损失最高的公司占其年收入的12%。据德国电信测算,仅因用户伪造电话卡,该公司每年即损失1亿马克,约4299万美元。为了防范欺诈,国际电信运营商们需要通过数据仓库不仅是被动地对可能的欺骗和欠费行为进行预防,还要主动地进行统计分析,以及时预警各种骗费、欠费等欺诈行为。
比利时国家电信经纪人使用数据仓库建立的顾客信息系统,其中数据仓库拥有超过1万亿字节的数据,包括四个多月的电话通信记录。通过欺骗检测功能,能够很快发现反常电话以及欺骗性的打电话方式,并能在造成重大经济损失之前终止这种欺骗行为。
如何对通过增值服务电话号码实施的欺诈行为进行发现及防范是一个让诸多电信运营商头痛的问题。增值服务电话的通话费一般都高于“普通”电话,此种业务提供商可以在几天内从电话公司收取到费用,电话公司本身则按月向主叫方收取总费用。(实施欺诈的)公司提供增值服务号码服务,参与共谋的合作伙伴通过几个其他电话号码非常频繁而长时间地与增值服务号码通话。该服务提供商就可在短时间内向电话公司收取相当高的通话费。当电话公司打算向用户收取费用时,会发现该用户使用假名,或已消失或拒绝支付,并无从证明他们与服务提供商之间存在共谋。
电话公司给每部电话所作的记录叫做呼叫详细记录(CDR)。呼叫详细记录存放于数据库中,一般由约50~100个字段组成。该数据库是欺诈行为检查过程的起点。在欺诈行为拨打增值服务号第一个星期结束前,从呼叫详细记录(CDR)的字段中生成包含聚集数据的每周连接视图字段,其中可包含所有对识别欺诈呼叫有用的信息。基于对该类数据的准备和聚集,创建并移植数据模型后,通过仔细观察所有群集,会发现描述正常连接和各种细分的群集会指示出欺诈呼叫。这类连接的费用、所有呼叫的总时长和呼叫次数相对而言都是比较高的。
6.网络资源管理
通过数据仓库的应用,电信运营商可以按照市场情况来管理和分析网络资源的分布使用情况,以便进行更好的容量规划,为电信业务的推广和发展提供强有力的支撑。
Bell Canada是加拿大最大的电信服务公司,拥有世界上最可靠的转换网络,为加拿大八百万以上的商务和住宅客户提供语音、数据和图像等电信服务。
Bell Canada推行占领VDSL市场的有关多住宅单位(MDU)网络的扩展战略。成功的关键在于准确标识必须安装硬件的地点以及如何将市场定位到需要购买的家庭。为了抓住优势时机,Bell Canada基于数据仓库来筛选数据以确定哪些建筑最能满足VDSL业务的市场。首先,它通过网络管理系统获得所在地区的一张多住宅单位(MDU)列表,然后标志每一栋建筑中的独立用户并创建一个该栋建筑及邻近建筑的预览,基于这个建立预测统计模型来发掘VDSL的潜在优势,将MDU划分为具有高、中、低潜力的建筑。如果一个MDU被划分到高潜力而低使用率的类别,Bell Canada就可以明确地将其作为安装业务的目标。关键是要知道设备安装扩展到什么位置,它关系到如何选择建筑物及向后来的居民进行销售。
采用基于数据仓库的网络管理软件,Bell Canada对其资源应用进行了更好的规划,从而维持并扩展了其在电信市场上的优势。
7.动态报表
通过动态报表的应用,公司主管能够查看跨业务部门、跨区域的结果,包括收入、客户资料、利益率、费用、实际情况与预测等。
Swisscom是瑞士主要的电信企业,客户遍布德国和欧洲其他国家。从收集公司财务数据的角度出发,Swisscom的规模对于自身来说通常是一种挑战。以清楚明了和可以供非会计员工统一使用的格式报告数据是一项需要方法、技术和某些工作的任务。但是, Swisscom基于数据仓库轻松实现了这一目标。
行政主管和经理不希望使用复杂的系统,他们想要的是最终、全面和可及时访问的信息,以便于制定决策,并希望可以随时使用这类信息。因此,Swisscom需要创建能够提供这些功能的MIS系统。Swisscom从数据仓库中提取所需要的数据,其财务报告系统支持非常结构化和严格的流程来确保每位用户仅访问与自身相关的报告,每次都采用相同的格式。这显著减少了报告的出错率,确保报告结果通过非常严格的审查流程。
借助于MIS系统和iPAQ设备,Swisscom行政主管可以迅速找到他们真正需要的信息。而且由于多维报告保持了它们的原有模式,行政主管无须培训就可以浏览包含公司财务数字的2500页的表格,而且不会感到困惑。可信赖数据的战略使用就是商业智能的目标所在。
实例:杭州电信数据仓库解决方案(引自计算机世界网www.ccw.com.cn)
杭州电信是杭州地区主要的电信服务提供商,面对电信业竞争日益激烈的局面,为了吸引更多的用户,杭州电信必须能够快速地为用户提供更多、更具个性化的服务。而新业务的开拓,取决于杭州电信能否快速、广泛地收集用户信息,并从所收集到的信息中分析出有助于企业决策的数据。经过比较和评估,杭州电信选择了业界领先的数据仓库解决方案。数据仓库建成以后,杭州电信就可以根据决策支持的要求开展主题分析。
杭州电信之所以选择CA数据仓库软件,是因为它具有两大优点:一是数据抽取、清洗、转换和展现一体化;二是在数据展现方面,报表的显示内容和形式可以动态改变,比一般报表更为灵活、深入。目前,该数据仓库系统面临的主要问题依然是客户资料的缺乏,以及多业务数据库的整合问题。
2.2.2 信息安全
数据仓库及数据挖掘技术目前已被用在信息安全领域,主要用于辅助信息安全的审计工作与入侵检测两个方向。
1.辅助信息安全的审计工作
基于数据仓库的信息安全审计系统,采用Syslog标准协议及基于正则表达式的模式匹配方法实时收集日志信息,借助于数据仓库将综合分析处理环境与操作处理环境分离开来,使数据库专注于各种审计日志的收集,而数据仓库则对各种源日志进行集成、提取,并按审计分析的主题域综合组织数据,同时采用信息安全多维模型的建模方法,对各个审计分析主题通过共同的分析维进行关联。形成了面向整个信息安全领域的多维星座;通过数据仓库中的多维模型,采用联机在线分析处理方法进行多维分析。同时在数据仓库的基础之上采用数据挖掘方法及关联分析方法进行数据挖掘,发现各种审计源、审计日志之间大量的内在联系,从而发现网络中潜在的安全漏洞和问题;最后根据分析结果生成可用的审计分析报表。
采用“数据驱动”的方法,利用已有安全应用的审计日志、操作系统日志等进行审计,从已有安全应用及相关数据出发,按照审计分析领域对审计数据及数据之间的联系重新考察,组织数据仓库中的审计分析主题,根据分析结果,创建数据仓库中的多维模型。
采用Syslog标准协议及基于正则表达式的模式匹配方法实时收集日志信息,通过数据仓库中的多维模型,大大提高了审计系统的扩展性及开放性;采用联机在线分析处理方法进行多维分析,大大提高了审计分析的效率。另外,数据仓库中的数据是冗余的,且不可修改,所以为调查取证提供了有效可信的证据。
2.入侵检测
入侵被定义为那些破坏系统安全策略的行为,入侵检测就是用来发现入侵行为的机制。入侵检测是基于以下假设的,即入侵行为与系统中的正常行为有显著的差别,是可以被识别的。入侵检测作为一种主动的信息安全保障措施,有效地弥补了传统安全防护技术的缺陷。通过构建动态的安全循环,可以最大限度地提高系统的安全保障能力,减少安全威胁对系统所造成的危害。
入侵检测技术实质上归结为对安全审计数据的处理。然而,操作系统的日益复杂化和网络数据流量的急剧膨胀,导致了安全审计数据同样以惊人的速度递增。使用数据仓库技术实现海量安全审计数据的收集、处理和存储,已是入侵检测研究的热点问题,具有重大的实用价值。
实例:微软用数据挖掘技术阻击网络钓鱼欺诈(引自赛迪网www.ccidnet.com)
微软公司将在其网络浏览器中使用来自Digital Resolve公司的数据挖掘技术以防范所谓的网络钓鱼攻击。网络钓鱼攻击指的是一种使用具有迷惑性的网站来试图盗取不知情使用者的私人信息的网上骗术。Digital Resolve公司宣布微软已获准使用来自Trusted Server技术的数据,这一技术通过在互联网上攀爬寻找各个网站并建立起一个网站及其合法互联网协议地址的列表。
Digital Resolve公司表示,该技术可以用来防止“中间拦截”式的攻击,这种攻击指的是一名攻击者在使受害者登入合法站点前收集其账号与密码。根据Digital Resolve所说,这样的攻击经常来自于一个可以被查出的非常规IP。
2.3 生产制造与零售行业
生产制造业与零售行业是两个具有漫长历史的老行业,在这两个行业产生、发展、成熟的过程中,积累了许多的数据。这些数据对于管理者来说,都是巨大的财富和宝贵的经验。数据仓库和数据挖掘技术为管理者使用和开发这些财富提供了一个有效的途径。
2.3.1 生产制造
自20世纪90年代初OLAP的概念提出以来,OLAP技术得到广泛的应用,从金融业、零售业、保险业到科学研究无处不在。对于生产制造行业来说,OLAP的应用也非常广泛,例如可用于故障诊断、生产过程优化、产品价格测试、市场供需预测、生产基地决策等,使决策者可以从多角度、多层次来分析数据,以保证企业的协调发展。
就生产机械的故障诊断来说,故障来源的因素有很多方面,且是一个动态的、复杂的、随机的环境,历史数据庞大。这就需要建立数据仓库,对其中的数据进行抽取、清理与转换,运用多维数据模型,并在此基础上运用OLAP技术进行操作,如向上综合、向下考察、旋转即改变维的方向、局部分析等可视化技术,在屏幕上展示多维视图的结构,使用户能直观地理解和分析数据,这样就可通过分析设备运行的各种信息来正确诊断状态和故障,提前预报故障发生的原因,从而提高设备维修的质量和效益,确保设备的最佳运行状态。
实例:SAS助力梅钢,打造敏捷制造全新模式(引自科技资讯网www.cnetnews.com.cn)
上海梅山钢铁股份有限公司(以下简称梅钢)信息化建设改造中,针对梅钢从现有传统业务模式到以智能分析为主的敏捷制造模式的转型需求,SAS软件公司提供的SAS®9企业智能平台及相应的解决方案以其整体性能优势力挫群雄,脱颖而出。SAS®9企业智能平台将帮助梅钢建立一个以敏捷制造模式为目标的基于数据仓库与数据挖掘技术的决策制定系统,促进梅钢敏捷制造模式的建设,全面提升梅钢企业核心竞争力,加快梅钢迈向世界一流现代化企业目标的进程。
作为一家具有悠久历史的钢铁制造商,梅钢在向世界一流钢铁制造企业迈进的过程中迫切需要对企业IT环境进行全面改造,及时把握用户需求,确保梅钢能在第一时间对市场变化做出准确反映,在竞争中快速胜出。针对梅钢的这一需求,SAS公司在对梅钢的目前现状进行整体分析后提出了基于Web的SAS®9企业智能平台的解决方案,它将帮助梅钢建立一个基础的分析平台,这个平台包括面向业务的数据仓库环境、各种应用分析服务器、报表体系、网络门户、SAS统计分析和数据挖掘工具、前端访问工具以及智能平台管理工具等。以此平台为基础,梅钢可以在较长的时期内逐步建立面向各业务层面的应用体系,这些应用体系包括了梅钢的生产、销售、市场、能源、人力资源等部门,从而使整个应用体系上升到企业综合竞争层面。通过有效的信息管理提高企业的效率,降低运营成本,提高产品质量,实现企业的敏捷制造。帮助梅钢打造企业决策分析便捷通道的同时,SAS智能平台中丰富的界面功能还将在整个梅钢实现商务智能“平民化”,将商务智能应用在企业各个层面,最大程度利用资源提升企业核心竞争力,实现技术、管理和人员的全面智能化管理。因为该平台起点较高,使梅钢在短期内建立起技术领先的智能分析平台,并满足梅钢信息化发展的长远需求。
2.3.2 零售
在IT技术渗入零售业之后,零售业已经发生了很多的变化,现在它已经进入了数据仓库和数据挖掘技术大放光彩的时代。零售行业的数据仓库里集中了商店大量的原始交易数据,这些数据主要包括各个商店前端设备(POS、扫描仪)采集来的原始销售数据和各个商店的库存数据。从事由数据变信息,由信息变知识的知识挖掘工作,通过自动数据采集技术,改变传统的依靠假设和推断来确定订货的方式,从数据的不断积累过程中挖掘出数亿个品种的最佳订货量、最佳商品组合分配、降价以及商品陈列等,并可分析商品分组布局、降低库存成本、了解销售全局、进行市场分析和趋势分析。数据挖掘技术在零售业应用主要体现在以下几个方面。
1.零售业的商店定位
零售业中常常出现一种现状,不同分店之间的业绩差异较大,某些分店的投资回报率很低。可以通过确定影响商店业绩的重要因素,客观描述各个分店的特征,来分析一个商店成功的因素是什么。同时可以对类似的商店进行比较,这样就能对业绩有更准确的把握。评估商店的定位是否准确,可以基于成功的案例来进行评价,这样就能够更有效地计划以后的扩张、定位以及配置。
零售业的商店定位是根据商业数据的属性将数据分派到不同的组中。在实际应用过程中,可以分析分组中数据的各种属性,并找出数据的属性模型,确定哪些数据模型属于哪些组,这样我们就以数据挖掘来分析已有数据,并预测新数据将属于哪个组。例如,我们可以将销售网点分为好、一般和较差3种类型,并以此分析这3种类型销售网点的各种属性,特别是位置、赢利情况等关键属性,找出决定它们分类的关键属性及相互间关系,此后就可以根据这些关键属性对每一个预期的销售网点进行分析,以便找出该网点属于哪种类型。
2.商品的关联组合
关联主要是描述了一组数据项目的密切度或关系。关系或规则总是用一些最小置信度级别来描述的,置信度级别度量了关联规则的强度。关联模型的一个典型例子是市场菜篮分析,通过挖掘数据派生关联规则,当做一项促销计划时利用此规则,可以帮你进行不同种类不同数量的商品组合以及不同的促销方式,那样就可以选择最优化的组合以及最合理的促销方式。
零售企业开始从经营货架空间转变到经营消费者的头脑空间,“啤酒加尿布”是最典型的事例,这是一个现代商场数据挖掘分析系统发现的秘密。一般看来,啤酒和尿布是顾客群完全不同的商品,但是数据挖掘的结果显示,在居民区中尿布卖得好的店面啤酒也卖得很好。原因其实很简单,一般太太让先生下楼买尿布的时候.先生们一般都会犒劳自己两听啤酒。
3.提高客户忠诚度
商家应该了解、分析现有的客户,并且根据这一信息挖掘每一个客户的最大购买潜力,所以当要进行促销活动的时候,数据挖掘能瞄准那些最有可能购买和最有价值的客户,这样就可以促进市场营销的市场反映,从而增加总的销售收入。顾客信息分析主要用于分析数据仓库中的某类同时间相关的数据,并发现某一时间段内数据的相关处理模型。当一名顾客购买了一瓶维他命C,三个月后系统会把维他命C作为推荐产品出现在购物清单中,并且提醒顾客,你的维他命C已经吃得差不多了,要不要再买上一瓶。这种经常性的加上购买建议的采购清单就是零售商们维护自己忠实顾客的法宝,而且通过这样的购买,消费者提供给商家关于自己购买要素的信息的可能性和真实性要高得多。正是这些信息推动了顾客关系管理——现代商业成功所必需的最重要的因素。
4.零售业的市场监测与营销
当前零售业往往面临着市场预测不准确,营销活动没有效果的困境。商家迫切需要准确方便地进行市场预测、制定出合适的营销计划、检验不同的资金分配以达到最大收入的最佳组合方式。这一切的关键是如何增加营销活动的投资收益,在决定投入哪一项营销活动时,公司能够很容易地对不同的营销项目进行比较和分析,这样就能把资金投在最有价值的地方了。数据仓库和数据挖掘技术可以通过从记录中挖掘关联信息,例如,客户现在订购一台激光打印机,以后还可能订购打印纸;可以发现购买某品牌香水的顾客也很喜欢购买同样风格的化妆品、日化用品等。这类信息可用于形成一定的购买推荐,Web、每周传单或收据上宣传,以便改进服务,帮助顾客选择商品,增加销售额。
实例:零售之王沃尔玛的数据仓库之路(引自立帜网www.leadzil.com)
在美国或世界其他国家,超市的管理者会津津乐道“尿布与啤酒”的故事,这个故事的主角就是沃尔玛。如今,沃尔玛利用NCR的Teradata对超过7.5TB的数据进行存储,这些数据主要包括各个商店前端设备(POS、扫描仪)采集来的原始销售数据和各个商店的库存数据。Teradata数据库里存有196亿条记录,每天要处理并更新2亿条记录,要对来自6000多个用户的48000条查询语句进行处理。销售数据、库存数据每天夜间从3000多个商店自动采集过来,并通过卫星线路传到总部的数据仓库里。沃尔玛数据仓库里最大的一张表格(Table)容量已超过300GB,存有50亿条记录,可容纳65个星期3000多个商店的销售数据,而每个商店有5万到8万个商品品种。他们在从事由数据变信息、由信息变知识的知识挖掘工作,通过全球、全集团、全方位、全过程、全天候的自动数据采集技术,改变传统的依靠假设和推断来确定订货的方式,从数据的不断积累过程中以小时为单位动态地运行决策模型,导出数亿个品种的最佳订货量、最佳商品组合分配、降价以及商品陈列等。如今已将其数据仓库容量大幅扩充1倍以上,由44 TB扩大到101 TB,容量为全球第二大数据仓库的两倍以上。利用数据仓库,沃尔玛在商品分组布局、降低库存成本、了解销售全局、进行市场分析和趋势分析等方面均有卓越表现。
2.4 医疗与生物医学行业
近年来,医疗卫生与生物医学工程研究有了迅速发展,测量仪器技术的提高使得大量医学信息可以被精确地记录下来,尤其随着医院信息系统在各大医院逐渐投入使用,收集到的患者信息不仅包括医学影像、各项生理指标,还包括患者年龄、性别、身高、体重、既往病史等大量详细的背景资料,为了能够发现隐藏在这些海量数据背后的那些新的有价值的医学信息,数据仓库与数据挖掘技术发挥出了积极的作用。
2.4.1 医疗
随着计算机在医学上应用的日益普及,用计算机存储病案在医院已经比较普遍。各医院收集的数据是患者的真实数据。经汇总后的数据量相当庞大。从这样的数据集中运用各种数据挖掘技术探求各种疾病之间的相互关系、各种疾病的发展规律,总结各种治疗方案的治疗效果,以及对疾病的诊断、治疗和医学研究是非常有价值和发展前景的。
1.患者费用构成分析
患者费用由手术、治疗、检查、化验、药品等组成。该功能可以分析医院、科室乃至各个病房内的患者费用构成,从而能有针对性地控制费用比例,探究医疗费用项目结构的合理性,使医院管理者有针对性地控制医疗费用。例如,国家对药品占医疗总收入的比例有严格的要求,利用数据仓库内的信息,可以分析在某段时间内,某科室开具处方的药品是否超过了合理的比例,从而为医院合理控制药品比例提供了决策依据。
2.同期费用对比分析
该功能可以按不同的时间维度(包括按年综合、按月综合、按旬综合)对各个科室或各个病房同期的各种费用进行对比分析,并以各种专业报表、视图的形式反映给医院管理者,找出收入增加或减少的原因。例如,各科室、各病房近五年药品收入时间变化趋势,寻找变化的原因,促进有利因素,减少不利因素。
3.患者结构分析
可以运用秩和比法对医院门诊住院患者的地区分布、性别分布、身份分布、职业分布、年龄分布等方面进行分析,从而得到不同地域、不同性别、不同年龄、不同身份、不同职业患者的经济状况、需求的主要医疗服务类型等信息,使医院管理者了解患者差异对医院收益的影响,能够针对不同类型患者采取一些措施来提高服务质量,增加门诊量和住院收容量。
4.患者流动情况分析
该功能可以分析门诊患者从挂号到取药再到离开医院的时间分布以及住院患者从入院到出院各个就医环节的时间分布。分析出患者的就医瓶颈,掌握影响患者诊疗效率的因素,以便能针对这些因素采取措施来帮助医院管理者进行业务流程的更新和改进,提高患者的就诊效率。
5.医疗工作量影响因素分析
科学合理地评价各种医疗工作量影响因素,找出影响医疗工作量变化的主要因素,是进行医疗工作量影响分析的目的,为医院管理决策提供了支持依据。例如,医院收治患者数是医院工作量的重要指标之一,它直接影响医院的经济效益和社会效益。利用数据挖掘技术中的灰色关联分析方法对医院收治患者数的影响因素进行分析发现:病床周转次数、住院患者手术人次、年收治患者人数、平均开放病床数和年平均医生人数与年收治患者数关联程度较高。
6.单病种分析
该功能根据ICD-10疾病分类标准,对单病种进行分析,包括对单病种的住院费用、住院天数、转归、病情、治疗方案等方面进行分析,为医疗质量管理提供依据,使医生能够及时总结经验,找出最佳治疗手段,既缩短了患者的就诊住院时间,减轻了患者的负担,同时医院也提高了工作效率,增加了经济效益。
7.患者就诊时间分析
由于患者入院的季节性较强,可以通过分析每月、每季度的门诊人次、住院人次、床位周转率,利用数据仓库,通过时间维度分析,建立数据挖掘中的灰色预测模型,来预测下一时期的门诊和住院人次。根据预测信息,医院管理者可以提出有针对性的措施,确定最优的服务项目时间表,从而做出终止或开拓某种医疗服务项目的决定,以便对人力资源、医疗设施、医疗设备做出适当配置。
8.科室综合评价分析
利用数据挖掘技术对医院各科室进行综合评价分析,从数据仓库中选出代表性强、独立性好,能反映科室工作效率、治疗质量、经济效益、综合管理等方面的多项指标进行综合评价分析,从而可以找到科室的薄弱环节,并采取相应的措施进行调整,以提高科室的综合水平。
9.成本效益分析
该功能可以把各个不同系统如信息系统、物流系统、财务系统等的数据汇总到数据仓库,然后对医院的成本效益情况进行全面分析,以便能真正把握医院的经营状况,提高医院的经济效益。例如,各药品库存量的时间动态趋势,通过分析来减少药品库存量,加快资金周转速度;按需要统计出医院各种药品、耗材的用量以及主要是哪些厂家的产品,这样可以保证合理存量,有效地规范医疗用品购销行为;对医院资金运转情况进行财务分析,了解医院状况和资金流向,分析医院运营风险,利用数据挖掘中的环基比和定基比技术分析医院资金的增长速度,并用曲线拟合来预测未来的现金需求量,为投入决策和促进资源的有效配置提供依据。
实例:国内外医疗行业数据仓库技术应用现状(引自《解放军医院管理杂志》2005年第12期)
数据仓库技术在国外卫生领域中已开始应用,并获得了很大的效益。在美国加利福尼亚大学放射医学部构建了建立在PACS环境基础上的数据仓库,其中包含图像与非图像信息。运用此数据仓库开发出的界面对癫痫病的诊断、治疗提供了很大的帮助。费用疗效比例是卫生组织评价医院优劣的重要指标,加拿大St.Michael医院通过应用数据仓库解决方案,给医院提供了一个及时、准确的费用疗效估计系统,对疾病进行管理可以达到降低事故率、促进疗效、减少费用的目的。它主要是通过估计患者可能患某疾病的危险性来采取相应策略。在美国新泽西州构建了一个数据仓库来估计患者可能患某疾病的危险性,取得了很好的效果。
数据仓库在国内医疗行业的应用在近两年才开始起步,目前建成数据仓库的医院很少,2003年10月,解放军南京军区福州总医院与马来西亚Sela Yang医院及福州维胜公司合作,建立了大型综合性数据仓库支持决策系统,成为国内部队医院数据仓库应用的先行者。
2.4.2 生物医学
数据挖掘技术在生物医学领域主要有两类典型应用:生理规律或现象的描述,疾病发作前的预测或病症的诊断。近年来,国内外学者采用数据挖掘技术在DNA分析、医学影像数据自动分析、糖尿病及心血管系统疾病患者多种生理参数监护数据分析等方面进行了成功应用。由于DNA分析研究是当前生物医学领域最热门的课题之一,研究报道也最多,所以下面将比较详细地介绍一下数据挖掘技术在这方面的应用和它们的成果。
人类的遗传功能是由核酸承担的,核酸分为两大类:脱氧核糖核酸(DNA)和核糖核酸(RNA),它们是由核苷酸、戊糖以及磷酸构成。DNA分子上的四种核苷酸A、G、C、T的排列组合顺序蕴含了丰富的遗传信息,其中每三个相邻的核苷酸包含一个遗传密码。基因就是指染色体所运载的DNA双螺旋链上的一段序列,该序列由四种核苷酸通过不同的排列组合形成。基因在特定条件下可以表达遗传信息并表现特定的生理功能,是生物性状遗传的基本功能单位。
不同的基因组合会导致不同特征的人体。因此,基因的准确定位及全顺序分析对研究人类遗传以及对某些疾病的治疗是很有帮助的。但是,由于基因的数目太庞大,一个基因又是由成百个核苷酸构成,而且很多生物性状不仅仅是由一个基因决定,导致关于基因识别和基因表达的研究进展还不是太理想。而数据挖掘已经可以提供很多成熟的序列模式分析和相似检索技术,因此,被认为是DNA分析中的强有力工具。研究者希望能通过该技术从已经测得的基因数据库中找出导致各种疾病的特定基因序列模式。
数据挖掘在DNA分析中的应用包括下面几个方面。
1.编码序列与非编码序列的区分
在人类基因组中,编码部分占总序列的3%~5%,其他通常称为“垃圾”DNA,其实一点也不是垃圾,只是我们暂时还不知道其重要的功能。分析非编码区DNA序列需要大胆地想象和崭新的研究思路和方法。DNA序列作为一种遗传语言,不仅体现在编码序列之中,而且隐含在非编码序列之中。
在染色体中,更多的是非编码序列,而被包围其中的编码序列包含了蛋白质的编码信息,将编码序列和非编码序列进行区分是进行基因研究的基础。目前为了将编码序列和非编码序列进行区分不仅需要进行很多次的实验,而且需要很大的计算量,因此在区分精度或者分类方法上如果能够有所提高,对于发现新的基因有重大意义。
将编码序列和非编码序列进行区分其实质是一个分类问题,即根据给出的数据将它们归为编码序列和非编码序列两个类别。将一个给定序列中的核苷酸按照一定的方法转换成数值或矢量,然后对得到的数据进行分类。分类问题在数据挖掘中已经有了很多研究,可以使用比较成熟的分类算法进行编码序列和非编码序列的区分。
2.DNA序列间相似搜索和比较
对分别来自带病组织和健康组织的基因序列进行比较,以识别两者之间的主要差异,将可能发现致病基因因素,或抗病基因因素。这是大多数从事DNA分析的研究工作者的主要工作手段。首先从数据库中检索出样本,构造由患者的基因序列和健康组织的基因序列构成的对照组,通过神经网络、频度统计等人工智能技术对两者进行比较以识别出两类样本间的主要差异或找到每一类中频繁出现的模式。如果在带病样本中出现频度超出健康样本的序列,则可能是致病因素;如果在健康样本中出现频度超出带病样本的序列,则可能是抗疾病的因素。
虽然基因分析需要相似搜索,但采用的具体技术与普通时间序列分析有很大的差异,常规的数据变换方法如伸缩、规范化等对基因数据而言是无效的。因为基因数据是非数字的,其内部的不同种类的核苷酸间的连锁互换等结构对基因功能表达有着特殊的重要意义。许多研究报道表明,频繁序列模式分析在基因序列相似与非相似分析中可能会比较有效。
3.演化分析
低复杂性或隐藏的简单序列广泛分布在蛋白质序列里,但人们对它们的演化和功能却知之甚少。Alba M.M.等人开发了一个新的、基于SIMPLE算法的工具。该工具使量化蛋白质中简单序列数量的工作更加便利,并能根据给定的阈值显示简单序列的聚类结果。通过调整该程序的敏感度,还可以在不同级别上对简单序列的内容进行研究,以便了解简单序列的演化和功能。
4.可视化
DNA的复杂结构和序列模式通常可以由各种可视化工具以图、树等可视化形式展现。这种可视化的结构和模式方便了模式理解、知识发现和数据交换。Xdigitise就是一款用于杂交实验可视化的软件,它使用户分析相应图像更加容易。借助该系统,高密度DNA阵列被分析后显示,图中的斑点位置被标出,图中完全相同的部分用彩色区分,其图像分析结果很准确。
实例:数据挖掘技术在生物医学领域的成就(引自中国水利水电出版社,邵峰晶、于忠清编著《数据挖掘原理与算法》)
数据挖掘诞生后,在生物医学领域有着广泛的应用。Neum Medical系统公司采用神经网络技术进行油性流质食物辅助诊断;Vysis采用神经网络技术为药品开发进行蛋白质分析;Rochester大学癌症中心和牛津移植中心采用基于决策树技术的Knowledge SEEKER辅助他们的研究工作;南加州大学脊椎病医院利用Information Discovery进行数据挖掘。目前数据挖掘技术已经应用到肿瘤学、肝脏病理学、肝炎的生存概率预测、泌尿学、甲状腺病例诊断、风湿病学、craniostenosis综合病症诊断、皮肤病诊断、心脏病学、神经心理学、妇科医学、产科医学等众多医学领域。Jiawei Han和Micheline Kamber从异构和分布式基因数据库的语义集成、DNA序列间相似的搜索和比较、同时出现的基因序列的识别、发现在疾病不同阶段的致病基因等方面阐述了数据挖掘在DNA数据分析领域中的应用问题。他们认为,数据挖掘中的数据清理和数据集成方法将有助于基因数据集成和用于基因数据分析的数据仓库的构造;频繁序列模式的分析在基因序列相似与非相似分析中至关重要;关联分析可用于帮助确定在目标样本中同时出现的基因种类,有助于发现基因组和对基因间的交叉与联系的研究;路径分析则会在遗传研究中起到重要的作用。Muggleton等人提出利用归纳逻辑编程,根据氨基酸序列信息预测蛋白质第二结构。Igor Kononenko等人认为,在机器学习的帮助下,医师诊断患者的正确率将会提高。他们从医学诊断的角度阐述了统计或模式识别方法、符号法则的归纳学习、人造神经网络三类机器学习算法在医学领域中的应用问题。Miroslav Kubat等人针对医学检测中心电图、脑电图等生物医学信号的分析,提出使用决策树来初始化神经网络可以大大提高对测试样本的分类准确率。Robeit Groth则对聚类技术在患者术后康复问题分析的应用进行了阐述。
2.5 其他行业
除了以上所提到的几个同国民生产、生活有着密切联系的行业之外,还有许多其他行业也应用到了数据仓库与数据挖掘技术。它们与各个行业的实际情况相结合,为这些行业的企业创造了令人满意的效益。
2.5.1 公安
数据仓库以及数据挖掘技术在公安系统的应用具有很大的广度和深度,它为打击犯罪、保障人民生命及财产安全做出了自己的贡献。具体来说,数据仓库与数据挖掘技术在公安系统中的应用主要有以下几个方面。
1.犯罪行为分析
犯罪行为分析本身是一门很复杂的学科,渗透了法学、心理学、行为学等多门学科,需要相当的专门知识,现在还处在探索研究阶段。利用数据仓库,可在拟定的算法下对大量的犯罪行为记录进行分析,从而发现犯罪的规律、趋势,了解不同犯罪行为之间的关联,譬如何种状态会诱发何种犯罪行为。相信这是公安司法领域数据挖掘的主要方向。
2.交通管理决策
交通管理一直是城市管理的重要内容,随着道路、车辆迅速增长,传统手工劳动式的交通岗亭指挥已不能适应实际工作的需要。建立交通情况数据仓库,运用数据挖掘和OLAP技术,实时监测路面状况和交通流量,及时制定对策,有效疏导交通阻塞等,这些都是未来交通管理的重要方向。
3.警力安排决策
如何预防和制止突发事件,一直是各级公安机关考虑的头等大事。如何科学、合理地安排警力,在治安状况多变的情况下,既保证社会生活秩序,又不浪费警力,减少无效劳动,也是今后工作的重点之一。
4.消防调度决策
消防工作具有很强的时间性,其调度具有极强的科学性。在人员配置、车辆配置、水源安排、最佳路线选择等方面都具有大量的信息可供挖掘。
实例:云南检察机关将数据仓库系统引入检察院日常管理和案件审理(引自正义网www.jcrb.com.cn)
自从2000年高检院吹响科技强检的号角,云南省检察机关信息化事业逐步迈向新台阶,率先在全国检察系统建立了检察机关数据仓库系统,通过对系统数据的充分运用,把跳跃的数字变成了检察工作的“财富”。大量的检察业务数据是检察信息化的成果之一,如果不加以科学利用,就会像海底沉睡的生物般无声无息。数据仓库系统的建立,有效地实现了全省检察信息的整合利用,形成了一种形象直观、简单易用的信息“财富”。
2005年,在云南省检察院党组的高度重视下,云南省检察院副检察长、信息化领导小组组长乔汉荣积极到省科技厅等相关部门协调立项工作。近两年来,云南省数据仓库系统的建设正在进一步走向规范化,并已引起高检院信息中心的关注。
“建立数据仓库系统,就像是我们和计算机数据之间有一个美好的约定。”一名检察官这样比喻。云南检察机关的数据仓库系统,采用了目前先进的商业智能分析技术,在全面系统分析检察机关业务、管理和决策特点的基础上,依照高检院制定的业务数据格式规范和信息分类代码规范,构建了符合检察机关管理特点的业务数据模型,通过功能强大的前端决策分析平台,为各检察业务部门提供了一个全方位、多角度、多层次的立体智能分析工具。数据仓库系统设置了涉及9个业务部门的37个分析主题,近2万多个分析指标。办案检察官只要登录该系统,将所有刑事案件罪名输入报表列,然后选择年份,就能马上看到相应年份全省所有刑事案件数据,再对这些数据进行自动排名,便可以很快获得全省各类刑事发案数的基本情况。
借助数据仓库系统,云南省检察院已经详尽掌握了全省检察机关所办各类案件的共同特征和发案规律,特别是对毒品犯罪、职务犯罪,有了更全面深入的掌握。在实际工作中,各级检察机关的决策者能够通过跳跃的数字,轻松地跟踪其指标的变化,快速准确地定位关键信息所在,及早发现问题,提高管理、监督、决策效率。前不久,云南省检察院公诉部门提出了八项考核指标,网络信息中心立即运用数据仓库系统对全省各级院的公诉部门所办案件进行指标分析,迅速得出了考核结果。这种智能化的工作模式,从根本上提高了各业务部门事前预防、事中监督、事后分析等方面的能力,也提高了检察机关履行法律监督的整体效能。
2.5.2 税务
增加税收、提高效率、改善执法的一致性与公平性、降低对纳税人的负担和干扰,是税务稽征部门的重要目标。然而这些目标往往又是相互冲突的,要在其间找到最适当的平衡点非常困难。通过应用数据仓库技术,对税收部门的内部和外部数据进行综合分析处理,可以解决三个方面的问题:① 查出应税未报者和瞒税漏税者,并对其进行跟踪。② 对不同行业、产品和市场中纳税人的行为特性进行描述,找出普遍规律,谋求因势利导的税务征稽策略。③ 对不同行业、产品和市场应收税款进行预测,制定最有效的征收计划。
数据仓库技术之所以能够查出漏税者,其基本思想是通过对大量数据资料的分析来掌握各行各业、各种产品和各类市场的从业人员以及企业的纳税能力,并与其实际纳税金额进行对比,从而查出可能的偷漏税者。数据资料获取和匹配技术是这一功能的基础,数据挖掘技术(Data Mining)也必不可少。这些技术所面临的一大挑战就是数据来源的多样性。数据量非常大,而且以不同的形式来自不同的地方和部门,有效利用这些数据就是NCR推出可伸缩数据仓库(Scalable Data Warehouse)的目的。可伸缩数据仓库是由纳税人特征描述系统对纳税人过去的行为进行分析,由市场划分系统将具有相似特征的纳税人归入同一类,进而对这一类纳税人的普遍行为做出预测,设计出适合这类纳税人的税务征稽方案。
数据仓库技术在政府税收部门的应用带来的效益是可观的。澳大利亚政府税务部门将数据仓库技术用于支持税收业务,系统经过3年的运行投入回报率达到1:15。美国得克萨斯州政府税务部门采用数据仓库技术半年,而且工程尚未结束,每月已可带来600万美元的收益,预计每年的收益将超过8000万美元。
实例:深圳市国税局与深圳奥尊电脑公司合作开发新一代税务信息化系统(引自数据仓库之路网www.dwway.com)
深圳市国税局与深圳奥尊电脑公司合作,以蛇口国税为试点,开发了新一代税务信息化系统,目前已投入运行。该税务信息系统以办公自动化为核心,实现跨平台、跨区域、多功能的智能办公系统,它全面融合电话报税系统、网上税局技术,使纳税人通过电话或Internet进行纳税申报以及企业报表填报,提供税务系统的业务数据统计分析功能及数据仓库系统决策支持功能。这种税务电子一体化的技术既方便了纳税人,实现了多渠道报税,又减轻了税务人员的工作负担,实现了业务处理上的申报自动化;同时通过企业填报各种发票清单和财务报表,使税务稽查变得有据可依,而且在这些丰富的数据基础上利用数据仓库技术,实现决策支持,提供有用的统计分析结果。
2.5.3 竞技运动
数据仓库与数据挖掘技术在竞技运动中的应用已不是凭空想象,相信它将为运动健儿在赛场上的突出表现做出自己的贡献。数据仓库与数据挖掘技术应用于体育数据挖掘,包括以下三个方面。
1.体质数据分析
对体质数据的分析通常采用统计方法,包括很多单位的体育分析和评价软件,主要是对体质数据的均值分析以及套用规定的评价公式进行评价和分析。虽然传统方法对体质数据分析有一定的贡献,但是其作用只局限于数据本身的大小比较,而且产生的结果通常只有专业人员能够理解。另外,只采用统计方法很难挖掘到数据之间的联系。然而,利用数据挖掘方法分析体质数据则很容易产生统计方法难以实现的结果。例如,根据积累和不断收集的数据,结合体质数据和营养学方面的知识,可以挖掘出造成不同地区体质好或者差的营养方面的原因;同样,根据体质数据和医学方面的知识,能够挖掘出人们的健康状况,甚至分析出导致健康状况较低的可能的疾病原因,从而可以更好地为人们自我保健和健身等各方面提供有力指导;此外,采用数据挖掘对知名运动员的早期体质数据进行分析,能够找出它们的共同特点,从而为体育选材提供有力的依据。
2.竞技体育数据分析
竞技体育特别是对抗性质的竞技,通常不但要求运动员实际水平高,同时战术策略也相当重要,甚至起决定作用。在数据挖掘应用日益普及的形势下,国外已经将数据挖掘技术应用于竞技体育中。例如,美国的IBM公司开发了一个用于竞技体育的数据分析工具Advanced Scout。该软件提供数据挖掘功能,专门为NBA的教练服务。
同样,利用数据挖掘技术也可以分析曲棍球、足球、排球等类似对抗性的竞技运动,从中找出对手的弱点,制定出到更有效的战术。例如,美国国家曲棍球联盟也在开发自己的数据挖掘应用软件NHL-ICE。该软件的原理与Advanced Scout相似,可以让教练、广播员、新闻记者及球迷挖掘NHL的统计。当他们访问NHL的Web站点时,球迷能够使用该系统循环看联盟的比赛,同时广播员和新闻记者可以挖掘统计数据,找花边新闻为他们的实况评述添油加醋。
当然,不要期望这样的数据挖掘可以帮助一支球队找到赢得所有比赛的策略。
3.体育产业数据分析
数据挖掘最初的应用就是商业领域,而体育产业本身就是一类典型的商业。在一般的商业数据挖掘中,数据挖掘技术来判断哪些是它们的最有价值客户、重新制定它们的产品推广策略(把产品推广给最需要它们的人),以用最小的花费得到最好的销售。以体育广告为例,可以对国内从事不同体育运动广告业务的数据库进行挖掘。比如,发现了做某类体育广告的单位或公司的特征,那么就可以向那些具有这些特征但还未成为客户的其他公司或单位推销这类体育广告;同样,如果通过挖掘找到流失客户的共同特征,就可以在那些具有相似特征的客户流失之前进行针对性的弥补。这样,可以一定程度地提高体育广告的效益。
实例:Advanced Scout系统在NBA球队中的使用(引自赛迪网www.ccidnet.com)
美国IBM公司开发了一个用于竞技体育的数据分析工具Advanced Scout,现在大约20个NBA球队使用了IBM公司开发的数据挖掘应用软件系统来优化他们的战术组合。例如Scout就因为研究了魔术队队员不同的布阵安排,在与迈阿密热队的比赛中找到了获胜的机会。系统分析显示魔术队先发阵容中的两个后卫安佛尼·哈德卫(Anfernee Hardaway)和伯兰·绍(Brian Shaw)在前两场中被评为负17分,这意味着他俩在场上,本队输掉的分数比得到的分数多17分。然而,当哈德卫与替补后卫达利尔·阿姆斯创(Darrell Armstrong)组合时,魔术队得分为正14分。在下一场中,魔术队增加了阿姆斯创的上场时间。此招果然见效,阿姆斯创得了21分,哈德卫得了42分,魔术队以88比79获胜。魔术队在第四场让阿姆斯创进入先发阵容,再一次打败了热队。在第五场比赛中,这个靠数据挖掘支持的阵容没能拖住热队,但Advanced Scout毕竟帮助魔术队赢得了打满5场直到最后才决出胜负的机会。
通过Advanced Scout,NBA的教练可以用便携式计算机在家里或在路上挖掘存储在NBA中心服务器上的数据。NBA每场比赛的事件都被按得分、助攻、失误等项目进行分类统计,统计结果保存于该服务器。教练通过该软件可以发现本队的球员在与对方一个球星对抗时有犯规记录,他可以在对方球星与这个队员“头碰头”的瞬间分解双方接触的动作,进而设计合理的防守策略。教练还可以利用该软件临场辅助决定替换队员,而且取得了很好的效果。目前,大约20个NBA球队使用了IBM公司开发的该软件系统来优化他们的战术组合,而不是单纯依靠全场紧逼、交叉扯动和快速抢断等具体的战术和技术来带领自己的球队取得胜利。
2.6 数据仓库与数据挖掘技术的发展趋势
伴随数据仓库与数据挖掘技术本身的不断成熟,用户对数据仓库与数据挖掘技术的应用更加充满了期待。
2.6.1 数据仓库的发展趋势
数据仓库的发展方向不是凭空确定或者偶然产生的,它是由数据仓库用户的实际需要决定的。因此,只要仔细分析用户对数据仓库的期待,以及数据仓库用户所处领域的特点,就可以感知到数据仓库未来的发展方向。经过分析,可以总结出数据仓库未来的发展趋势主要集中在以下几个方面。
1.数据仓库规模的增长
数据仓库规模继续不断增长,所有企业的数据仓库规模都将呈指数增长,到2003年4月,平均原数据量超出1TB,到2005年6月超出3TB,而其中排名前十位的企业其原数据量达到5~15TB,这种增长的推动原因是数据源的增长以及企业对数据更好的获取能力。另外存储成本也越来越便宜,因此企业能够保存更长期的数据。数据增长将使企业面临一些新问题,包括可升级性问题以及可能出现的性能问题。面对将出现的数PB容量的数据,企业不能再无动于衷,需要加紧考虑自己的数据设施是否能应付大量数据的涌入。
2.数据集市的整合
企业用以削减数据仓库开支的一种方法是整合数据市场及其他分析型数据库。据META集团估计,在往后的两年中,80%的企业将采取某些措施整合原本分散的分析型数据库。在过去的几年中,数据市场不断增长,信息系统部门利用它们来支持各种分析应用程序,以满足各业务部门的需要。数据市场很有吸引力,因为比起中央数据仓库来说,它们只需较少的时间就可实施,初始投入也更少。但是,从长期的角度来看,数据市场的成本更高,因为它们需要进行多次重复的开发及维护,还需要大量重复的软硬件设备。很多企业认为整合数据市场是削减人工和维护费用的一个好方法,这能直接提高企业的赢利水平。另外,分散的数据市场会影响到企业的运作,因为经常会出现数据不一致的情形,想得到“真实”版本几乎是不可能的。整合数据市场是一个令人头痛的问题,有很多事情需要考虑,从选择其中一个数据库作为“幸存者”并将其他数据融入其中,到从零开始筹措和建立中央数据仓库。许多因素将决定企业应该采取何种方法,包括复杂度、数据容量、报表和用户的移植难度以及公司文化和政策等。如果一个企业投入精力制定了一个成功的整合策略,那它将得到很好的回报,据Gartner集团估计,那些成功整合了数据市场的企业,其成本将会下降50%,同时商业价值将会增长500%。
3.客户数据集成
许多企业如今很想跨越产品线、业务单位、渠道和地理各方面来综合地得到一个关于客户的单一视图,一种称之为客户数据集成(CDI)的解决方案应声而出,其核心部分由数据仓库和相关技术构成。客户数据集成提供了对客户数据的360°的全方位视图,并使企业可以从任何一个接触点上对客户进行认识和做出反应。Gartner集团认为,CDI是一个组织采取的所有其他以客户为中心行动方案的基础。基本上,CDI包括了横跨不同的数据库匹配客户数据,使整个企业范围内可以达成一个对客户身份的单一认识。虽然CDI听起来激动人心,真正实施时还会面临许多挑战。第一个挑战就是整合客户数据库,这些数据库分散在组织的各个角落里,通常各有一套对客户的识别方法。另外,就算整个组织中每个客户都被赋予了唯一的身份,挑战也仍然存在,其他的数据质量问题仍需解决,比如准确、一致的客户地址和联系信息等。企业可能会通过将有某种联系的客户进行分组的方式来识别客户。另外,客户数据集成还要求对某些数据库经常地更新,以便保证信息对于所有渠道和业务部门的及时性和可操作性。
4.开发商的整合
由于企业都想得到完备的产品套件,数据仓库和商务智能开发商因此将越来越多的功能融合到他们的产品中去。通过兼并获取功能插件的例子很多:商务智能开发商Business Objects最近兼并了ETL工具开发商Acta,而ETL开发商Ascential兼并了数据质量开发商Vality。其他一些公司自己努力开拓功能领域,ETL开发商Informatica不断地朝着分析领域前进并常有新产品问世,RDBMS开发商每年都在把更多的ETL和决策支持功能加入到产品中去。最终究竟是这种“只进一次商店”的做法获得成功,或是多数企业仍将只是单个挑出其中最适用的部件,还很难说。这种对于附加部件的捆绑销售也许会带来价格和性能上的好处,但买主也许会因为太依赖某个卖方而感到不安。
5.EAI和ETL工具的集成
ETL(Extract、Transformation、Loading,抽取、转换和加载)是建立数据仓库的必要步骤,根据调查统计,建立数据仓库有60%的精力花费在数据ETL上。ETL就是对原有的、陈旧的数据进行抽取、转换、加载,使它们成为智能信息系统的有用数据。一个实施数据仓库项目的单位如果想要数据仓库在决策分析时给予足够的支持,ETL工具是关键所在。
EAI(Enterprise Application Integration,企业应用集成)是将基于各种不同平台、用不同方案建立的异构应用集成的一种方法和技术。EAI通过建立底层结构,来联系横贯整个企业的异构系统、应用、数据源等,完成在企业内部的ERP、CRM、SCM、数据库、数据仓库,以及其他重要的内部系统之间无缝地共享和交换数据的需要。
随着快速反应决策支持对企业显得越来越重要,ETL开发商开始与EAI开发商合作,因为EAI开发商有很强的实时集成技术。例如,Informatica公司最近推出一项技术,可将EAI软件中的数据抽取出来并直接装入数据仓库,这个过程的完成需要一个接口,其可将Informatica的ETL工具与EAI开发商(如Tibco、Vitria、WebMethods等)的产品连接起来。其他ETL开发商也纷纷与EAI开发商达成了伙伴关系。比伙伴关系更进一步的是,2000年秋天,Datamirror公司取得了Constellar公司的应用程序集成技术。另一方面,EAI工具开发商也增加了数据源接口,集成了更强的转化能力,使他们的产品更能与ETL工具所处理的传统数据集成任务相适应。
除了这些尝试性的合作空间外,ETL和EAI工具仍将保持自身特性,在往后的几年内不会完全融合,ETL工具仍是数据仓库所要求的复杂数据转化功能的最好选择,同时, EAI工具更适用于事务的、应用程序到应用程序的集成。
6.快速反应的决策支持
电子商务的不断增长驱使着企业去寻找共享数据和对机会快速反应的方法,虽然真正的实时决策支持基本是不可能的,也是不必要的,但数据仓库技术的进步却使快速反应的决策支持得以实现。在数分钟或数秒钟内对数据进行分析和对事件做出反应的能力有助于企业在各方面的行动,比如供应链管理、客户服务和商务性能管理等。
企业可以选择更多的方法来获取接近实时决策支持的能力,一些开发商为实施快速反应决策支持提供了“成包”的解决方案。Teradata推出了动态数据仓库的概念,其本质是将数据仓库和一个运作数据存储结合起来,以便对数据同时更新,并从同一个中央仓库中获取时间敏感性数据和详细历史数据。康柏的零延时企业框架采用EAI工具向中央联机数据系统提供实时数据。有些企业试着自己建立快速反应决策支持系统,包括建立更快的批处理环境以及在传统的统计数据仓库前方划分出一个实时部分等。
7.非结构化信息的增长
企业正面临着非结构化和半结构化数据的增长,包括图像、声音、视频、XML以及其他的数据类型。同时,相关的技术也在不断出现,使企业可以采用以前处理传统的结构化数据资源的方式,来存储和挖掘这些数据。关系数据库管理系统(RDBMS)的开发商如Oracle和微软等都正在增加对非结构化和半结构化数据管理的支持。其他一些开发商采用了基于数据库顶层的第三方软件,使用户可以用单一的界面来管理多种类型的数据。在将来的几年中,如果不采用这些工具,想真正把非结构化和半结构化数据集成到当前企业的数据体系中是不可能的。尽管RDBMS开发商提供了对不同类型数据的支持,另一些数据工程的组件却仍然做不到这点,比如ETL和数据质量工具等,企业将不得不为不同的数据结构维护不同的信息处理系统。
8.强调应用程序VS数据仓库
对大多企业来说,数据仓库不再是单独的一件事。由于需要确定投资回报率,信息系统部门就得想法使数据仓库可以调用各种应用程序,诸如商务智能、营销自动化和客户数据集成等软件。这些应用程序跟数据仓库比较起来,它们的见效期更短、商业价值更明显,非技术性的管理人员一般难以运用数据仓库。另外,由于近些年许多数据仓库项目的失败或麻烦,一些企业在这个问题上已变得很谨慎了。把注意力转向应用程序并不意味着企业会停止开展数据仓库项目,上面所提到的所有的应用程序都要依赖于数据仓库或数据市场提供信息。数据仓库项目跟以前一样是必需的,但可能会尽量跟应用程序联系起来以便于计算投资回报率和调整项目成本。
9.越来越注重盈亏问题
艰难的经济环境迫使企业除了收入增长外,还得认真考虑收益率问题。这种不断增加的对盈亏问题的注意力影响到了IT项目,其中包括数据仓库,最终导致各级水平上的成本削减。META集团估计,约有80%的企业正在考虑调整数据仓库项目或是削减开支。对于削减数据仓库开支的方法包括合并存储、采用分等级服务协定、管理开发过程以最小化复杂性、提高现有系统的性能等。新的数据仓库项目仍将不断进行,但是企业不会再妄想一步登天去做那些对赢利没有直接影响的事,它们只想使用在过去几年中所购买的软硬件,而不想再买更多东西;它们还想有一个明确的商业案例,明确的投资回报率和更短的回报周期。数据仓库的特性使这些要求很难得以满足,因为其投资回报率几乎是不可能计算的,而且项目时间也往往要比预计时间延长数月。但是,企业也找到了减少数据仓库投资风险的办法,包括不断强调需求明确性、在项目开始前进行仔细的数据评估、设定明确的项目边界等。企业还可以将大型数据仓库项目划分成若干小项目,以保证项目范围得到控制并尽快见效。
10.Web与数据仓库技术的结合
Web技术的飞速发展,对数据仓库技术的发展产生了很大影响。首先,基于Web的决策支持工具不断出现,改变了最终用户对数据仓库的使用模式。人们不再局限于通过局域网使用数据仓库,而是可以通过Internet/Intranet远程访问数据仓库,所得到的分析结果也可以借助Web服务器迅速发布。用于访问数据仓库元数据的信息目录也可以通过Web浏览器来查询,以便了解可以从数据仓库中获得哪些信息。假如用户面对的是确定的数据仓库,业务用户处理的是非常具体的任务,对这些专业性很强的用户而言,没有必要知道他们还能够得到什么其他信息。然而,在非确定数据仓库中,这种需要却大幅度增强,最终用户需要了解内部和外部所有可以得到的数据。
11.动态数据仓库的发展
传统的数据仓库都以支持企业内部战略性决策为重点,而动态则重在战术性决策支持。数据仓库对战略性决策的支持是为企业长期决策提供必需的信息,包括市场细分、产品(类别)管理战略、获利性分析、预测和其他信息;战术性决策支持的重点则在企业外部,为执行公司战略的员工提供支持。传统的数据仓库技术对实时性的要求相对低一些;而动态数据仓库技术则对数据的实时性要求更高。随着动态数据仓库在决策支持领域中的角色越重要,企业实现决策自动化的积极性就越高。在人工操作效果不明显时,为了寻求决策的有效性和连续性,企业就会趋向于采取自动决策。
动态数据仓库有两大特点。一是动态访问,它是指一线用户可以动态、或者说实时地访问他所需要的信息。传统数据仓库用户只针对高端管理层,一个银行也许是有几十个到几百个用户可以访问。而成千上万的客户经理和客户代表如果要实现同时访问,对传统数据仓库来讲是一个很大的压力。所以动态数据仓库采取相同的技术架构,却使用不同的技术手段,从而实现动态访问。二是动态数据加载。传统数据仓库的数据加载与动态数据仓库的数据加载所需的技术设施几乎相同。不同的是传统的数据加载不是实时和连续的,只能是以批量的形式加载。而动态数据仓库的数据加载则能连续加载并实现一分钟或者几秒钟间隔的近实时加载,从而体现动态性。
2.6.2 数据挖掘技术的发展趋势
数据挖掘技术相对于数据库技术还比较新,它一直被认定是一个很有前途的市场。随着统计学、计算机、人工智能等相关学科的发展,同时受到用户不断提出的新需求的刺激,数据挖掘技术将会不断发展。下面介绍一下数据挖掘技术未来主要的发展趋势。
1.嵌入式数据挖掘
越来越多的商业应用程序将包括数据挖掘的功能,特别是预测的功能,这些功能可以为商业带来增值。例如,CRM应用程序将允许用户预测产品的销售。在线零售商将推荐相关的产品给客户,以达到交叉销售的目的。这些主要归功于行业数据挖掘API(比如OLE DB for DM API),通过这些API,数据库和应用程序开发人员能够使用数据挖掘功能,将数据挖掘功能嵌入到各种商业应用程序中。嵌入式数据挖掘将会增加数据挖掘市场的整体大小。
2.用于垂直应用的数据挖掘包
数据挖掘正变得流行是因为主要的数据库厂商把数据挖掘功能添加到数据库管理系统(DBMS,Database Management System)中。数据挖掘能应用到几乎所有的领域。现在,数据挖掘市场主要存在于金融、保险和电信行业。目前,对于特殊数据挖掘技术的需求在不断增加,这些技术用来解决许多垂直领域中的一些商业问题。例如,在医疗与生物医学领域,需要特殊的数据挖掘技术来分析DNA序列;在网络安全应用领域,需要实时的训练算法以检测网络入侵;需要用非传统的数据挖掘技术来分析万维网中非结构化的数据;文本挖掘是另外一个需要应用数据挖掘的垂直领域。传统的水平数据挖掘包太一般,不能解决这些特殊问题。未来将出现更多新的数据挖掘包,专用于这些垂直领域。
3.产品合并
数百个软件厂商正在提供水平的数据挖掘工具包,许多工具包只包括一个或两个算法,这些厂商各自的数据挖掘市场还比较小。正如其他软件领域一样,合并是不可避免的。小厂商将会发现更大的竞争压力,特别是当大型数据库厂商将数据挖掘功能添加到DBMS中时,他们的竞争压力将会更大。
4.PMML
PMML(Predictive Model Markup Language)全称为预言模型标记语言,它利用XML语言描述和存储数据挖掘模型,是一个已经被W3C所接受的标准。PMML是由NCDM (National Center for Data Mining)组织开发,并于1997年7月由DMG(Data Mining Group)发布,其最新版本为3.0版。DMG的目的是开发数据挖掘标准。
PMML是一种基于XML的语言,用来定义预言模型。它为各个公司定义预言模型和在不同的应用程序之间共享模型提供了一种快速并且简单的方式。通过使用标准的XML解析器对PMML进行解析,应用程序能够决定模型输入和输出的数据类型,模型详细的格式,并且按照标准的数据挖掘术语来解释模型的结果。PMML提供了一个灵活机制来定义预言模型的模式,同时支持涉及多个预言模型的模型选择和模型平衡(model averaging)。对于那些需要全部学习(ensemble learning)、部分学习(partitioned learning)和分布式学习(distributed learning)的应用程序,这种语言被证明是非常有用的。另外,它使得在不同的应用程序和系统之间移动预言模型变得容易、方便。特别的是,PMML非常适合部分学习、元学习、分布式学习,以及相关领域。
虽然大的厂商(比如Microsoft、Oracle、IBM和SAS)正在竞争各种数据挖掘API,但是他们是同一个组织(DMG)中的成员,他们都支持把PMML作为描述模型的标准。PMML在模型交换和模型部署方面具有许多优势,因为它是一个XML文档,高级用户也可以编辑它。在不久的将来,PMML将会变得更加流行。
5.对异构数据的挖掘
由于在不同的应用中有很多不同种类的数据及数据库,因此,期望知识发现系统能够对异构的数据有效地执行挖掘任务。因为大部分可用的数据库是关系型的,故在关系型数据库上数据挖掘系统进行高效及有效的知识发现是非常迫切的任务。许多可用的数据库含有复杂的数据类型。如结构化的数据、复杂的数据对象、混合文本、多媒体数据、时空数据、事务数据及历史数据等。一个功能强大的系统应能在这些复杂类型的数据上进行有效的数据挖掘任务。
6.算法的效率及可扩展性
为了从数据库中大量的数据中有效地抽取信息,未来的知识发现算法运载大数据库必须是高效且可扩展的。即数据挖掘算法的运行时间必须是可预见的并且是可接受的。指数级甚至是中等级多项式的复杂性在实际应用中将是不可接受的。
7.可视化数据挖掘技术
数据挖掘技术是从大量的、不完整的、有噪声的和不一致的数据中提取隐含的、潜在的、有用的信息和知识的过程。可视化数据挖掘是可视化技术和数据挖掘技术的融合。人类的大脑可以看做是一个强有力并且高度并行的处理和推理引擎,它带有一个大的知识库。可视化数据挖掘可以有效地利用人类的大脑。把可视化技术应用到数据挖掘之中,有助于人类更好、更方便地理解数据的含义,使用户能在较高的抽象层次上观察数据,方便用户找出潜在模式,更好地理解数据挖掘的结果等。可视化数据挖掘可以分为以下4个方面。
(1)数据可视化
数据库和数据仓库中的数据可以看做是由不同的粒度或不同抽象级别,也可看做由不同属性和维组合起来的。数据能够用多种可视化方式进行描述,如盒状图、二维立方体、曲线、曲面、数据分布图表、连接图等。这种数据的可视化显示能把数据库或数据仓库中数据特性的总体印象提供给用户,并且可让用户明白从哪里开始挖掘。
(2)数据挖掘结果可视化
数据挖掘结果可视化是将数据挖掘得到的结果,用可视化的形式表示出来,如表示为散列图、盒状图等形式。决策树、关联规则、概化规则等也可通过可视化来描述。这样便于用户理解数据挖掘的结果。
(3)数据挖掘过程可视化
数据挖掘过程可视化是用可视化过程描述数据的挖掘过程。这样,用户可以看出数据是从哪个数据库或数据仓库中取出来的,怎么抽取的,以及怎样清理、集成、预处理的,怎样挖掘的,甚至还可以看到数据挖掘采用的方法,结果存储的地址及显示方式。
(4)交互式可视化数据挖掘
可视化数据挖掘是在交互式的数据挖掘过程中,使用可视化工具。用户可以通过交互式手段改变过程所依据的条件,并且观察其影响。通过这种勘探式分析,在不使用自动数据挖掘技术的情况下,允许用户高效地寻找和发现模式,帮助用户做出正确的数据挖掘决策。
总之,数据可视化技术和数据挖掘的结合,有助于解决日益显著的“数据超载”问题,使人类可以方便、快速地从海量的、动态的数据中提取潜在的、有用的知识和信息。
8.多抽象层交互挖掘知识
交互式挖掘使用户能交互地定义一个数据挖掘要求,深化数据挖掘过程,从不同角度灵活地看待多抽象层上的数据挖掘结果。人们很难预测从数据库中会挖掘出什么样的知识,因此,一个高层次的数据挖掘查询应作为进一步探询的线索。要对半结构或非结构化的数据形式进行挖掘操作,需要多次交互和多次反复。用户的领域知识和指导作用可以加快挖掘的进程,并且保证发现的知识的有效性。因而,应该重视领域知识的指导作用,如冗余数据的排除、知识的校验、挖掘数据范围的限定等。当前数据挖掘工具的人机交互能力十分有限,相关的领域知识也未得到充分利用。因此,应寻求数据挖掘过程的可视化,便于在知识发现的过程中进行人机交互。
9.隐私保护及数据安全
当数据能从不同角度及不同抽象层查看时,严重地威胁了保护数据安全及禁止侵犯隐私的目标。数据挖掘何时可能导致侵犯隐私及为了保护敏感信息而开发何种安全措施,这些研究工作在未来数据挖掘的发展中都是非常重要的。
10.Web数据挖掘
Web挖掘是数据挖掘在Web上的应用,源于数据挖掘和Internet技术的结合。Web包含了丰富的信息服务和动态的超链接,为数据挖掘提供了丰富的资源,它利用数据挖掘技术从与Web相关的资源和行为活动中抽取感兴趣的、潜在的、有用的模式和隐含信息。Web数据有三种类型:Web内容数据、Web结构数据和用户访问数据;相应地, Web挖掘也分为三类:Web内容挖掘、Web结构挖掘和Web使用记录挖掘。
目前,数据挖掘研究的重点正从理论转向应用,Web数据挖掘是个较新的研究领域,具有广泛的应用前景,许多问题还有待进一步研究。根据当前的情况,Web数据挖掘的热点主要集中在以下几个方面。
(1)挖掘对象的研究
未来的数据挖掘需要面对更大型的数据库、更高的维数和更复杂的关系。现有的知识挖掘技术所涉及的主要是结构化的数据库,数据挖掘系统还没有建立在较先进的数据仓库基础上,即使建立在一般数据库上的数据挖掘系统,也没有深入到考虑各子数据库之间关联关系的程度,而往往只是停留在人为抽取的简单二维表中。网络信息的多样性决定了网络信息挖掘任务的多样性。其中,对Web文本挖掘的目的是对页面信息进行聚类、分类和关联分析,以及利用Web文档进行趋势预测、分析等;多媒体数据的挖掘是对多媒体文档包括图像、声音、图片等媒体类型的挖掘。Web访问信息挖掘是对用户访问Web时服务器方留下的访问记录进行挖掘,从中可以得出用户的访问模式和访问兴趣。Web结构挖掘是对Web链接关系、文档内部结构、文档URL中的目录路径结构的挖掘。网上信息资源结构比较复杂,数据往往是经常变动和不规则的。数据挖掘的对象已不单是关系数据库模型,而是分布、异构的多类型数据库。数据的非结构化程度、噪声等现象越来越突出。这也是数据挖掘面临的困难问题。因此,要进一步研究提高网络数据结构化程度的途径,研究适应多种数据类型、容噪的数据挖掘技术和数据挖掘方法。
(2)网络信息的集成研究
开发更好的数据收集机制和技术是非常必要的,网络信息集成可以为分析提供更丰富和更全面的信息。此外,多种信息如网络用户的使用记录、用户注册信息等数据的智能集成也值得进一步的研究。
(3)网络信息挖掘方法的研究
网络信息的数据挖掘方法既有一般知识发现方法的共性,又有其自身的特点,如何根据网络信息的特点和规律,研究探讨新的方法是目前亟待解决的问题。现有的数据挖掘方法中,每种分析方法都有其特点和适用范围,如聚类分析可以用于Internet接入过程中的动态构造和组织页面内容的研究,路径分析用于分析用户的行为规律的研究,关联规则和序列模式的发现可用于构造组织站点的研究,分类方法用于信息内容的智能提取研究等。因此,除设计新的算法外,多种方法的集成将是网络信息数据挖掘发展的一个方向。网络信息量的巨增,必然会导致数据挖掘过程中搜索维数和搜索空间的激增,因此,提高算法的效率及具有规模伸缩性是网络信息挖掘在实际应用中需进一步研究的课题。
(4)构建适合网络信息知识系统的研究
如何根据网络信息的特点,开发适合网络信息的知识发现系统是值得研究的问题。自主性(autonomy)和普适性(versatility)是知识发现系统追求的两个目标,自主性要求更多的领域知识,而普适性要求相对领域无关。要解决这个矛盾,应该考虑开发合适的交互式工具,设计合理的算法,注意从用户中获取相关领域的知识,利用多重知识发现的各种结果和阶段知识指导进一步的发现工作。领域知识对数据进行必要的约束,在挖掘算法中合理使用领域知识,可以优化查询,提高效率。作为特定领域的开发工具,网络信息知识发现系统应该尽量考虑网络信息的特点,采取适当的算法,实现发现过程高效化,提高挖掘结果的有效性。
(5)基于XML的网络信息知识发现技术的研究
XML由于具有一系列特性,如可扩展性、简单性、开放性、互操作性、通用性等,能够较好地弥补HTML语言的一些缺陷,因而得到广泛关注。以XML为基础的新一代Web环境不仅可以很好地兼容原有的Web应用,而且可以更好地实现Web中的信息共享与交换,可以容易地将XML的文档描述与关系数据库中的属性对应起来,实施精确的查询与模型抽取。XML可以更详细地定义某个数据对象的数据结构,XML数据很容易排序,使用户的查询更加方便。XML有利于数据交换和传递,进一步推动了电子出版物和数字图书馆等数字化资源建设的发展。随着XML的兴起,Web页面会蕴含更多的结构化和语义信息,使得Web挖掘工作变得更为容易和有效。基于XML的网络信息知识发现技术将是今后的发展方向。
(6)非结构化数据挖掘的研究
由于网络信息形式的多样化,对网络中的非结构化数据,如图形、图像、文本、多媒体数据进行有效地组织管理,有利于数据挖掘,特别是文本数据的挖掘和多媒体数据的挖掘是目前网络信息挖掘研究的主要课题之一。非结构化数据挖掘将会涉及更多的数据类型,这些数据类型或者比较复杂,或者是结构比较独特。为了处理这些复杂的数据,就需要一些新的和更好的分析和建模方法,同时还要开发相应的工具和系统。随着网络电子出版物和数字图书馆的增多,应加强对各种非结构化数据的挖掘,如对文本数据、多媒体数据的挖掘。对网络多媒体数据的挖掘将是今后研究的重点。
(7)分布式协作挖掘策略的研究
网络信息是分布式的,网络挖掘引擎在数据挖掘中起着重要作用。但若采取集中式的挖掘方法,效果往往不佳。分布式协作策略是指按照某种标准(如学科领域或地理区域)对网络资源进行划分,得到若干子空间,再对每一个子空间分别建立一个系统,提供相应的数据挖掘服务,构成网络上的分布式协作数据挖掘群体。研究如何在网络上建立有关数据挖掘的服务器,与数据库服务器配合,实现对网络信息的数据挖掘具有较大意义。目前有关多智能代理系统的研究为数据挖掘提供了理论基础和有效工具。
(8)满足个性化需求的网络服务研究
网络信息服务正向深度和广度不断发展,一方面,人们希望看到个性化网页,希望能够得到更能满足个性化需求的服务;另一方面,各个站点也希望能够根据用户的兴趣调整页面结构,改进服务,以便更好地满足不同用户的各种需求。因此,利用数据挖掘的思想和方法,对Web内容、结构和用户记录进行挖掘,可以掌握用户的有关情况,提高系统的服务能力。随着用户应用水平的提高,如何在较短的时间内为用户提供最有用的知识信息,是网络信息知识发现的主要目标之一。
当前,数据挖掘的研究方兴未艾,Web信息的数据挖掘具有非常广阔的前景。随着有关技术的进一步发展,可以肯定,网络信息数据挖掘研究的内容将会越来越丰富。
本章小结
数据仓库与数据挖掘的应用领域很广,而且由于每个行业具有自己不同的行业特色,因此这两项技术的使用是一门很值得探讨的学问。本章介绍了数据仓库与数据挖掘在金融、通信与信息安全、生产制造与零售、医疗与生物医学等几个代表性行业的应用现状,随后也简单介绍了数据仓库与数据挖掘技术在公安、税务、竞技体育等方面较有特色的应用。随着数据仓库与数据挖掘本身的不断完善与进步,它们的应用范围还会继续扩大。
数据仓库技术未来的发展趋势集中体现在:数据仓库规模的增长,数据集市的整合,客户数据集成,开发商的整合,AI和ETL工具的集成,快速反应的决策支持,非结构化信息的增长,强调应用程序VS数据仓库,越来越注重盈亏问题,Web与数据仓库技术的结合,动态数据仓库的发展等。
数据挖掘技术未来的探讨重点集中体现在:嵌入式数据挖掘,用于垂直应用的数据挖掘包,产品合并,PMML,异构数据的挖掘算法的效率及可扩展性,可视化数据挖掘技术,多抽象层交互挖掘知识,隐私保护及数据安全,Web数据挖掘等方面。其中Web数据挖掘是这之中最热门的技术发展方向。
数据仓库与数据挖掘在应用上也体现出一定趋势,主要表现在:传统领域应用发展平稳,应用领域多元化,应用领域人文化,应用方向热门化等方面。
读者在学习和研究数据仓库与数据挖掘技术时,也要顺应它们的发展方向和应用需求。
本章习题
1.数据仓库与数据挖掘在证券业的应用有哪些?
2.综合本章内容,分析数据仓库与数据挖掘技术所适合的应用行业,具有哪些共同特点?
3.通过网络和相关资料调查数据仓库与数据挖掘技术在某个企业的实际应用情况。
4.数据仓库技术未来的发展有哪些特点?
5.数据挖掘技术未来的发展有哪些方向?
6.简述Web数据挖掘的研究内容。