数据挖掘原理与SPSS Clementine应用宝典
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.6 时间序列

很多情况下,我们要分析的数据包含一个时间维度。具有一个或多个时间属性的预测应用,称为时间序列问题。时间序列是数据存在的特殊形式,序列的过去值会影响到将来值,这种影响的大小以及影响的方式可由时间序列中的趋势周期及非平稳等行为来刻画。

例如:系统调用日志记录了操作系统及其系统进程调用的时间序列,通过对正常调用序列的学习可以预测随后发生的系统调用序列、发现异常的调用。表2.4给出了一个系统调用数据表。

表2.4 系统进程调用数据示例

这样的数据源可以通过适当的数据整理使之成为调用序列,如表2.5所示,再通过相应的挖掘算法达到跟踪和分析操作系统审计数据的目的。

表2.5 系统调用序列数据表示例

一般来讲,时间序列数据都具有噪声、不稳定、随机性等特点。对于这类数据的预测方法目前主要有自回归滑动平均(ARMA)和神经网络等,但这些方法有一些缺点是很难克服的,ARMA包含的是线性行为,对于非线性的因素没有包含;而神经网络的结构需要事先指定或应用启发式算法在训练过程中修正;同时,神经网络得到的解是局部最优而非全局最优。比较而言,支持向量机( SVM)能较好地解决上述的一些问题,并在实际应用中取得了很好的性能。