2.1 非线性时间序列相依联系的条件互信息检验方法
要建立观测数据的图模型,其中一个重要的步骤就是检验图中的边所表示的独立性.要利用时间序列图模型对数据进行分析,需要先建立当前变量Xt对滞后变量Xt-1, Xt-2,…, Xt-p,εt-1,εt-2,…,εt-q的回归模型.因此在时间序列分析中,变量的选择问题就是如何选择合适的滞后变量以引入模型.
基于 Shannon 熵构造的用于度量时间序列相依联系的互信息统计量需要对概率密度函数进行估计,计算过程比较烦琐.Gao等[90]考虑基于2阶Renyi熵构造统计量,用于检验非线性时间序列的相依联系,可以用关联积分进行估计.由定义式(1-29)可得,H2(X)存在的条件是:概率密度函数 fX(x)在概率空间上是平方可积的,因此本书涉及的基于信息论方法的检验均假设出现的概率密度函数都是平方可积的,并且假设时间序列都是严平稳的,即任意有限维联合分布函数不随时间平移而改变.
2.1.1 广义条件互信息度量的性质和估计
首先给出广义条件互信息统计量的定义.不失一般性,考虑三个随机变量X、Y和Z之间的联系,以 q 阶条件互信息Iq(X;Y|Z)为例研究广义条件互信息度量的性质和估计.作为Iq(X;Y|Z)的特殊情形,容易推出,这些性质对于互信息I(X;Y)也成立.
定理2.1 式(1-25)定义的条件互信息
满足下面性质:
当且仅当在给定Z的条件下随机变量X 和Y是条件独立的.
证明 Kullback-Leibler信息偏差
具有性质I(f1;f2)=0,当且仅当 f1= f2.
取 f1= fX,Y,Z(x,y,z),f2= fX|Z(x|z)fY|Z(y|z)fZ(z),即可得到定理的结果.证毕.
定理2.2 q阶条件互信息Iq(X;Y|Z)在连续可导的一一映射下是不变的.
证明 假设一一变换h1、h2和h3连续可导.令 X*=h1(X), Y*=h2(Y), Z*=h3(Z),用g、g13、g23和g3分别表示(X*,Y*,Z*)的联合概率密度函数、(X*,Z*)的边缘概率密度函数、(Y*, Z*)的边缘概率密度函数和Z*的概率密度函数,则
证毕.
由Whittaker[18]的命题6.4.6和推论5.8.2,可以得到下面的定理.
定理 2.3 设k维正态分布随机向量 X=( X1, X2 ,…, X k)的均值向量为μ,协方差矩阵为Σ.令,其中, wii、w jj和wij是矩阵 W 中的元素,则
证明 不失一般性,Xi和X j分别取为X1和X2,定义Xc=X\{X1, X2},Σc是Xc的协方差矩阵.在正态分布情形下,由式(1-38)的定义可知,在给定Xc的条件下,X1和X2的线性条件互信息为
式中,Σ-11是(X2,Xc)的协方差矩阵,即从Σ中去掉第1行和第1列元素后的矩阵.
将协方差矩阵Σ分解为
式中,Σic是( X1, X2, Xc)(i=1,2)的协方差矩阵.
由式(2-4)得
因此
由式(2-6)、式(2-7)和式(2-8)可得
由W 是Σ的逆矩阵可得
最后把式(2-9)和式(2-10)代入式(2-3),得
证毕.
由定理2.1可知,q=1阶条件互信息I ( X;Y|Z)是条件独立性的一个无界的度量,这里定义互信息的一个变换
同理,定义条件互信息统计量的一个变换
以下推导G(X,Y)和T(X;Y|Z)的估计.
首先看随机向量关联积分的估计.m维随机向量X=(X1, X2,…, Xm)的2阶关联积分为
式中, I(·)表示取值为0或1的示性函数,,参数ε为尺度参数.
定义式(2-14)即示性函数I(·)的期望,可以直接由U统计量进行估计.设得到X的n个观测样本,记为x(1), x(2),…, x(n),则
接下来用关联积分估计随机变量的条件互信息.由定义式(1-29)可得,随机变量X 的q=2阶Renyi熵为
随机变量X 的2阶Renyi熵和关联积分C ( X;ε)有如下联系(Grassberger [91]):
对于基于 2 阶互信息构造的统计量的估计,为方便起见,这里仍用和分别表示互信息和条件互信息的估计如下:
注:选择q=2阶条件互信息的优点是,对观测值计算Renyi熵比较简单,可以用关联积分来进行计算.但问题在于, I2(X;Y|Z)可能是负的,且I2(X;Y|Z)=0不一定意味着在给定Z的条件下X 和Y是条件独立的.Pompe[92]提出,把数据变换为具有均匀分布的数据,保证广义互信息是非负的,并且仅在两个随机变量独立时为0.但这个方法对于广义条件互信息并不成立.实际上,I2(X;Y|Z)的行为和I1(X;Y|Z)的行为非常类似.数值模拟结果也验证了在检验条件独立性时,基于I2(X;Y|Z)构造的统计量和基于I1(X;Y|Z)构造的统计量具有相同的结果.
2.1.2 非线性时间序列相依联系的条件互信息检验
设得到严平稳时间序列{Xt,t∈Z}的n个观测值,定义M 维延迟向量,其中, M为事先确定的正整数.
令表示中由除X t-j外所有的其他变量组成的向量.检验在给定的条件下, Xt和Xt-j的条件独立性的原假设和备择假设如下:
H0:在给定的条件下, Xt和Xt-j是条件独立的.
H1:在给定的条件下, Xt和Xt-j是条件相依的.
由定理2.1可知, X t和X t-j之间条件独立性的度量为
利用Tj( Xt;Xt-j|)作为条件独立性度量可以捕捉在给定时间序列中间值条件下的相依联系,同时提供时间序列相依联系的滞后阶数信息.
用2阶关联积分估计Tj( Xt;Xt-j|),由式(2-19),在给定的条件下,X t和X t-j之间的2阶条件互信息为
令 Cj(ε)、分别表示关联积分、的简写形式,则T j的估计为
由U统计量的相合性,可以得到的相合性.
定理2.4 估计是T j的相合估计,即当n→∞时,有,其中表示依概率收敛.
证明 由U统计量的相合性,有.因此和分别是和C j(ε)的相合估计.由文献[93]中的定理1.5和式(2-21)可得定理结果.证毕.
的渐近正态性证明需要用到一个引理,即文献[94]中的定理1.
引理 2.5 令h∶Rm→R为一个非退化的核函数,令{Xn,n∈Z}为一个严平稳随机过程.如果满足下面的条件之一,则(n/mσn)(Un(h)-θ)的渐近分布为标准正态分布:
(a)( X n)n≥1在两个时间方向上是均匀混合的,,对于α>0,下式成立:
(b)(Xn)n≥1在两个时间方向上是均匀混合的,混合系数φ(n)满足以下条件:
和
(c)(Xn)n≥1是绝对正则的,对某些α>0,σ2≠0,系数β(n)满足以下条件:
且
式中,,和σ2表示Un(h)的分解中第1项的方差和渐近方差.
定理2.6 在独立同分布过程的原假设下,当样本量n→∞时,的渐近分布为
式中,表示依分布收敛.由于ε是固定的,因此在下面的记号中省略ε,记Cj≡Cj(ε),.
证明 设{Yt,t∈Z}为一个Rm值随机过程,观测值分别为y1, y2,…, yn.其2阶U统计量定义为
式中,h∶Rm×Rm→R,且h(x,y)=h(y,x).
由于在关联积分中示性函数是有界的,即在0和1之间,满足文献[94]中的矩条件.另外,在严平稳性和条件独立性的假设下,弱相依条件也总是满足.定义下面的U统计量和U统计量的函数:
注意,和g j是U统计量的函数.由于在严平稳性和条件独立性的假设下,当n→∞时,分别依概率收敛到和Cj(推导可以从U统计量的性质直接得到).因此,当n→∞时,gj和依概率收敛到0.换言之,在独立同分布的条件下, D和G在样本值上是0.
令Dk和Gk分别表示D和G的k (k=1,2,3,4)阶偏导数在值上的取值.
对任意满足条件的光滑函数H,在值上进行泰勒展开,取n→∞时的极限,得到
式中,所有的偏导数H(i i=1,2,3,4)均在值上进行计算,lim表示当n→∞时依分布取极限.N(0,σ2)表示均值为0且方差为σ2的正态分布.注意,式(2-25)的右边是U统计量的线性组合,因此函数G和D (对应于H=G, D)也分别是U统计量.令和T~j分别表示当H=G, D时式(2-25)中的线性项,特别有
由式(2-25)可推出
式中,
式(2-28)中的极限可以直接求期望得到.结合式(2-26),得
式中,
因此再由式(2-27)可得
证毕.
在实际应用中,应该特别注意参数ε的选择.由式(2-17)和定理 2.6 的证明过程可知,估计的精度随ε的减小而增大,标准差随ε的减小而减小.一般选择ε=0.5σX,1.0σX,1.5σX,其中,σX是随机过程的标准差.
在给定的条件下,检验Xt和Xt-j条件独立性的具体步骤如下.
步骤1:对于选定的显著性水平和初始样本,首先根据估计的残差,产生独立同分布随机变量序列,并计算统计量取值.
步骤 2:步骤 1 重复B次,得到B组初始样本,并分别计算统计量取值.
步骤3:利用经验分布
作为T j在原假设成立下的分布的近似,计算临界值Cα,即的1-α分位数,其中,α为选定的显著性水平.
步骤4:计算初始样本的统计量取值.
步骤5:如果,则拒绝Xt和Xt-j之间条件独立性的原假设.
2.1.3 数值模拟与分析
本节用数值模拟方式验证统计量检验条件独立性的能力.如果不做特别说明,所有模拟都重复 200 次.并且需要对每个时间序列进行预处理,转换为 0 均值和单位方差的数据.
对有限样本量,估计是有偏差的.为发现偏差和样本量大小之间的联系,生成了样本量 n 分别为100,200,300,500,1000,3000时的独立同分布的标准正态分布随机变量数据.然后,计算取不同滞后阶数 j=1,2,…,5时的值.表2.1给出了在不同样本量下重复200次估计得到的的均值和标准差.
表2.1 根据不同样本量计算的的均值和标准差
注:括号内的数字为估计的标准差,以下不再说明.
对于下面提到的模型,如果没有特别说明,都取相同的ε.这里选择ε=0.5的原因是,当ε=0.5时,的标准差最接近文献[78]的表2.1中的值,便于对检验结果进行比较分析.
表2.2给出了对样本量n=300,重复进行1000次模拟,得到的的均值、标准差和各显著性水平下的临界值.表 2.2 中的结果表明,对于样本量n=300,检验独立性原假设的置信水平为95%时的临界值约为 0.03.表 2.2 中最后一行为正态分布N (0,0.022)相同显著性水平下得到的临界值.可以看出,模拟得到的临界值与这些值非常接近,进一步验证了独立同分布假设下的渐近正态性.
表2.2 n=300,模拟1000次,的均值、标准差和临界值
下面产生各种类型的时间序列数据来检验的能力.为了进行比较分析,采用文献[78]中的10个模型:模型1~5为MA(Moving Average,滑动平均)模型,模型6~10为AR(自回归)模型,模型中, et是独立同分布的标准正态分布随机变量.
表2.3给出了模型1~5的检验结果.模型1为一个非线性MA(1)模型,理论上,除G1外所有的G j都应该是0.在表2.3“模型1”列中,是0.1267,其他的接近于0,即独立情形的均值.类似的结果对模型2(非线性MA(2))和模型3(非线性MA(3))也成立,都只有相应滞后阶数随机变量的自回归系数非0.模型4也是非线性MA(3),但同时具有1、2、3阶的滞后相依联系.与表2.2中的95%临界值(约为0.03)相比,表2.3“模型4”列中的都大于临界值,拒绝不存在相依联系(即系数为0)的原假设.
表2.3 模型1~5的检验结果:的均值和标准差
表2.4给出了模型5~10的检验结果.对于AR模型5、6和7,随 j的增大而减小.对于随机游动模型8,保持一个相当大的值,并且随 j的增大,其减小变缓慢,不能准确检验出与1阶滞后变量X t-1的相依联系.
模型9是一个双线性模型,表2.4“模型9”列中的都大于95%临界值(约为 0.03),验证了检验时间序列中非线性相依联系的能力.模型 10 是一个具有 1阶滞后相依联系的非线性时间序列,都大于95%临界值(约为0.03).
表2.4 模型5~10的检验结果:的均值和标准差
对于模型 1~9,利用统计量得到了与文献[78]中统计量R相同的结果,证明了对于这些模型中的相依联系检验问题,用广义关联积分估计的基于 2 阶广义互信息I2(X;Y)的统计量结果非常接近用概率密度函数估计的基于I1(X;Y)的统计量结果.
要检验AR模型5、6、7和8的正确滞后相依联系,合适的统计量应该是条件互信息度量T.统计量T包含了比G更多的信息,关联积分中取ε=1.0,并且延迟向量的维数M=5.表2.5给出了样本量n=500时,重复进行1000次模拟得到的估计量的均值、标准差和临界值.表 2.5 中最后一行为正态分布N (0,0.1452)相同显著性水平下的临界值,可以看出,模拟得到的临界值与这些值非常接近.这进一步验证了定理2.6中估计量在独立同分布假设下的渐近正态性.
表2.5 n=500,模拟1000次,的均值、标准差和临界值
表2.6给出了5个AR模型的检验结果.对模型5、6和7,除外,所有的都大于95%临界值(约为0.02),这和真实模型中只有一阶自回归系数不为0一致.对于随机游动模型8,也只有大于95%临界值.而在文献[78]中,用Kendall的偏τj,从滞后阶数 1 直到滞后阶数 8 的检验结果都拒绝了不存在相依联系的原假设.在这种情形下,统计量优于τ.
表2.6 模型5~10的检验结果:的均值和标准差
下面 5 个非线性模型可以进一步验证统计量检验非线性时间序列滞后相依联系的能力.
表 2.7 给出了模型 11~15 的检验结果.对于 SETAR(Self-Exciting Threshold Autoregressive,自激励门限自回归)模型11和12,EXPAR(Exponential Autoregressive,指数自回归)模型14,FAR(Functional-Coefficient Autoregressive,函数系数自回归)模型15,统计量都给出了正确的滞后相依联系检验结果.对于GARCH(Generalized Auto Regressive Conditional Heteroscedastic,广义自回归条件异方差)模型13,、都是显著的,这可能是因为 GARCH 模型中的相依联系是由不可观测的变异率导致的.关于这些非线性模型的详细介绍可以参考文献[95,96].
表2.7 模型11~15的检验结果:的均值和标准差