1.1 多维时间序列图模型概述
1.1.1 图模型的研究概况
图模型的起源可以追溯到以下领域的研究工作:在物理学中,Gibbs[1]用无向图中顶点的最近邻居个数描述了粒子系统的整体能量;在基因学中,Wright[2]用有向图(Path Analysis,路径分析)描述了基因数据如何由一个假设的过程产生,并检验了这个假设和观测数据的相容性;在概率论中,Markov[3]提出了用条件独立性的概念,把一些看起来复杂的联系结构解释为简单相关关系的链;在统计学中,Bartlett[4]研究了三联表的相互作用,对于多维数据的相关关系,得到了类似于统计物理中相互作用的描述.到20世纪70年代,Wermuth[5]和Darroch等[6]认识到了上述研究成果在本质上的相似性,并进行了研究和拓展,形成了多维数据图模型的统一理论,从而使图模型表示离散和连续随机变量的相关关系的方法得到系统发展.
图模型用图论的方法描述和处理多维随机变量之间的因果关系,用有向图中的有向边表示对应变量之间的因果关系,使变量的因果关系结构变得可视化.Wermuth和Lauritzen[7]把响应变量和解释变量之间的关系引入统计模型之中,得到了有向非循环图和链图.Pearl[8]和Spirtes等[9]用有向非循环图解释、推测和发现变量之间的因果关系,建立了基于图模型的因果分析方法.在大规模系统中,有向图模型的应用也得到了重视和发展[10-13].
Dempster[14]提出的随机变量服从高斯分布的概率图模型,即高斯图模型(Guassian Graphical Model,GGM),是一类特殊的图模型,其作为一种推断随机变量之间不确定性和复杂性的有力工具,在经济学、医学、自然科学等[15-17]多个领域得到广泛的应用.
图模型在理论和应用研究上都取得了突破性的进展,国内外学者关于图模型在统计学上的理论研究成果可参考文献[18-22],关于图模型在其他不同领域的应用可参考文献[23-27].
1.1.2 多维时间序列图模型的研究现状
多维时间序列的图模型起源于多维数据的条件独立图在多维时间序列场合的推广.Brillinger[28]和Dahlhaus[29]将多维数据条件独立图的概念推广到多维时间序列中,用图中的一个顶点表示多维时间序列的一个分量序列,引入图模型作为工具来刻画分量序列之间的相互作用结构,建立了无向的偏相关图.
对于观测数据,需要估计过程的真实偏相关图.Dahlhaus 等[29,30]提出,用非参数方法估计偏谱相关作为检验偏相关图中边的存在性的统计量.Eichler[31]指出,对数据拟合一个参数模型,可以将偏相关图的估计转化成模型选择问题.Fried等[32]研究了偏相关图的可分解性和模型选择问题.
偏相关图中的顶点集表示了一个完整的一维时间序列,其滞后阶数可以很大,主要用于研究多维时间序列整体上的相依联系,但是不包含具体滞后相依联系的动态信息.
Lynggaard[33]提出了用条件高斯分布的链图对时间序列的相依联系建模,用顶点表示时间序列在固定时刻的随机变量.Swanson 等[34]指出,变量之间的相依联系可以直接表示为一个有向非循环图(Directed Acyclic Graph,DAG),用顶点表示变量,用顶点之间的有向边表示因果关系的方向.
Reale等[35-37]研究了图模型(主要是无向图和有向非循环图)在结构VAR(向量自回归)模型和结构VARMA(Vector Auto Regressive Moving Average,向量自回归滑动平均)模型辨识中的应用.Moneta[38]将变量之间的相依联系解释为因果关系,图对应于模型的因果结构,研究了结构VAR模型的辨识方法.
有向非循环图可以从直观上辨识时间序列图模型的稀疏结构,减少要估计的参数个数,从而降低参数估计的偏差.其缺点是滞后阶数不能太大,否则会使得图中的顶点数和模型中的参数增多,给模型辨识带来困难.
包含隐变量的时间序列图模型也得到了发展.Frieda和Didelez[39]研究了多维时间序列潜在的隐变量影响,利用偏相关图的可压缩性与分离性建立了一个由隐变量序列部分和观测变量序列部分组成的链图模型,进一步完善了多维时间序列的偏相关图.Chu[40]基于可加模型回归研究了一类可加非线性时间序列的因果关系推断问题,其中仅假设当前变量受隐变量影响,提出了正态分布下模型的因果结构辨识方法.Gao 和 Tian[41]将多维数据的祖先图模型推广到时间序列中,对受隐变量影响的多维时间序列独立性结构建模.
近年来,图模型和Granger因果关系[42]在时间序列数据分析领域得到了广泛的关注.Eichler[43]把图模型和Granger非因果关系概念相结合,得到了Granger因果图,用以建模、辨识和实现多维时间序列分量序列之间的因果关系.Gao 和 Tian[44]基于信息论的方法,崔玉峰和李元[45]基于频域方法检验多维时间序列分量序列之间的因果关系,建立了Granger因果图.
随着时间序列维数的增加,未知参数的个数呈指数式增长,给图模型的建立带来了极大困难.Tibshirani[46]提出了Lasso (Least absolute shrinkage and selection operator)方法,通过构造一个ℓ1范数的惩罚函数,实现模型的稀疏化,这对于处理高维数据的估计非常有效.Lasso方法及其推广,如组Lasso方法等(Yuan等[47]),被广泛应用于多维时间序列图模型中,用于解决高维数据的估计问题.
基于VAR模型的稀疏化约束,将Granger因果关系检验问题转化为变量选择问题,由此,Arnold等[48]提出了基于Lasso方法的因果关系概念,称之为图Lasso Granger方法(Graphical Lasso Granger,GLG)。这种方法用Lasso方法估计的回归系数辨识Ganger因果关系的存在性,并在多个领域得到应用[49,50].
上述研究大多基于静态图模型,即假设图模型的结构是不随时间改变的.然而,在实际问题的研究中发现,存在很多相依联系随时间改变的情况,例如,生物领域的基因数据网络,金融领域股票之间的条件独立图模型等,都可能随时间而改变.多维时间序列数据在每个时间点上只有一个观测值,不同时刻的相依联系可能很不相同,这一特殊数据结构使多维时间序列时变图模型的统计与推断成为一个非常具有挑战性的问题.
Song 等[51]提出时变动态 Bayesian 网(或称有向非循环图),对非平稳时间序列的有向图模型结构随时间的演变建模.他们假设图模型结构是稀疏的,并且随时间光滑变化,提出了用核再加权ℓ1正则化方法学习图模型的结构演变.Zhou等[52]首次研究了时变高斯图模型的惩罚估计,假设在每个时间点上的观测值来自独立于其他观测值的高斯分布,在稀疏假定下用Lasso方法求解优化问题,学习图模型结构.近年来,GGM的多任务稀疏化学习方法发展迅速(刘建伟等[53]).Zhang等[54]和Yang等[55]利用有序融合罚对多个概率图模型进行多任务稀疏化学习,在目标函数中包含两个惩罚项:ℓ1范数惩罚项用于实现稀疏解,附加的融合惩罚项促使相邻的概率图模型结构相似,并通过求解优化问题,联合学习时变图模型结构.
Xuan等[56]和Dobingeon等[57]研究了基于变点的算法,首先将时间序列分割,然后对每一段分别拟合一个不变的图模型结构.Grzegorczyk 等[58]结合 Bayesian 网和Bayesian 变点检测过程提出了动态 Bayesian 网的结构学习方法,其中变点个数和位置用MCMC方法从后验分布抽样中得到.Kolar等[59]研究了模型在未知时间点突发变化时的时变协方差矩阵选择问题,得到了时变无向图模型的估计.Cribben[60]提出了一种基于谱聚类的网络变点检测方法,用于在未知变点个数和位置时检测多维时间序列网络的结构变点.
目前,关于高斯图模型的研究主要集中在单个图模型的结构学习和应用方面.然而在许多应用领域,数据是具有分组特征的多源数据,来自不同的又有某方面共同特征的系统.如果将随机变量之间的相依联系用图模型表示,则这些图模型同时具有共同特征和各自独有的结构.例如,对于经济发展水平不同的地区,用于表示其宏观经济变量之间相关关系的图模型,除各自独有的边外,又存在表示相同的条件相关关系和条件独立关系的边.如果分别估计单个图模型,会忽视共同结构信息.联合估计方法通过对组间差异的约束同时估计具有共性和个性特征的多个图模型.Guo等[61]通过分层惩罚来处理多个图模型精度矩阵中共同的零元素,但只考虑了图模型之间无边相连的顶点,没有考虑有边相连的顶点;Danaher[62]提出了联合图Lasso方法,通过广义融合Lasso或组Lasso约束类之间的差异来估计多个高斯图模型.Zhu等[63]对精度矩阵之间的每个差异引入惩罚,以解决联合估计问题.张凌洁等[64]提出了一种连接单个图模型的分层惩罚方法对多个图模型进行估计.Yang等[55]提出了一个融合多类图Lasso模型,该模型加入了一个融合Lasso惩罚来激励相邻图之间的某些共性,并提出了一个能将高维图估计分解成多个更小的子图估计的筛选准则.上述方法在联合估计多个图模型的结构时,并没有用到多源数据结构已知的信息.Tao等[65]利用多个高斯图模型结构的共同信息,施加联合稀疏惩罚,使图模型具有相似的稀疏结构.Ma等[66]在模型相依联系之间存在先验信息的条件下,联合估计多个高斯图模型,并证明了其提出方法的相容性.
综上所述,多维时间序列图模型一直都是相关研究的热点问题.本书整理了多维时间序列非线性相依联系、Granger因果关系、时变相依联系及多个高斯图模型的推断和应用问题.