水灾害防治中的多变量概率问题
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

3.2 两变量联合概率分布模型

对于两变量联合概率分布问题,许多学者对其做了研究,提出了许多具有代表性的两变量联合概率分布模型。谢华和黄介生[52]总结了当前应用最广泛的几种两变量概率分布模型的特点,分析了各种模型的适用性和局限性。常见的两变量概率分布模型可以分为两类:一类是具有相同边际分布的两变量分布模型;另一类为具有灵活边际分布的两变量分布模型。具有相同边际分布的两变量分布模型要求两变量服从相同型式的边际分布,此类模型包括:两变量正态分布模型、两变量对数正态分布模型、混合Gumbel模型、两变量Gumbel-logistic模型、两变量指数分布模型和两变量皮尔逊Ⅲ型模型等;具有灵活边际分布的两变量分布模型对边际分布的型式不做严格要求,主要有Meta-Gaussian模型和FGM(Farlie-Gumbel-Morgenstern)模型。

3.2.1 具有同类型边际分布的两变量概率分布模型

3.2.1.1 两变量正态分布模型

Sackl和Bergmann[53]、Goel[54]等基于PDS法,采用二维正态分布描述洪峰和洪量的联合分布。Yue[55]、Yue[56]采用二维正态分布描述具有相关关系的洪(雨)峰和洪(雨)量的联合分布。Correia[57]采用时段系列法(PDS)推导出了洪峰流量和洪峰历时之间的联合分布,该方法基于以下两点假设:①洪峰流量和洪峰历时都是指数分布的随机变量;②洪峰流量和洪峰历时的条件分布为正态分布。两变量正态分布概率密度函数如式(3.44)所示:

img

式中:x1,x2分别为正态分布随机变量X1和X2的值;μ1,σ1分别为变量X1的均值和方差;μ2,σ2分别为变量X2的均值和方差;ρ为相关系数。

采用正态分布进行频率分析,需要将原始数据转换为正态变量,正态化变换常采用Box-Cox变换[25]。Box-Cox变换是水文领域中应用最为广泛的一种将数据变换为正态的方法。对一组原始样本,Box-Cox变换通过式(3.45)将其变换为近似正态分布样本:

img

式中:xi为原始样本;yλi为变换后的样本,服从正态分布N(μ,σ);λ为变换参数。

在式(3.45)中,当λ=0时,随机变量X1,X2转换为对数正态分布。对数正态分布与正偏的水文数据序列具有较好的拟合关系。日本通常采用对数正态分布作为设计洪水(暴雨)的分布线型[20]。Yue[58-59]应用两变量对数正态分布模型分别研究了暴雨强度—雨量及洪峰—洪量的联合分布概率,通过与经验联合概率比较,表明两变量对数正态分布模型对观测值有较好的拟合优度。两变量对数正态分布的概率密度函数与式(3.44)具有相似的结构,其对应均值和方差为yi=ln xi的总体均值和方差,模型具体型式可参见文献[58]和文献[59]。

3.2.1.2 混合Gumbel模型

混合Gumbel分布模型由Gumbel[60]提出。Yue等[61-62]应用该模型研究了洪水、暴雨的洪(雨)峰和洪(雨)量的联合分布。混合Gumbel概率分布函数为:

img

式中:Fx1(x1),Fx2(x2)分别为变量X1,X2的边际分布函数;θ为描述随机变量X1,X2相关关系的参数;ρ为相关系数。

3.2.1.3 两变量Gumbel-logistic模型

Gumbel[60]、Gumbel和Mustafi[63]、Oliveira[64]等研究了边际分布为EVI分布(Gum-bel)的两变量Gumbel-logistic分布。S.Yue[65]应用该模型研究了暴雨雨峰、雨量、历时的联合分布;周道成和段忠东[66]将其应用于海洋工程领域,验证了Gumbel-logistic分布用于描述年极值风速和有效波高联合分布的合理性。Gumbel-logistic的概率分布函数为:

img

式中:Fx1(x1),Fx2(x2)分别为变量X1,X2的边际分布函数,其概率分布函数同式(3.46b);m为描述随机变量X1,X2相关系数的参数;ρ为相关系数。

3.2.1.4 两变量指数分布模型

两变量指数分布广泛应用于可靠度、寿命试验等领域,很多学者对其做了研究,提出了多种型式的两变量指数模型,比较具有代表性的两变量指数分布模型如式(3.48)和式(3.49)所示。

Freund[67],Gumbel[68],Marshall和Ingram[69],Bacchi[70]等对两变量指数分布模型做了大量研究,根据其研究,两变量指数分布模型密度函数为:

img

式中:x1,x2分别服从参数为λ1,λ2的指数分布;α为表征变量相关关系的参数,α∈[0,1]。

相关系数ρ与参数α的关系由式(3.48b)给出。根据式(3.48b)可得,ρ∈[-0.4036,0]。由于该模型只适用于负相关关系的随机变量,该种型式的模型较少适用于水文频率分析。

Downton[71]、Nagao和Kadoya[72]提出了Nagao-Kadoya模型,其概率密度函数为:

img

式中:x1,x2分别服从参数为λ1,λ2的指数分布;ρ为相关系数;I0为修正的第一类零阶贝赛尔函数。

随机变量x1,x2的边际分布概率密度函数为:

img

Choulakian[73]应用Nagao-Kadoya模型研究了洪峰—历时的联合分布。Yue[74]研究了将Nagao-Kadoya模型用于分析边际分布为指数分布的两变量联合分布的适用性。Ashkar等[75]应用Singh-Singh模型[76]和Nagao-Kadoya模型于小流量洪水历时和洪量的联合分布,研究了模型的适用性。结果表明,Singh-Singh模型不适用于相关性较强的随机变量,而Nagao-Kadoya模型对于正相关的随机变量则有较好的适应性。

3.2.1.5 两变量皮尔逊Ⅲ型模型

我国有关水利规范[77-78]规定水文频率分析主要采用皮尔逊Ⅲ型分布。皮尔逊Ⅲ型分布属于Gamma分布族,属于三参数Gamma分布。由于许多水文事件都能较好地遵循Gamma分布规律,因此研究边缘分布为Gamma分布的二维Gamma联合概率分布模型具有重要意义。Kibble[79]、Chenrian[80]、Izawa[81-82]、Moran[81-83]、Crovelli[81]、Smith[81]等提出了各种形式的理论两变量Gamma分布模型,其中一些模型由于数学表达过于复杂或具有严格限定条件等原因较少应用于实践。Yue[81-84]研究了Izawa、Moran、Smith-Adelfang-Tubbs(SAT)等模型在水文中的适用性,结果表明三个模型均能较好地描述洪水的多特征属性。本书介绍Moran、Izawa、SAT等三个模型具有代表性的模型,其他模型的具体形式可参阅文献[81]和文献[84]。

1.Moran模型

Moran[83]基于两变量正态联合分布模型推求出了一种两变量Gamma联合分布模型。设W和G是服从二维正态分布的随机变量,其联合概率密度函数为:

img

W和G服从标准正态分布,其边际分布函数为:

img

对于边缘分布为皮尔逊Ⅲ型分布的随机变量X,Y,其边缘分布为:

img

根据分位数正态化转换(NQT)得到:

img

式中:X′,Y′为由随机变量X,Y经分位数正态化(NQT)以后服从标准正态分布的随机变量。

则得到边际分布为皮尔逊Ⅲ型的(X,Y)联合概率密度函数为:

img

式中:Φ为标准正态分布函数;Φ-1为标准正态分布反函数;α,β,λ为分布参数;ρ为线性相关系数。

2.Izawa模型

Izawa模型由日本学者Izawa提出[82],该模型为边际分布服从Gamma分布的二维Gamma模型,模型的边际分布可以具有不同的形状参数和尺度参数,其边际概率密度函数分别为fx(x;αx,λx),fy(y;αy,λy)。Izawa模型表示的两变量联合概率密度函数为:

img
img

式中:αx,αy分别为变量X和Y的尺度参数;λx,λy分别为变量X和Y的形状参数;Is(·)为修正的第一类贝塞尔函数;η为变量X和Y之间的联系参数;ρ为皮尔逊相关系数。

模型的相关性由联系参数通过相关系数确定。

3.SAT模型

Smith等[85]提出了另外一种形式的两变量Gamma模型,其变量边际分布服从X和Y的边际分布分别为fX(x;αx,λx),fy(y;αy,λy)。联合概率密度函数和联合概率分布函数分别用式(3.52)和式(3.53)所示为:

img

其中

img

式中:H(·)为不完全Gamma函数,随参数及积分限而变;αx、αy分别为变量X、Y的尺度参数;λx、λy分别为变量X和Y的形状参数;η为变量X和Y之间的联系参数;ρ为皮尔逊相关系数。

同Izawa模型相比较,SAT模型与Izawa模型具有相似的联系参数,其差别在于需要互换X和Y的位置。此外,在当前所有两变量Gamma模型中,SAT模型是唯一具有联合分布函数和概率密度函数明确表达式的模型。

3.2.2 具有灵活边际分布的两变量分布模型

3.2.2.1 两变量Meta-Gaussian模型

Meta-Gaussian模型具有灵活的边际分布函数,由Kelly和Krzysztofowicz[86]提出。设(X,Y)为连续的随机变量,F(x),G(y)分别为X,Y的边际分布函数,且为严格递增的连续函数,其边际概率密度函数分别为f(x),g(y),则Meta-Gaussian分布函数和联合概率密度函数分别由式(3.54a)和式(3.54b)表示。

img

式中:B为两变量标准正态分布;h(x,y)为变量X,Y的概率密度函数;Q-1为标准正态分布Q的反函数;ρ为经过当量正态化转换(NQT)之后变量X′,Y′的相关系数,当量正态化转换见式(3.54c)。

当变量(X,Y)的边际分布函数F(x),G(y)确定之后,当量正态化转换可保证随机变量X′,Y′服从标准正态分布。式(3.50)所示的Moran模型其实是Meta-Gaussian模型的一种特殊型式。

3.2.2.2 FGM(Farlie-Gumbel-Morgenstern)模型

Morgenstern、Gumbel[87]、Farlie[88]先后提出并完善了FGM方法[89]。Singh[75]在FGM方法的基础上,推导了指数型边际函数的两变量概率密度函数,并将其应用于降雨量和降雨历时的联合分布。Long和Krzysztofowicz[90]指出FGM两变量分布只适用于弱相关的随机变量。FGM模型的联合概率密度函数如式(3.55a)所示,其概率分布函数为:

img

式中:fX1(x1),fX2(x2)为边际分布的概率密度函数;FX1(x1),FX2(x2)为边缘分布函数,可为任何类型的分布函数;ρ为相关系数,须满足条件-1/3≤ρ≤1/3。

3.2.3 两变量概率分布模型的适用性分析

水科学领域存在着各种各样的随机变量,表现出各种不同的边际概率分布特征,如:皮尔逊Ⅲ型分布、指数分布、对数正态分布、Gumbel分布(极值Ⅰ型分布)等。此外,各随机变量之间表现出正相关、负相关、强相关、弱相关、线性相关、非线性相关等各种的相关关系。由于水文变量概率分布特征和相关关系的多样性,前述的两变量分布模型都有各自的应用范围和局限。

具有相同类型边际分布的两变量模型需要假定变量服从相同的边际分布,而实际上两变量不一定服从相同的概率分布,这影响了分析的准确性。比如,混合Gumbel分布和Gumbel-logistic分布要求变量边际分布必须服从Gumbel分布,而实际中变量不一定都服从Gumbel分布;两变量正态分布模型要求边际分布服从正态分布,因此需要对原始数据进行正态化处理,而正态化处理往往不能保证处理后的数据一定呈正态分布[89]。除了对边际分布有严格的限制外,部分模型对于变量之间的相关性也有较严格的限制,比如:混合Gumbel分布要求变量相关系数0≤ρ≤2/3,Gumbel-Logistic模型和Nagao-Kadoya模型只适用于正相关随机变量0≤ρ≤1。

Meta-Gaussian模型和FGM模型对于变量的边际分布没有严格的限制,具有较强的灵活性。Meta-Gaussian模型的边际分布为任意型式的连续、严格递增的概率函数,适用于正负相关的随机变量-1<ρ<1;FGM模型适用于任意型式的边际分布,但该模型只适用于弱相关的随机变量,其相关系数-1/3≤ρ≤1/3。

前述各两变量概率分布模型都是基于随机变量之间的线性相关性而建立,通过线性相关系数ρ来度量变量间的相关关系。而线性相关系数通常只适用于描述具有线性相关关系的随机变量,用于非线性问题时则会得到错误的结论,比如,当计算得到变量X,Y的线性相关系数ρ=0时,认为X,Y不相关,但是这并不意味着X,Y相互独立,因为当ρ=0时,只是说明变量X,Y之间不存在线性关系,但这时X,Y之间可能存在其他的非线性关系。水文科学领域的各种随机变量之间往往呈现出各种复杂的线性、非线性的相关关系,当变量之间呈现非线性关系时,上述基于线性相关的两变量概率模型难以准确地描述变量的联合概率分布特征。