2.2 多变量概率分布问题解决方法
对于式(1.1)所示的多变量联合分布函数,只有在各变量均属正态分布或相互独立时,其联合分布函数才会有解析表达式。对于非高斯、相关的多维随机变量,许多学者对其做了研究,提出了许多具有代表性的求解方法。
2.2.1 多维分布转换为一维分布
费永法[22-23]利用事件积原理推导出二维及多维随机变量转化为一维随机变量的计算方法,并用来求解不同流域丰枯遭遇问题。多维联合概率的计算公式为:
式(2.6a)中随机变量Z的系列为:
式(2.6b)中,aj=x1-xj,j=2,3,…,n;z=x1;xj为随机变量Xj相应频率的设计值。
同理可得联合不超过概率的计算公式:
式(2.6c)中随机变量Z的系列为:
各符号含义同式(2.6b)。
2.2.2 正态化变换方法
由于正态随机变量具有明确的概率分布函数表达式,如果将原始数据通过某种变换方法转换为正态随机变量,则可以利用多维正态分布函数描述随机变量的联合分布概率。利用正态分布进行概率分析的关键是原始数据的正态化问题。常用的正态化变换方法主要有幂变换、多项式正态变换(PNT)、NQT变换等。
1.幂变换[24]
设xi>0,i=1,2,…,n,令
其中
式中:xi为原始样本;Yλi为变换后的样本;λ为变换参数;g为几何平均值。
Box和Cox[25]提出了式(2.8)所示的略有修正的正态变换:
幂变换的优点在于可以根据不同数据系列的特点确定不同的变换,对于数据有较好的适应性。对于不同的统计参数λ,变换具有不同的类型,包括了对数变换(λ=0),平方根变换(λ=0.5),倒数变换等各种变换。Box-Cox变换在水文科学领域有较广泛的应用。
2.多项式正态变换(PNT变换)
一个原始偏态分布的变量X可以通过三阶的多项式变换为标准正态分布[26]:
式中:X为原始变量;Z为标准正态分布的变量;a0,a1,a2,a3为多项式系数。
对于给定的一组a0,a1,a2,a3,要求X与Z的关系为单调递增的一一对应关系,X与Z的单调性关系满足式(2.10):
梁忠民和戴昌军[27-29]分别对Box-Cox变换和PNT变换的特点、变换效果以及应用特点做了详细研究。
3.分位数正态变换(NQT变换)
设变量X的原始分布为F(x),则采用以下的分位数变换:
式中:Φ为标准正态分布函数;Φ-1为标准正态分布反函数;x′为由X经分位数正态化(NQT)以后服从标准正态分布的随机变量。
一般而言,正态化变换可以改进正态的近似程度,但并不能保证变换后的数据充分接近于正态分布,因此对正态化变换产生的结果,应该检验其是否违背正态性的假设[30]。
2.2.3 随机模拟法
随机模拟法是基于现实资料的某些概率特征和假定,构造一种随机变量或随机过程,然后对所构造的随机变量或过程进行抽样,并由得到的样本计算相应的概率特征值的数值计算方法,又称蒙特卡洛(Monte-Carlo)法[31]。
随机模拟法根据x1,x2,…,xn的边际概率特征和相关性进行随机抽样,将抽取的随即样本代入边界函数,判断样本点是否落入失效域,记录样本点落入失效域G(x)<0的次数n,若总模拟次数为N,则式(2.1)中联合概率P的估计值为P=n/N,根据大数定理,当N趋于无穷大时,估计值以概率1趋于P。
Monte-Carlo法的求解步骤如下[31]:
(1)根据实际问题的特点,构造一个概率模型,使该模型的某一参数为所求问题的解。这一工作称为构造模型的概型。
(2)给出概型中各种不同分布随机变量的抽样方法。
(3)在计算机上进行统计模拟试验,对模拟结果进行统计处理后,给出问题解的统计估计值和统计精度。
由于P=n/N为统计变量,当失效概率很小或试验次数N较小时,估算P值容易产生不定性,产生较大的方差,计算量过大。因此,为解决此问题出现了一些改进的模拟方法,包括重点抽样法、分层抽样法、关联抽样法等[32]。刘德辅等[18,33]应用重点抽样法研究了风、浪、流共同作用下海洋石油平台的设计荷载标准。Hawkes等[34]和Adamson[35]等分别应用Monte-Carlo法研究波浪、水位的联合概率分布和洪水的极值分布问题。
2.2.4 复合极值理论
刘德辅等[36-37]将极端海况发生的频次与海况引发的环境要素组合在一起,构成一种新的概率分布形式——复合极值分布。在海洋科学领域,通常每年台风发生的次数可以用离散型分布如Poisson分布来表示,而台风影响下的海洋环境条件,如波浪等可用极值分布模型表示,此两种分布构成复合极值分布。复合极值分布理论可以计算一维以至多维分布,前提是连续性变量的多维联合分布存在且可以计算。刘德辅等[38-39]分别推导了一维和二维复合极值分布,将其应用于海洋波高和风速的联合累计概率和平台甲板标高设计值的推求,宋艳[40]将复合极值理论拓展至三维,并将其应用于工程实践中。王莉萍[41]将其进一步推广为多维极值分布的一般形式。其一般形式为:
定义:一种一维离散型随机变量,其分布函数为:
对多维连续型随机变量G(x1,x2,…,xn),其联合概率密度函数存在且为g(x1,x2,…,xn),G1(u)是G(x1,x2,…,xn)的边际分布,则其联合概率分布为:
对二维情形,则二维复合极值分布为:
2.2.5 多元极值理论
多元极值理论建立在多变量点过程理论基础上[42],通过分别建立各变量的边缘分布和建立描述各变量之间相关性的相关模型将它们联系起来,得到多变量极值的联合概率分布[43]。20世纪50年代末期,Gumbel提出多元极值理论时,因其复杂性而没有引起足够的重视。随着工程技术的迅速发展,科学地确定工程规模和风险标准对于充分发挥工程的价值已成为学术界和工程界普遍关心的问题之一,多元极值理论亦随之引起重视。由于多元极值联合分布中相关结构的复杂性,其相关函数多为隐式形式,只能通过复杂的迭代求解,不便于工程应用。此外,在已经发表的众多文章中,大多限于讨论二元的情况[44-45]。Gumbel提出的Logistic模型是讨论和应用较多的一个,设G(x1,x2,…,xp)是p元极值分布,其分布函数可表示为:
式中:0≤α≤1称为相关参数,α=1表示各边缘分布相互独立,α→0表示边缘分布完全相依;当p=1时,式(2.13)即为Gumbel分布;μi、σi分别为边缘分布的位置参数和尺度参数。
2.2.6 经验频率分析法
当数据资料长度足够时,可以采用经验频率分析方法求解多变量联合概率分布问题。经验分析方法用于数据内插时,一般准确性较好,而用于外延时,则受资料系列长度影响较大。一维和二维的不超过经验频率分别用式(2.14)和式(2.15)计算:
根据Gringorten[46]、Cunnane[47]、Guo[48]等的研究,Gringorten经验频率公式是极值Ⅰ分布(简称EVⅠ)的无偏估计,一维和二维的不超过经验频率也可分别用式(2.16)和式(2.17)计算:
式(2.14)~式(2.17)中:P为小于等于xm的经验频率;m为升序排列序列中xm的序号;n为样本容量。