1.5 广义线性模型_深度学习-QQ阅读男生中文都市网

上QQ阅读APP看书，第一时间看更新

1.5　广义线性模型

前面介绍了线性回归模型、logistics回归、softmax回归三种模型，它们分别对应数据集（x，y）^（^m^）的条件概率p（y|x）服从正态分布（式（1.2.24））、伯努利分布（式（1.3.1））、多项式分布（式（1.4.1））三种情况。相应的假设函数分别如式（1.2.1）、式（1.3.2）、式（1.4.4）（或式（1.4.3））所示。比较这三个假设函数，会发现它们的差别主要在于使用了不同的激活／传递函数。线性回归模型使用的是y=f（x）=x这样的恒等函数作为激活／传递函数，使得模型的线性部分θ^Tx直接等于目标变量y。Logistics回归则为了适应分类的需要，将目标变量y通过sigmoid传递/激活函数与模型的线性部分θ^Tx关联。Softmax回归则是logistics模型多分类下的扩展，其传递／激活函数也相应的是sigmoid多分类下的扩展。

这些传递／激活函数的反函数有一个专有名词叫连接函数，它给出了回归模型的线性部分θ^Tx如何通过模型的预测值h_θ（x）（这个预测值也是θ，x之间的相似概率测度）还原得到，是模型的线性部分与模型预测值之间的连接桥梁。这个连接函数作用的另一个等价的解释是，通过连接函数模型的预测值h_θ（x）可被变换成负无穷到正无穷，使得它与模型的线性部分θ^Tx具有相同的值域。例如logistics回归的连接函数为，它是sigmoid函数的反函数。通过这个连接函数，logistics回归模型（0，1）区间内的预测值h_θ（x）被变换成（−∞，+∞）区间。

连接函数的选择并不唯一，只要能将目标变量Y的取值范围变换成与模型线性部分θ^TX的取值范围一致，让模型比较好地拟合数据即可。事实上，这个连接函数是本节将要介绍的广义线性模型^（6）的一个重要组成部分，通过广义线性模型可容易地确定连接函数。

一般地，广义线性模型由线性预测部分η=θ^Tx和连接函数组成^（7）。不同的条件分布p（y|x）下，连接函数亦不同，但只要p（y|x）是属于指数分布族中的分布，就可以通过将p（y|x）写成指数分布的形式，然后通过比较指数分布的标准形式，关于GLMs的连接函数就可以标准形式的指数分布中的自然参数形式出现。

广义线性模型是前述简单线性模型SLM（式（1.2.1））和一般线性模型GLM（式（1.2.11））的推广，线性回归、logistics回归、softmax回归均是其特例。事实上，正态分布（式1.2.24）、伯努利分布（式（1.3.1））、多项式分布（式（1.4.1））都可看作指数分布族中的成员，凡指数分布族中的分布均可被广义线性模型处理。

下面首先介绍指数分布的标准形式，然后推导正态分布、伯努利分布、多项式分布的指数分布表示形式，从中可看出前述线性回归、logistics回归、softmax回归模型可通过严格的推演得到。

指数分布族的标准型可表示成式（1.5.1）形式。其中，η被称为自然参数（natural parameter）或典型参数（canonical parameter），这个自然参数就是前面的连接函数；T（y）为充分统计量，通常取T（y）=y；a（η）被称为对数归一函数（log partition function），所起作用主要是通过e^−a^（^η^）项使得表达式（1.5.1）求和／积分后等于1，满足概率分布的性质。

在给定T，a，b的条件下，式（1.5.1）定义了一族以η为参数的指数分布族，不同的η对应指数分布族中的不同分布。式（1.5.1）标准形式的指数分布族中的自然参数和对数归一函数前面已做了相应解释，所起作用也不难理解。唯独这个充分统计量T（y）对于不太熟悉统计的读者可能显得比较费解。在解释这个充分统计量之前，先指出这个充分统计量的作用。事实上，我们希望在给定训练集（x，y）⁽^m⁾基础上，寻找模型参数θ，使得假设函数的输出为这个充分统计量在给定x下的条件期望，即h_θ（x）=E（T（y）|x；θ）。这样做的好处在于当数据集（x，y）⁽^M⁾满足某一给定的参数为η的指数分布y|x；θ～ExponentialFamily（η）时，用训练集（x，y）⁽^m⁾得到的信息（这里的信息体现在训练后得到的模型）对测试集中的数据（x，y）⁽^m'⁾进行预测是“充分”的（只要测试集与训练集来自同一总体）。要理解这一点，需要对充分统计量进行必要解释。

统计量是统计领域的一个基本概念。任何关于样本集的函数都称为一个统计量，它是对样本中所含信息的一种浓缩，例如样本均值就是一个常见的统计量，m个样本数据经过均值函数的加工后浓缩成一个数据。一般地，由于信息加工处理的这种浓缩效应（有些信息经统计量加工后会丢失），统计量中所包含的信息往往比整个样本集中的信息要少。例如统计里有一个常见的统计量称为顺序统计量，它是将y₁，y₂，…，y_m这m次观测得到的样本按照从小到大进行排列得到顺序统计量y₍₁₎，y₍₂₎，…，y₍_m₎，这里y₍_k₎为将样本y₁，y₂，…，y_m从小到大排列后的第k个值。这样，样本的顺序统计量只包含了有哪些值出现，而不同值出现的顺序的信息不见了。

很多时候，样本出现的顺序信息对总体特性而言无关紧要（例如对于正态分布而言，总体分布形态主要由均值µ和方差σ²两个参数决定，样本位置信息与µ和σ²无关，只与样本取值有关），将顺序信息丢掉并不影响对总体特性的了解，此时统计量所包含的关于总体特性的信息不比原来的样本少，称这样的统计量为充分统计量。对于正态分布而言，由于样本均值和样本方差分别是总体均值和总体方差的无偏估计量，因此样本均值和样本方差就是正态分布两个参数的充分统计量。但有些时候，只靠样本均值（一阶矩）和样本方差（二阶矩）这两个统计量并不足够，比如对于正态分布之外的其他非对称的偏态分布，可能需要用到样本三阶矩、四阶矩，甚至在非参数统计场合，可能要整个样本的顺序统计量才是充分的。

充分统计量的严格但抽象的定义最初由Fisher给出^[8]。按照Fisher的定义，假定y₁，y₂，…，y_m是服从分布为f（Y；Ω）的总体中产生的样本，如果在给定某一统计量T（y）=T（y₁，y₂，…，y_m）=t的条件下，样本y₁，y₂，…，y_m的联合分布与未知参数Ω无关，即f（y₁，y₂，…，y_m|T（y）=t）与Ω无关，称这样的统计量T（y）为充分统计量。下面通过两个充分统计量、一个非充分统计量的例子对充分统计量这一定义做进一步解释。

假定Y_i=1和Y_i=0分别表示第i枚随机硬币正面朝上和反面朝上，且其出现的概率分别为q和1−q。现将装有m枚硬币的盒子充分抖动（以便盒内硬币充分混合）后放置桌面，然后统计盒内硬币正面朝上的总数。这个硬币正面朝上的总数Y就是这里的参数q的充分统计量，原因就是在知道这个总数的具体值Y=y后，这个条件概率p（Y₁=y₁，Y₂=y₂，…，Y_m=y_m|Y=y）是一个与参数q无关的量（式（1.5.2））。这里y₁，y₂，…，y_m是随机变量Y₁，Y₂，…，Y_m的取值，每个y_i只有0，1两种取值，分别对应硬币反面朝上和正面朝上两种可能，符号代表m个中取y个的组合数。再直观点，根据大数定律，硬币正面朝上的总数y除以硬币的总数m，在m充分大的条件下会等于硬币正面朝上的概率q，即。因此，根据硬币正面朝上的总数Y这个充分统计量来获得参数q的信息是充分的。

式（1.5.2）的推导并不困难。当时，比如当m=3时，若Y₁=1，Y₂=0，Y₃=1，y=2，有p（Y₁=1，Y₂=0，Y₃=1，y=2）=q（1−q）q=q²（1−q）=q^m（1−q）^m−y。而Y₁，Y₂，Y₃三个随机变量中两个取值为1的情况共有种，故，由条件概率的公式有p（Y₁=y₁，Y₂=y₂，…，Y_m=y_m|Y=y）=。当时，比如Y₁=1，Y₂=0，Y₃=1，y=1，由于y是被定义为Y₁，Y₂，Y₃三者之和，而，因此有p（Y₁=1，Y₂=0，Y₃=1，y=1）=0。

再假定Y=（Y₁，Y₂）为从正态总体（µ，σ²）抽取的随机变量，根据正态总体的密度函数易知它们的联合密度函数可表示成式（1.5.3）。均值统计量T₁（Y）==（Y₁+Y₂）是正态总体的一个充分统计量，因为当均值统计量取定某一值，即T₁（Y）==时，联合密度函数f（Y₁=y₁，Y₂=y₂，T₁（Y）=；µ，σ²）可写成式（1.5.4）的形式。

又因为均值统计量服从形式的正态分布，不难得到式（1.5.5）形式的条件概率表达式，显然这是一个与参数µ无关的结果，因此样本均值是总体均值µ的一个充分统计量。

但如果统计量取Y₁，Y₂两者中的某一个，比如取T₂（Y）=Y₁，此时f（Y₁=y₁，Y₂=y₂，T₂（Y）=y₁；µ，σ²）=f（Y₁=y₁，Y₂=y₂；µ，σ²），即统计量T₂（Y）与随机变量Y₁，Y₂的联合概率密度就是Y₁，Y₂的联合概率密度，并且式（1.5.4）中的联合概率密度可用统计量取值T₂（Y）=y₁表示成式（1.5.6）的形式。

由于此时统计量服从T₂（Y）=Y₁～（µ，σ²）形式的正态分布，不难得到式（1.5.7）形式的条件概率表达式，由于式（1.5.7）倒数第二步中含µ的项中分子和分母并不完全一样，导致最后一步无法将含µ项完全消除。所以这是一个与参数µ有关的结果，这意味着T₂（Y）=Y₁不是总体均值µ的一个充分统计量。直观地，T₂（Y）这个统计量只考虑了第一个样本的信息，而完全没考虑第二个样本，因此第二个样本中的信息在T₂（Y）中不被体现，此时，纵使这个统计量的期望E（T₂（Y））=E（Y₁）=µ仍然是总体参数µ的无偏估计，但它也不是µ的充分统计量。

前面的分析可以看出，条件概率p（Y₁=y₁，Y₂=y₂，…，Y_m=y_m|Y=y）或条件密度f（Y₁=y₁，Y₂=y₂，…，Y_m=y_m|T（Y）=y）之所以会是一个跟待估计的参数无关的结果，主要是因为p（Y₁，Y₂，…，Y_m）这个联合概率或联合密度函数f（Y₁，Y₂，…，Y_m）满足某种分解性质。这种分解可将这个联合概率或联合密度分离成含待估参数的项和不含待估参数的项。例如前面抛硬币的例子中，y代表的是随机变量Y₁，Y₂，…，Y_m取值为1的变量个数，p（Y₁，Y₂，…，Y_m）这个联合概率的通式p（Y₁，Y₂，…，Y_m）=（这正是式（1.5.2）中分母部分出现的项）。这个通式可被分解成p（Y₁，Y₂，…，Y_m）==Ψ[T（y₁，y₂，…，y_m）]Φ[T（y₁，y₂，…，y_m）；q]的形式，前者Ψ[T（y₁，y₂，…，y_m）]=是只与样本y₁，y₂，…，y_m或充分统计量的值T（y₁，y₂，…，y_m）=y有关，与参数q无关的函数，后者Φ[T（y₁，y₂，…，y_m）；q]=q^y（1−q）^m−y是关于参数q和充分统计量的值T（y₁，y₂，…，y_m）=y（间接依赖于样本数据y₁，y₂，…，y_m）的函数。基于此观察，Fisher和Neyman给出了以他们名字命名的分解定理（定理1和定理2），缓解了直接根据定义判定一个统计量是否是充分统计量的困难。

定理1（分解定理）Y₁，Y₂，…，Y_m为随机变量，它们的联合密度函数为f（y₁，y₂，…，y_m；θ）。统计量T（Y）=T（Y₁，Y₂，…，Y_m）是参数θ的充分统计量，当且仅当f（y₁，y₂，…，y_m；θ）可被分解成以下两项积的形式：

f（y₁，y₂，…，y_m；θ）=Ψ（y₁，y₂，…，y_m）·Φ[T（y₁，y₂，…，y_m）；θ]

其中，Ψ（y₁，y₂，…，y_m）为与θ参数无关的函数，Φ[T（y₁，y₂，…，y_m）；θ]为参数θ和充分统计量T（y₁，y₂，…，y_m）的函数。

定理2（多参数分解定理）Y₁，Y₂，…，Y_m为随机变量，它们的联合密度函数为f（y₁，y₂，…，y_m；θ₁，θ₂）。统计量T₁（Y）=T₁（Y₁，Y₂，…，Y_m），T₂（Y）=T₂（Y₁，Y₂，…，Y_m）是参数θ₁，θ₂的充分统计量，当且仅当f（y₁，y₂，…，y_m；θ）可被分解成以下两项积的形式：

f（y₁，y₂，…，y_m；θ）=Ψ（y₁，y₂，…，y_m）·Φ[T₁（y₁，y₂，…，y_m），T₂（y₁，y₂，…，y_m）；θ₁，θ₂]

其中，Ψ（y₁，y₂，…，y_m）为与θ₁，θ₂参数无关的函数，Φ[T₁（y₁，y₂，…，y_m），T₂（y₁，y₂，…，y_m）；θ₁，θ₂]为通过充分统计量T₁（y₁，y₂，…，y_m），T₂（y₁，y₂，…，y_m）依赖于数据集（y₁，y₂，…，y_m）且与参数θ₁，θ₂有关的函数。

有了定理1和定理2，要验证某统计量是否充分性就可以考查p（Y₁=y₁，Y₂=y₂，…，Y_m=y_m）这个联合概率是否可以分解成定理1和定理2右端项的形式即可。假定Y₁，Y₂，…，Y_m为从正态分布总体N（θ₁，θ₂）中产生的样本，这里θ₁代表均值µ，θ₂代表方差σ²。统计量分别为θ₁，θ₂的充分统计量。这一点可通过运用前述Fisher和Neyman的分解定理，将p（Y₁=y₁，Y₂=y₂，…，Y_m=y_m）这个联合概率进行分解看出。式（1.5.8）给出了分解的过程。

由式（1.5.8）结合分解定理可知确实为θ₁，θ₂的充分统计量。不仅如此，凡是与充分统计量T₁（Y），T₂（Y）构成一一映射的其他统计量也是充分统计量，因此均值，样本方差S²=均是正态分布的均值和方差的充分统计量。这两个充分统计量，包含了正态分布总体的均值和方差的所有信息，只要知道了这两个充分统计量的值，正态分布就被唯一确定。而对于其他统计量，比如正态分布曲线的振幅，其他高阶矩就都是多余的。

充分统计量的意义主要体现在当给定T（y）取值的情况下，可根据f（y₁，y₂，…，y_m|T（y）=t）这一与Ω无关的密度函数完成对新样本的预测，甚至生成新的服从原来的参数分布f（Y；Ω）的数据集。这就是基于统计的各种模型均用充分统计量的期望作为模型的假设函数h_θ（x）=E（T（y）|x；θ）的原因。

在明确了指数分布族中各参数的含义后，接下来分别从正态分布、伯努利分布、多项式分布出发，通过相应的变换，使之变成式（1.5.1）形式的指数分布形式，从中可以看出这三种分布是指数分布族中的一种，进而可以看出这三种分布对应的模型为GLMs的特例。

首先，对于正态分布，从式（1.2.24）形式的密度函数出发，设定σ²=1（不考虑方差随均值变化的情况），经平方展开并整理后可变成式（1.5.9）的形式。对照指数分布族的标准型（式1.5.1），不难看出正态分布的充分统计量T（y）=y，其连接函数η=θ^Tx。由此可以看出，正态分布属于指数分布族中的一员。

对于伯努利分布，从式（1.3.3）出发可以等价变换成式（1.5.10）的形式。同样对照指数分布族的标准型，可以看出伯努利分布的充分统计量T（y）=y，其连接函数。而对数归一函数a（η），可将连接函数求逆得到的代入a（η），得到a（η）=−log（1−φ）=log（1+e^η）。由此可以看出，伯努利分布也属于指数分布族中的一员。

对于多项式分布，由于总共有k个不同的类别，情况变得稍微复杂一些。为使公式尽可能简化表示，需要使用式（1.5.11）形式的符号，其中T（i）是比类别数k少一维的（k−1）×1维的列向量，它的第i个分量为1，其余分量全为0，用来表示类别i的标识，即T（y）_i=1{y=i}。T（k）是一个全零列向量，表示第k个类别。

这样，对于多项式分布，从式（1.4.7）出发，进行相应的变换后得到式（1.5.12）的形式。

其中，∈，a（η）=−logf_k，b（y）=1。同样对照指数分布族的标准型，可以看出多项式分布的充分统计量T（y），连接函数。由此可以看出，多项式分布也属于指数分布族中的一员。

进一步，对连接函数求其反函数可以得到f_i=f_k·e^ηⁱ，又由得，从而。将f_i写成向量的形式，得到式（1.5.13），这正好是前面式（1.4.4）表示的softmax回归的假设函数。

以上给出了正态分布、伯努利分布、多项式分布三种常见分布改写成指数分布的过程，改写的过程其实就是GLMs模型的推导过程，因为一旦某种分布被写成指数分布的形式，通过与式（1.5.1）标准形式的指数分布对比就可以确定连接函数η和充分统计量T（y）的形式，模型的传递函数和模型的输出也随之确定。

除了正态分布、伯努利分布、多项式分布，指数分布族还有众多的其他分布，事实上大多数常见的分布，比如泊松（Poisson）分布、贝塔（beta）分布、伽马（gamma）分布、卡方（chi-squared）分布、指数（exponential）分布、几何（geometric）分布、维夏特（Wishart）分布及其逆分布等，均是属于指数分布族的成员，将它们各自的密度函数按照类似的方式都可以整理成式（1.5.1）的指数分布的形式。这样，所有服从这些属于指数分布族中的分布的数据都可以用广义线性模型进行处理。

最后，作为总结，这里给出GLMs的一般步骤：

（1）分析数据集，确定概率分布类型；

（2）根据数据服从的分布类型，将分布写成指数分布的形式，y|x；θ～Exponential-Family（η），进而确定连接函数η和充分统计量T（y）；

（3）用算法1训练模型，使得模型的假设函数的输出h_θ（x）=E（T（y）|x）。

上述步骤中最为关键的是步骤（1）。对GLMs原理不是很熟悉的读者，只要将要分析的数据所服从的分布类型确定好了，把这个分布类型作为GLMs的一个参数去调用相应的广义线性模型函数，其余两个步骤不再需要人工干预即可自动完成。