上QQ阅读APP看书,第一时间看更新
3.3.2 矩阵范数
除了衡量向量的大小很多时候也需要衡量矩阵的大小,前面所讲到的有关向量范数的知识同样可以应用于矩阵。满足下列所有性质的任意函数f称为矩阵范数。
(1)正定性:‖A‖≥0,且当‖A‖=0时,必有A=0成立;
(2)正齐次性:∀A∈Rm×n,‖αA‖=|α|×‖A‖;
(3)三角不等次性:‖A‖+‖B‖≥‖A+B‖;
(4)矩阵乘法的相容性:对于任意两个矩阵A∈Rk×m和矩阵B∈Rn×k,若A可以与B相乘,则满足‖A‖×‖B‖≥‖A×B‖。
本书采用与向量范数相似的表达式‖A‖p来表示矩阵的p范数,矩阵通常采用的是诱导范数,诱导范数的定义如下:
(1)假设‖x‖m是向量x的范数,‖A‖n是矩阵A的范数对于任意满足‖x‖m×‖A‖n≥‖x×A‖m的向量x和矩阵A,有矩阵范数‖A‖n与向量范数‖x‖m相容。
(2)假设‖x‖p是向量x的p范数,定义:,则‖A‖p是一个矩阵范数,并且称该矩阵范数是由向量范数‖x‖p所诱导的诱导范数。
由向量的p范数诱导可得矩阵p范数。
1.矩阵L2范数
矩阵L2范数也被称为谱范数,写作‖A‖2,是由向量L2范数诱导的矩阵范数,其表达式如下所示:
其中λj(ATA)表示矩阵ATA的第j个特征值。
2.矩阵L1范数
矩阵L1范数也被称为列和范数,写作‖A‖1,是由向量L1范数诱导的矩阵范数,其表达式如下所示:
当p的值趋于∞时,矩阵L∞范数也被称为行和范数,写作‖A‖∞,是由向量L1范数诱导的矩阵范数,其表达式如下所示:
在深度学习中,最常见的做法是使用F范数(Frobenius norm,简称F范数),其表达式如下所示:
其类似于向量L2范数。在后续章节中处理模型最优化问题时将很多问题转化为F范数的最优化问题。