量子机器学习及区块链技术导论
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.2.4 逻辑回归算法

上述分类方法基本都是一些简单的概率计算,可通过手工推导来得到结果,从接下来介绍的逻辑回归算法开始,均无法通过手工推导来得到结果。

逻辑回归算法需要确定对于输入x的最佳系数w,将w的转置与x相乘,即:

img

逻辑回归算法的输入是Sigmoid函数,如图2.4所示,如果img,则属于1类;如果img,则属于0类。

img

图2.4 Sigmoid函数

对上述的电影数据进行简化,电影名与不同镜头的个数如表2.4所示。

表2.4 电影名与不同镜头的个数

在逻辑回归算法中,只用到4部老电影,即2部爱情片和2部动作片。每部影片的打斗镜头、接吻镜头和爆破镜头的个数,构成了逻辑回归算法的输入x,即4行3列的矩阵。在采用逻辑回归算法进行处理时,首先将x将赋初值为一个4行1列的向量x1,将w1转置后与x1相乘,并输入Sigmoid函数,可得到4个0~1之间的数,组成一个4×1的向量,这个向量与老电影的类别标签向量相减,两个向量相减后得到的数值就是权重为当前w1时输出的误差e1。类别标签向量是将类别按照顺序排列成一个4×1的向量,如本例中爱情片的类别是1、动作片的类别是0,则类别标签向量是1010。然后更新w,也就是计算w2=αxe1+w1,其中α是一个固定的更新系数,也称为步长(通常α取类似0.1、0.001的数),其作用是一点点地调整w的值,经过反复调整若干次,如500次,可得到w500,将w500转置后与x相乘,并输入Sigmoid函数,得到的输出大于0.5,因此判断新电影属于1类,即爱情片。

用一句话总结,逻辑回归算法就是通过Sigmoid函数计算最佳拟合参数w。逻辑回归算法的缺点是当特征空间很大或特征数量过多时,其性能不是很好。