上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
2.3.1 线性回归算法
线性回归算法是指其使用的模型是线性的,也就是说,对于每个样本,其输出值都是特征的线性组合;而非线性回归算法使用的模型是非线性的,对于每个样本,其输出值是特征的非线性组合。线性回归算法和非线性回归算法的目标都是一致的,就是使预测结果尽可能地与目标函数或数据拟合。
线性回归算法的示意图如图2.7所示,数据为多个样本点,线性回归算法就是找到一条曲线y=h(x),使得每个数据点到这个曲线的距离的绝对值之和最小。
图2.7 线性回归算法的示意图
线性回归算法是通过迭代来实现的。设曲线为y=ax+b,即一条直线,a和b是要求的参数。拟合步骤如下:分别给a和b一个初始的参数(如1),将所有数据x代入y=ax+b,可得到N个y值,计算得到的y值与真实y值之差的绝对值就是误差(也称为损失)。继续调整参数a和b,循环上面过程,可得到一个新的更小一些的误差。如此循环,使误差越来越小,直到误差收敛为一个基本的固定值为止,并最终固定a和b。此时将任何新数据代入y=ax+b,都可得到一个接近真实y值的结果。
线性回归算法的模型可以表述为:对于一个样本xi,其输出值是其特征的线性组合,即:
线性回归算法的目标是用预测结果尽可能地拟合目标标签,其损失函数为: