数据分析与挖掘算法:Python实战
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.4 机器学习算法简介

1.逻辑回归

逻辑回归是非常经典的二分类算法,它的优点是输出值自然地落在区间[0,1]中,并且有概率意义。逻辑回归模型背后的概率学经得起推敲,它拟合出来的参数代表了每一个特征(feature)对结果的影响,被广泛用于估算一个样本属于某个特定类别的概率。简单地说,逻辑回归模型通过将数据拟合到一个逻辑函数来预测一件事发生的概率。如果预测发生的概率超过50%,则模型预测该样本属于该类别(称为正类,标记为“1”);反之,则模型预测该样本不属于该类别(被称为负类,标记为“0”)。由于逻辑回归的算法简单和高效,在实际工作中的应用非常广泛。在实际工作中,我们可能会遇到以下问题:

(1)预测一个客户在网店是否点击特定的商品;

(2)判断一条评论是正面的还是负面的;

(3)判断一封电子邮件是否属于垃圾邮件;

(4)预测客户的贷款是否会违约;

(5)诊断患者是否有某种疾病。

以上问题都可以被看作分类问题,更准确地讲,它们都可以被看作二分类问题。在解决这些问题时,通常会用到逻辑回归模型进行分类。

2.决策树

决策树的生成算法有ID3、C4.5、CART等。决策树是一种树形结构,其中每个节点表示对一个属性的判断,每个分支代表一个判断结果的输出,每个叶节点代表一种分类结果。决策树是一种十分常用的分类算法,属于监督学习,即通过对给定样本进行训练学习从而得到一个决策树,这棵决策树能够对新的数据做出正确的分类。决策树同时适用于分类因变量和连续因变量。在决策树中,我们尽可能将总体基于最重要的属性/自变量分成不同的组别。

决策树的特点是总沿着特征做划分。随着层层递进,这个划分会越来越细。举个简单的例子,当我们预测一个孩子的身高时,决策树的第一层可能是这个孩子的性别:如果是男生,则走左边的树枝进行进一步预测;如果是女生,则走右边的树枝进行进一步预测。这就说明性别对身高有很强的影响。因为决策树能够生成清晰的基于特征选择不同预测结果的树状结构,当数据分析师希望更好地理解手上的数据时,往往会使用决策树。决策树的应用场景特别多,比如遥感影像的分类、客户满意度调查、金融领域的二项式期权定价、企业投资分析等。

3.朴素贝叶斯

朴素贝叶斯是一种常用的分类算法,适用于高维度的数据集,具有速度快、可调参数少的优点,非常适合为分类问题提供快速但粗糙的基本解决方案。朴素贝叶斯依据概率论中的贝叶斯定理建立模型,其前提假设了各个特征之间相互独立。这个假设比较极端,因为在实际场景中,多个特征一般存在相关性,而特征相对独立的假设使得算法变得简单,因此,在具体场景中需要提前对数据进行相关性检验。朴素贝叶斯比较常见的应用场景如下:

(1)文本分类/垃圾文本过滤/情感判断:在文本分类场景中,朴素贝叶斯依旧坚挺地占据着一席之地。因为在文本数据中,分布独立这个假设基本是成立的。而垃圾文本过滤(比如识别垃圾邮件)和情感判断(比如判断用户的褒贬情绪)通过朴素贝叶斯也通常能取得很好的效果。

(2)推荐系统:在推荐系统中,朴素贝叶斯和协同过滤是一对好搭档,协同过滤是强相关性,但是泛化能力稍弱,将朴素贝叶斯和协同过滤一起使用能增强推荐的覆盖度和效果。

4.聚类分析

聚类就是将数据分类到不同的类或者簇的过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。其实,聚类分析是一种通过数据建模简化数据的算法。本书基于划分的聚类(比如K-means聚类与k中心点聚类)和基于密度的聚类进行讲解。聚类分析属于无监督学习,与分类分析不同,无监督学习不依赖预先定义的类或带类标记的训练样本,需要由聚类分析自动确定标记,而分类分析的实例或数据对象有类别标记。聚类分析是一种探索性分析,我们不必事先给出一个分类标准,聚类分析能够从样本出发,自动进行分类。同时,聚类分析还可以作为其他算法(如分类分析算法和回归算法)的预处理过程。聚类分析的应用场景包括:基于客户位置等地理信息进行商业选址、客户画像描摹、电信用户的恶意欠费识别和恶意流量识别、搜索引擎中的关键词推荐、基于客户特征进行用户分组,以及机器视觉领域的图像分割等。

5.关联规则挖掘

最初,关联规则挖掘是针对购物车分析问题而提出的。该算法通过发现顾客放入购物车中的不同商品之间的关联,分析顾客的购物习惯。这种关联的发现可以帮助零售商了解哪些商品频繁地被顾客同时购买,从而帮助他们研发出更好的营销策略。

关联规则挖掘是一种基于规则的机器学习算法,此算法可以让我们在数据库中发现感兴趣的关系。通过关联规则挖掘可以利用一些度量指标来分辨数据库中存在的强规则,即关联规则挖掘可以用于KDD。关联规则挖掘属于无监督学习。最常见的关联规则挖掘是所谓的“支持-置信”分析。在从商品X到商品Y的关联规则中,支持度是指在所有事件中同时购买商品X和商品Y的比例,置信度则是指在所有购买商品X的事件中也购买商品Y的比例。如果支持度和置信度都超过了相应的阈值,则从商品X到商品Y的规则被认为是有效的。可以按照置信度从高到低的顺序进行商品推荐。

关联规则的应用场景主要有:提供个性化的商品搭配推荐、新闻资讯推荐、旅游目的地推荐、互联网舆论情绪与商品价格的关联关系挖掘和预测、依据顾客的浏览轨迹进行精准营销、气象的关联分析及预测、金融产品的交叉销售和分析等。

6.人工神经网络

人工神经网络是自20世纪80年代以来在人工智能领域中兴起的研究热点。人工神经网络是由大量处理单元互相连接组成的非线性、自适应的信息处理系统。它从信息处理角度对人脑神经元网络进行抽象,建立某种简单模型,并按不同的连接方式组成不同的网络。人工神经网络是一种运算模型,由大量的节点(又称神经元)相互连接构成。每个节点代表一种特定的输出函数(被称为激励函数)。每两个节点间的连接都代表一个对于通过该连接信号的加权值,我们称之为权重,这相当于人工神经网络的记忆。网络的输出则依照网络的连接方式、权重和激励函数的不同而不同。而网络自身通常都是对自然界的某种算法或者函数的无限接近,也可能是对一种逻辑策略的表达。

人工神经网络在模式识别、智能机器人、自动控制、预测估计等领域已经成功地解决了许多现代计算机难以解决的实际问题,表现出了良好的智能特性。

7.集成学习

俗话说:“三个臭皮匠,赛过诸葛亮”。如果聚合一组模型(比如分类器或回归器)的预测,则得到的预测结果也比最好的单个模型要好。我们将聚合中这样的一组模型称为集成。这种技术,也被称为集成学习。集成学习的算法则被称为集成算法。集成算法是将多个较弱的模型集成为模型组,其中的模型可以单独进行训练,并且它们能以某种方式结合起来进行总体预测。最常见的集成算法有两种——boosting和bagging。boosting是基于分类错误样本提升模型的性能的算法,即通过集中关注被已有模型分类错误的样本,然后构建新模型并集成的算法。bagging是基于数据随机重抽样的模型构建算法。


[1]超参数是在开始学习过程之前设置的值的参数,而不是通过训练得到的参数。