隐私保护机器学习
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.1 有监督和无监督学习

机器学习的算法可以大致分为三类,即有监督学习、无监督学习和强化学习。有监督学习是从大量带有标签的数据中进行的学习,而无监督学习是从不带有标签的数据中进行的学习,强化学习是根据环境和奖惩,通过不断尝试,从错误中学习到规律。

有监督学习是机器通过某种学习算法,从大量带有标签的数据中学习到某种规则,训练出一个模型,在面对新数据的时候,该模型可以根据输入得到相应的输出结果。有监督学习常用于分类和回归任务,其数据由输入(属性)和输出(标签)两部分组成,如果输出结果是离散值,则为分类任务,如果输出结果是连续值,则为回归任务。

无监督学习是机器在大量没有标签的数据中进行的学习,让一些具有共同特征的数据聚在一起,常用于聚类、离群点检测和降维等任务。常用的无监督算法有k平均、谱聚类等。

有监督学习和无监督学习有不同的应用条件和场景。有监督学习需要带有标签的训练集和测试样本集,在训练集中寻找规律,得到模型,再通过测试样本集检测该模型是否可用。无监督学习没有训练集,在整个数据集中寻找规律。从应用层面来说,有监督学习是具有更好正确性的学习方法,但是对数据的要求较高,需要大量带有标签的数据,而给数据打标签是一个效率比较低的过程,因此在更多难以获得符合要求数据的场景下,无监督学习是更好的方法,并且无监督学习还有其他用途,如主成分分析有数据降维的作用。但是由于无监督学习没有标签,其正确性往往较低。具体应用的时候应当根据具体情况选择合适的学习方法。