上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
2.4 无监督学习
假设给出了一个数据集,其中每个样本都有一组特征,但没有标签(Label)。标签是支持向量机算法等有监督学习算法的基本组成部分,支持向量机算法的学习就是假设函数来预测给定特征的标签,没有标签就不能运行监督学习算法。无监督学习就是在没有标签的数据集上执行任务,在数据集中通过无监督学习算法找到彼此相似的数据集。
有监督学习类似于在教练监督下的跑步训练,教练指导学员的每个标准动作,并随时对错误动作进行纠正,当学员的成绩达到一定的水平时,表示训练完毕,之后进行没有教练的监督。无监督学习就是自己对自己的跑步进行训练,出现错误时自行纠正。例如,若摔倒可能是因为鞋子的问题,则换一双鞋后再训练,通过反复自我训练来提升成绩,直到达到期望的水平为止。
此外,还存在一种介于有监督学习与无监督学习之间的半监督学习(Semi-Supervised Learning)。在现实的机器学习中,可能出现标注太少的问题,大量数据都没有被人工标注过,也就是说,有一部分训练数据的输入变量x有对应的输出变量y,另一部分的训练数据没有对应的输出变量y。在这种情况下,一方面可以采用无监督学习方法来发现和学习输入变量的结构;另一方面可以先采用有监督学习方法对未标注数据的输出结果进行预测,然后对这些有预测标签的数据进行训练。