1.2.1 基本术语
虽然本书以探索精神为主,但是书中不乏一些公式。为便于学习,需要约定一些术语。
在机器学习中,输入的所有可能取值的集合称为输入空间(Input Space),记为。输入变量记为X=(X1,X2,···,Xp)T,表示输入变量包含p维属性,因此输入空间也被称为属性空间。输入变量的具体取值称为实例,通常为向量,记为x=(x1,x2,···,xp)T。输出的所有可能取值的集合称为输出空间(Output Space),记为。输出变量记为Y,输出变量的具体取值称为标注信息或标签,本书中涉及的实例标签为标量,记为y。在统计书籍中,输入变量X还有个更经典的称呼,叫自变量或解释变量,输出变量Y还被称为因变量或响应变量。
数据机器中从输入到输出的潜在规律是未知的,需要学习得到。为通过学习逼近数据中存在的潜在规律,首先假设由所有这些潜在规律组成的集合,这一集合称为假设空间(Hypothesis Space),记作,这意味着确定了计划学习的所有候选模型。特别地,如果候选模型是由参数决定的,则称参数所有可能取值的结合为参数空间(Parameter Space),记作Θ。之后,将希望学习的目标模型记作,进行学习。学习过程分为训练和测试两个阶段。
训练过程中使用的数据称为训练数据(Training Data)。由训练数据组成的集合称为训练数据集(简称训练集),通常表示为
T={(x1,y1),(x2,y2),···,(xN,yN)}
式中,(xi,yi)表示训练集中的第i个样本,i=1,2,···,N,N表示训练数据集的样本容量。在监督学习中,训练集中的每个样本(Sample),都是以输入-输出对出现的。每个样本实例
xi=(xi1,xi2,···,xij)T
式中,xij表示第i个样本中的实例在第j个属性上的取值。
完成训练之后,将获得一台数据机器,机器的运行机制就是通过训练所得的模型。训练出的模型只是在训练集上表现优异的种子选手。也就是说,这一模型只是能够很好地拟合已知的数据。在正式投入使用之前,要试运行一下,看看这个机器是否可以很好地适用于一些新实例,为此我们会准备测试数据(Test Data)。由测试数据组成的集合称为测试数据集(简称测试集),记作
T′={(x1′,y1′),(x2′,y2′),···,(xN′,yN′)}
式中,(xi′,yi′)表示测试集中的第i′个样本,i′=1′,2′,···,N′,N′表示测试集的样本容量。通过测试集,可以检测模型适用于未知的新实例的能力。测试时,将测试集中的实例输入训练集训练而出的模型中,将根据模型预测的标注f(xi′)与真实标注yi′进行比较。对于那些未曾发生的事,人类所做的预测无从分辨真假。所以用以测试的这组数据仍然是既有输入又有输出。根据试运行结果,我们会对之前训练出的模型做一些微调,从而平衡对已知数据的拟合能力和对未知数据的泛化能力。关于拟合能力和泛化能力,1.3节将给出详细讲解。
一切准备就绪之后,就可以将数据机器投入使用了,也就是预测过程。每给定一个实例,就可以预测出一个结果。监督学习的全过程如图1.6所示。
图1.6 监督学习全过程