2.4 元学习方法分类
元学习方法各不相同,对这些方法进行分类并没有严格的界限,只是对这些方法和思想进行提炼和总结。具体的元学习模型常常包含不同方法的组合,接下来介绍的元学习方法的分类只是对这些方法的总结。本节末尾的表2.1总结了元学习的主要框架,列出了每种框架下的主要思路。
2.4.1 神经网络适应法
神经网络适应法依赖于深度神经网络模型丰富强大的表示力来描述复杂问题,在小样本高维输入数据上,神经网络模型对高维输入数据进行降维。由于样本少,神经网络模型参数很多,只能依靠对预训练的深度模型进行局部调参,适应到小样本任务上来解决问题。
任务之间的相似性很复杂,它会随着任务复杂度的提高变得更加复杂,也会随着任务之间相似性不那么显而易见变得更加复杂,此时需要用神经网络丰富强大的表示力来对任务之间的相似性进行建模。正确考虑任务相似性非常重要,相似性是元学习模型损失函数的重要组成部分,指导模型按照最相似的任务训练经验进行适应,因此,相似性的建模非常重要。只有了解了任务之间的相似性,才能知道如何将一个任务上的训练经验应用到另一个任务上。
深度神经网络参数的冗余度高,用少量的参数就可以快速准确地预测剩下的参数,因此深度神经网络在不同任务之间适应更新时,只需要更新这少量的参数以及参数之间映射的规律,就可以将深度神经网络适应到新任务上。
另一种思路是重新设计神经网络模型的结构,在新结构中将描述任务特性的参数(Task-Specific Parameter)和描述任务之间共性的参数(Meta-Parameter)进行解耦。在任务内进行模型训练时,只更新描述任务特性的参数,在许多任务之间进行模型适应时,只更新描述任务共性的参数。
递归神经网络RNN包含递归自连接神经元和记忆细胞,记忆细胞可以保存过去的模型训练结果,递归自连接神经元可以使用序列数据完成自我更新,RNN可以让机器实现学会学习和自我更新以适应新任务。长短期记忆网络LSTM包含遗忘门,可以避免记忆细胞存储爆炸,也包含梯度在传导过程中不爆炸且不消失的机制,可以考虑序列数据中的长程相关性。
2.4.2 度量学习适应法
在比较任务之间的相似程度时,需要合适的度量以反映任务之间的距离,在进行图像分类时,分类函数中也需要输入距离。距离函数中可以包含超参数,超参数可以反映数据点的离散程度,在不同的任务中,数据点的分布情况差别较大。距离函数中包含这样的超参数有利于距离函数更好地更新来适应新任务,使得属于同一类别的样本点之间的距离最小,属于不同类别的样本点之间的距离最大。
由于任务之间的相似性很复杂,仅仅使用距离函数来表示还不够,还需要引入神经网络模型。一般使用卷积神经网络模型对高维输入数据进行降维,卷积神经网络作为特征提取函数,包含很多参数,这些参数在许多任务的训练集上共同训练得到,此时任务之间的共性蕴含在卷积神经网络的参数中。
元学习模型可以借鉴过去的模型训练结果,这些结果存储在记忆模块中。记忆模块需要具备以下功能,一是记忆更新功能,二是记忆删除功能,三是记忆搜索功能。记忆模块可以被添加到任何神经网络模型中,在模型训练过程中,存储模型训练中产生的重要参数。记忆搜索功能可以提取记忆模块中最相似任务的训练经验,而记忆搜索依赖于度量函数,使用度量函数找到相似程度最高的任务经验来借鉴。
在分类问题中,可以计算每一类样本特征的平均值,作为该类样本特征的中心点(Centroid)或者典型(Prototype)。对于新任务中的训练数据,计算新任务特征与所有类别中心点之间的距离度量,然后对新任务进行分类。度量常常出现在损失函数中,不同度量的定义也会改变损失函数的性质,影响模型优化方法的选取。
2.4.3 基础学习器和元学习器适应法
这一类元学习方法应用很广,最早提出元学习概念的论文中提出的就是这一类方法。这一类方法的优势是,将任务特性的建模和任务共性的建模进行解耦,使得模型部件可以分别在这两个方面都达到最优,然后进行交流和组合,保持模型精度,提高模型泛化能力。
基础学习器是用来对任务特性建模的方法,基础学习器在任务上进行训练,适应了任务的特性。元学习器用来对任务共性进行建模,综合许多任务的训练结果,训练元学习器中描述任务共性的参数。任务特性的建模和任务共性的建模常常是共轭的,使用同一个模型同时对任务特性和共性进行分析,难以同时将二者反映得最好。例如,基础学习器适应任务的特性后,将任务训练的结果传递回元学习器,元学习器综合许多任务的训练结果提炼出任务之间的共性,更新元学习器中描述任务共性的参数。
一种情况是基础学习器简单而元学习器复杂,简单的基础学习器在任务上不会过拟合,复杂的元学习器可以描述复杂的任务相似性。另一种情况是基础学习器和元学习器都复杂,任务本身复杂,需要复杂的基础学习器来进行建模,复杂的元学习器来描述复杂的任务相似性。一般需要对基础学习器和元学习器的复杂度超参数进行调参,在小样本高维输入数据上,由于数据少,对复杂度的超参数进行调参可能无法实现。在样本量允许的情况下,对基础学习器和元学习器的复杂度超参数进行调参,有利于提高元学习模型的性能。
一类方法引入元元学习器来指导元学习器的训练,元元学习器能够考虑更加复杂的任务相似性,但是在元学习器本身足够复杂时,引入元元学习器可能没有必要。另一类方法加强基础学习器和元学习器之间的沟通交流,设计新的基础学习器和元学习器的结合方式。值得注意的是,在联邦学习中需要考虑沟通交流的内容是否符合隐私法律的要求。
实际应用中的元学习模型往往综合了几种学习框架,基础学习器和元学习器之间的界限也不明晰,参数交替进行更新,难以判断哪些参数描述任务特性、哪些参数描述任务共性。元学习方法的发展思路即是这样,元学习器和基础学习器的结合更加亲密无间、难分你我,在实际应用中,基础学习器和元学习器的结合更加灵活多变。虽然如此,通过仔细分析,仍然可以区分出基础学习器和元学习器的部分,区分出任务专属参数和任务共性参数。
这种元学习方法常常与任务的分解配合进行,任务分解后在不同层级上使用不同的学习器,这些学习器之间再发生沟通交流。此时根据任务分解的情况,学习器也难以明确区分基础学习器和元学习器,且不同学习器之间可能会共享训练数据,不同训练数据也可能会用在同一个学习器的训练中。针对不同任务,可以训练出合适的任务分解与学习器层级模型以实现元学习的目标。
2.4.4 贝叶斯元学习适应法
在统计学中,贝叶斯思想是相对于频率论(Frequentist)思想的,学生时代大家经常讨论的例子是明天下雨的概率。在贝叶斯思想下,明天下雨的概率本身是一个随机变量,具有先验分布,结合实际观察数据的似然函数,给出明天下雨概率的后验分布,在后验分布中概率最大的区间代表了明天下雨的概率。在频率论思想下,明天下雨的概率是用过去很多年这个季节下雨的频率值来进行估计的。在这个简单的问题上,贝叶斯思想通过先验概率和后验概率的机制对过去经验和当下数据进行灵活组合,可以对过去经验加上更多权重,也可以对当下数据加上更多权重,对问题的描述更加灵活。频率论思想给出明天下雨概率的估计值和置信区间,描述简洁且直接。因此,贝叶斯思想将所有参数视为服从概率分布的随机变量,而频率论思想给出参数的估计值和置信区间,考虑参数的假设检验。
在贝叶斯思想下,参数被视为随机变量,随机变量的概率分布用样本进行模拟。贝叶斯思想包括以下方面:一是根据联合分布和条件分布,生成新的数据,以假乱真,对数据集进行扩充;二是实现数据的遗传演化和渐变,根据新数据基于过去数据的条件分布,由过去的数据生成新数据;三是使用多层贝叶斯模型,对模型中的参数进行建模,给出所有参数的先验分布和后验分布;四是贝叶斯变分推理,给出后验分布的最优近似,快速有效,得到隐藏层参数或者背景参数的后验分布近似。除此之外,还有贝叶斯决策理论、贝叶斯网络模型、重要性抽样和非参数贝叶斯等重要贝叶斯理论。
统计学习方法和机器学习方法的结合有许多例子。例如,贝叶斯深度学习、支持向量机模型SVM、神经网络中的显式或隐式正则项、随机误差扰动等,这里的元学习与贝叶斯思想的结合也是这样的案例,基于贝叶斯模型生成更复杂的任务环境,随之改变的是完成任务的深度学习器。任务环境和深度学习器的协同进化创造了更加复杂的任务和相应的深度学习器,深度学习器可以应用于更加复杂的环境,而这样的复杂环境依靠重新训练深度模型来解决可能是无法办到的,这样的协同进化机制可以完成复杂任务。
学习器中的随机梯度下降法可以用贝叶斯思想下的SVGD(Stein Variational Gradient Descent)来替代,这里用样本来描述每个随机变量的分布。贝叶斯方法往往需要生成大量的模拟样本,用模拟样本扩充训练数据,或者使用模拟样本代表每个随机变量的后验分布,使用模拟样本之间的距离来估计随机变量分布之间的距离,通过优化模型实现对参数的估计。使用拉普拉斯似然函数中的高斯分布函数积分运算,更新任务专属参数的后验分布来适应不同任务,拉普拉斯近似后的MAML模型计算起来更快,精度损失不大。
2.4.5 元学习与其他学习框架结合
元学习与许多领域都有结合,元学习与域迁移之间的结合非常有趣。域迁移是迁移学习中的方法,域指的是不同的数据源,Jiechao Guan等作者于2020年在论文“Few-Shot Learning as Domain Adaptation: Algorithm and Analysis”[8]中提出在小样本学习中将元学习方法中的Prototypical Network和迁移学习方法中的Domain Adaptation结合起来,考虑每新增一个小样本数据集就对原有小样本集计算出的类特征典型(Class Prototype)进行偏移,然后使用Prototypical Network对小样本图像数据集进行分类,这样做提高了小样本图片分类的精度,论文作者将元学习与域迁移结合形成的方法称为Meta-DA。Jianzhu Guo等作者于2020年在论文“Learning Meta Face Recognition in Unseen Domains”[9]中提出一个将MAML和域迁移结合起来的人脸识别模型框架,不经过调参就可以将训练好的深度网络模型直接应用到目标域上并且获得了不错的精度。考虑域迁移之后,元学习模型的适应性得到了提高,可以适应到差别更大的任务上。
元学习与联邦学习的结合也受到了很多关注。Jeffrey Li等作者于2019年在论文“Differentially Private Meta-Learning”[10]中提出将元学习和联邦学习结合起来考虑。联邦学习将大量用户端的数据在用户端进行加密脱敏之后汇集起来进行数据分析,以此来保护用户端数据的隐私。在元学习模型进行数据分析时,不同层次的学习器之间需要进行数据交流、共享信息,此时需要考虑用户端数据的隐私问题,信息的交流受到限制。例如,在MAML中,基础学习器和元学习器之间需要交流损失函数对初始参数的梯度,这样的数据交流会受到联邦学习中数据隐私的限制,在这种限制下完成模型最优化是具有挑战性的工作。在元学习模型中,需要考虑联邦学习下的隐私保护限制,对信息进行加密处理,然后才能在基础学习器和元学习器之间传递。
元学习与强化学习的结合被称为元强化学习(Meta-RL),其价值主要体现在机器人领域。机器人与环境发生交互,估计出不同行动的收益,优化机器人的行动策略。环境常常是多变的,预训练的模型需要快速准确地适应新环境,机器人可能会遇到极少遇到的情形,例如,机器人部件的损坏等。在这样的情况下,预训练好的最优行动策略需要快速准确地适应到这样的情况,并且采取最优行动。Chelsea Finn教授在机器人领域进行了大量元强化学习的研究。除此之外,模仿学习可教会机器人通过一两次示范就快速准确地学会新动作,一两次示范是小样本的高维输入数据,可以用元学习模型进行分析。元学习与模仿学习、强化学习常常结合起来解决机器人通过一两次示范快速准确学会新动作的问题。Allan Zhou等作者于2019年在论文“Watch, Try, Learn: Meta-Learning from Demonstrations and Reward”[11]中提出基于试错的方法,将元学习、模仿学习、强化学习结合起来解决机器人通过少量示例快速准确学会新动作的问题,通过多次训练并且多次优化目标函数,提高机器人学会新动作的成功率。
对小样本学习的关注缘于有标注数据的缺乏。对于没有标注数据的情况,需要考虑将元学习与无监督学习(Unsupervised Learning)结合起来,使用无监督分类方法对数据点进行分类标注,将估计的标注作为元学习模型的输入,或者将元学习模型适应过程中的有监督适应模式转变为无监督适应模式,使模型的适应过程只使用无标注数据。自监督学习(Self-Supervised Learning)也是使用无标注数据进行学习的,对学习的监督都来自数据集本身。Xiao Liu等作者于2020年在论文“Self-Supervised Learning: Generative or Contrastive”[12]中对主流的自监督学习方法进行了分析归纳,主要有生成式方法(Generative)、对比式方法(Contrastive)、生成式和对比式结合的方法。类似地,自监督学习也可以与元学习结合进行应用。
Aoxue Li等作者于2020年在论文“Boosting Few-Shot Learning With Adaptive Margin Loss”[13]中使用元学习中的Prototypical Network与多模态学习(Multi-Modal Learning)结合的方法实现小样本学习,获得了不错的小样本图片分类精度。多模态学习是将多个感官获取的信息进行整合来完成一个任务,例如,首先从图片中训练提取图片相应的语义文本,在这个过程中需要将图片与一些带有文字标注的图片进行比对,获得图片相应的语义文本。获得的语义文本在小样本图片分类中会有益处,有利于提高小样本图片分类的精度。