
上QQ阅读APP看书,第一时间看更新
3.3.2 Actor-Critic
演员-评论家(Actor-Critic,AC)是得到广泛应用的基于策略梯度的强化学习方法。演员-评论家的网络结构如图3-4所示。

图3-4 演员-评论家的网络结构示意
演员-评论家的网络结构包括两部分:演员(Actor)和评论家(Critic)。模型的输入为状态s,演员根据以下公式采用随机梯度下降法更新随机策略πθ(a|s)的参数:

并且使用评论家得到的动作值函数Qω(s,a)替代上式中未知的真实动作值函数Qπ(s,a)。演员输出的状态s和动作a一起输入评论家中,由评论家使用TD策略评价算法来估计动作值函数Qω(s,a)≈Qπ(s,a)。简单来说,演员-评论家的整个学习过程为演员产生动作,评论家对演员产生的动作进行打分,并生成TD估计误差来同时指导演员和评论家进行更新。
我们在利用演员-评论家进行强化学习时,经常会从一个不同于πθ(a|s)的策略β(a|s)中采样来估计策略梯度。因此,目标函数也会相应地修改为目标策略的值函数Vπ(s)在策略β的状态概率分布Pβ(s)上求积分的形式:

对上式两边求偏导,并且丢弃和相关的一项,得到策略梯度:

演员-评论家使用动作策略βθ(a|s)来产生轨迹样本。评论家利用这些样本并且使用梯度时间差分(Gradient Temporal Difference,GTD)的方式估计状态值函数Vv(s)≈Vπ(s)。演员根据上述公式采取随机梯度下降法来更新策略参数θ。在计算时,用TD误差δt=rt+1+γVv(st+1)-Vv(st)代替未知的动作值函数Qπ(s,a)。演员和评论家都使用重要性采样权重来调整目标函数。因为事实上,动作是根据策略β而不是策略π来选择的。