1.2.2 传统值迭代算法_智能控制与强化学习：先进值迭代评判设计-QQ阅读男生武侠网

上QQ阅读APP看书，第一时间看更新

1.2.2 传统值迭代算法

受不动点迭代方法的启发，相关学者创造性地提出了一系列迭代ADP算法，以迭代的形式逼近最优代价函数和最优控制律。作为ADP方法中最基本的两种迭代框架，VI和PI算法在离散时间非线性系统的自适应评判控制设计中得到了广泛关注，并取得了令人瞩目的成果［24, 28-29, 36-38, 41-42］。在具有初始容许控制的前提下，PI 具有明显的优点，即需要较少的迭代次数且每一个迭代控制策略都是稳定的。然而，PI的每次迭代对计算的要求较高，并且初始容许控制难以获得，这阻碍了其更深层次的实际应用。相比之下，VI 算法由于没有初始限制而更容易实现。此外，随着VI算法框架的发展，学者们发现VI不仅可以为PI提供初始条件，还能与PI实现优势整合。因此，有必要总结现有的VI算法并提出更先进的VI算法，以实现更高效稳定的智能评判控制。

经典 VI 算法的初始代价函数一般设为V0（x）=0，对于迭代指标i∈ N={0,1,2,… } ,算法的实现过程为迭代更新控制策略

和代价函数

为了区分不同的初始化方法，将上述具有零初始代价函数的VI算法称为传统 VI 算法。基于V0（x）=0，传统 VI 算法的单调性和收敛性已得到了广泛的研究［24,37-38］。简言之，迭代代价函数序列是单调非减序列，即Vi（xk）≤Vi+1 （xk）。当i→∞时，迭代代价函数和控制策略收敛到最优值，即和。

作为一个基本的执行−评判学习框架，HDP结构常用于实现传统VI算法，整体框架如图1-1所示，其中包含了执行网络、评判网络以及模型网络。一般来讲，执行网络用于近似式（1-10）中的控制策略，即输出；评判网络用于近似式（1-11）中的代价函数，即输出；模型网络用于输出下一时刻的状态。在自适应评判控制领域，3个网络所使用的近似工具通常包括各种各样的神经网络以及多项式。在V0 （x）=0的传统VI算法基础上，相关学者发展了一系列先进的评判学习框架。通过引入代价函数的导数，提出了DHP和GDHP结构用于解决离散时间非线性系统的最优控制问题［37-38］。为了不依赖系统动态，文献［41］给出迭代神经动态规划（Neural Dynamic Programming,NDP）算法，以直接最小化迭代代价函数的形式输出控制策略。此外，通过引入目标网络来获得内部强化信号，文献［43］提出了一种目标表征HDP（Goal representation HDP,GrHDP）框架用于提升智能体的学习性能，并进一步给出了严谨的收敛性证明。考虑当前信息和历史信息，文献［44］提出了一种n步值梯度学习算法，通过和n步评判网络结合来训练执行网络，从而更快地获得最优策略。

图1-1 具有3个模块的HDP结构

对于这些基于传统VI的评判学习算法，迭代代价函数序列Vi（x）不是迭代策略ui （x）的 Lyapunov 函数序列。换言之，迭代过程中的控制策略ui （x）可能是不稳定的，这意味着只有收敛的最优策略才能用于控制系统。理论上讲，通过无穷次迭代步后，能够得到最优的控制策略。然而，对于真实的应用场景，算法不可能迭代无穷次且必须在有限次迭代步内终止，这要求一个合理的迭代终止准则。在以前的文献中常用的收敛终止准则为|Vi+1 （·）−Vi （·）|＜∈,其中∈是一个较小的正数。需要指出这个准则无法保证收敛策略的容许性［30］。因此，一般认为传统VI算法有3个明显的不足之处，即收敛速度缓慢、稳定性无法保证、必须离线学习。针对这些不足，本章着重描述一些新颖的VI框架，从而提升算法的收敛速度、保证策略的稳定性，以及实现在线演化控制。