自适应和反应式机器人控制:动态系统法
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.6 通过学习修改控制律

在学习控制律后对其进行修改通常是有用的。例如,可以从标称线性动态系统开始,然后选择局部调制以避免障碍物。正如我们将在第8章中看到的,可以修改原始的动态系统fx),同时保持其在吸引子处的稳定性。这是通过添加乘法调节项Mx)∈ℝN×N来实现的,它是一个连续矩阵函数,对原动态数据进行如下处理:

M必须是满秩的,以防路径与原始吸引子错开。这种通过乘法项来调节的方法非常灵活。本书从如何使用它来调节一个或多个移动障碍物周围的路径开始,展示了该方法的各种应用。我们进一步展示了如何使用它来生成局部非线性动态函数或生成极限环,如图1.11所示。

图1.11 标称线性动态系统的调制可以避开障碍物,同时保持吸引子处的稳定性[57](图a),或通过从橙色区域中提供的数据点学习局部旋转来生成极限环[85](图b)

练习1.4 从练习1.3中创建的线性二维控制律开始。设矩阵。绘制相位图。对于A的哪些值,系统收敛并稳定在x*

有时可以手动设置此调节,例如在避开障碍物时。然而,学习这种调节通常会很有趣。例如,我们可以参数化Mx)以在空间中局部生成旋转。设置,其中R是角度θ的旋转函数(在二维中)。学习这种调节需要估计路径旋转θ的程度以及旋转的位置。假设我们获得了一组局部数据点,如图1.11中的橙色部分所示。旋转中心x0和通过γ传输的局部调节可以通过最大化高斯函数的期望参数来估算(见练习1.5)。

练习1.5 提供了一组共M个位置和速度的训练样本对,以估算调节矩阵

1.如果使用最大似然法拟合高斯函数,你将获得x0γ的哪个值?

2.如何估计θ