强化学习:原理与Python实战
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

数学符号表

本书数学符号表约定的一般规则:

❑大写是随机事件或随机变量,小写是确定性事件或确定性变量。

❑衬线体(如X)是数值,非衬线体(如X)则不一定是数值。

❑粗体是向量(如w)或矩阵(如F)(矩阵用大写,即使确定量也是如此)。

❑花体(如X)是集合。

❑哥特体(如f)是映射。

❑为概率计算统计量的算子(包括E、Pr、Var、H)不斜体。

下面列出常用字母。若部分章节有局部定义的字母,则以该局部定义为准。

1.拉丁字母

Aa:优势。

Aa:动作。

A:动作空间。

Bb:异策学习时的行为策略;部分可观测任务中的数值化信念;小写的b还表示额外量。

Bb:部分可观测任务中的信念。

Bπ、bπ:策略π的Bellman期望算子(大写只用于值分布学习)。

B*、b*:Bellman最优算子(大写只用于值分布学习)。

B:经验回放中抽取的一批经验;部分可观测任务中的信念空间。

B+:部分可观测任务中带终止信念的信念空间。

c:计数值;线性规划的目标系数。

dd:度量。

dff散度。

dKL:KL散度。

dJS:JS散度。

dTV:全变差。

Dt:回合结束指示。

D:经验集。

e:自然常数(约2.72)。

e:资格迹。

E:期望。

f:一般的映射。

F:Fisher信息矩阵。

Gg:回报。

g:梯度向量。

h:动作偏好。

H:熵。

k:迭代次数指标。

:损失。

p:概率值,动力。

P:转移矩阵。

o:部分可观测环境的观测概率。

O:渐近记号。

Oo:观测。

Pr:概率。

Qq:动作价值。

Qπqπ:策略π的动作价值(大写只用于值分布学习)。

Q*q*:最优动作价值(大写只用于值分布学习)。

q:动作价值的向量表示。

Rr:奖励。

R:奖励空间。

Ss:状态。

S:状态空间。

S+:带终止状态的状态空间。

T:回合步数。

Tt:轨迹。

u:部分可观测任务中的信念更新算子。

Uu:用自益得到的回报估计随机变量;小写的u还表示置信上界。

Vv:状态价值。

Vπvπ:策略π的状态价值(大写只用于值分布学习)。

V*v*:最优状态价值(大写只用于值分布学习)。

v:状态价值的向量表示。

Var:方差。

w:价值估计参数。

Xx:一般的事件。

X:一般的事件空间。

z:资格迹参数。

2.希腊字母

α:学习率。

β:资格迹算法中的强化强度;值分布学习中的扭曲函数。

γ:折扣因子。

Δδ:时序差分误差。

ε:探索参数。

λ:资格迹衰减强度。

π:圆周率(约3.14)。

Ππ:策略。

π*:最优策略。

θ:策略估计参数。

ϑ:价值迭代终止阈值。

ρ:访问频次;异策算法中的重要性采样比率。

ρ:访问频次的向量表示。

ττ:半Markov决策过程中的逗留时间。

Ωω:值分布学习中的累积概率;(仅小写)部分可观测任务中的条件概率。

Ψ:扩展的优势估计。

3.其他符号

<、≤、≥、>:普通数值比较;向量逐元素比较。

≺、、≽、≻:策略的偏序关系。

≪、≫:绝对连续。

∅:空集。

∇:梯度。

~:服从分布。

:实数的绝对值;向量或矩阵的逐元素求绝对值;集合的元素个数。