数学符号表
本书数学符号表约定的一般规则:
❑大写是随机事件或随机变量,小写是确定性事件或确定性变量。
❑衬线体(如X)是数值,非衬线体(如X)则不一定是数值。
❑粗体是向量(如w)或矩阵(如F)(矩阵用大写,即使确定量也是如此)。
❑花体(如X)是集合。
❑哥特体(如f)是映射。
❑为概率计算统计量的算子(包括E、Pr、Var、H)不斜体。
下面列出常用字母。若部分章节有局部定义的字母,则以该局部定义为准。
1.拉丁字母
A、a:优势。
A、a:动作。
A:动作空间。
B、b:异策学习时的行为策略;部分可观测任务中的数值化信念;小写的b还表示额外量。
B、b:部分可观测任务中的信念。
Bπ、bπ:策略π的Bellman期望算子(大写只用于值分布学习)。
B*、b*:Bellman最优算子(大写只用于值分布学习)。
B:经验回放中抽取的一批经验;部分可观测任务中的信念空间。
B+:部分可观测任务中带终止信念的信念空间。
c:计数值;线性规划的目标系数。
d、d∞:度量。
df:f散度。
dKL:KL散度。
dJS:JS散度。
dTV:全变差。
Dt:回合结束指示。
D:经验集。
e:自然常数(约2.72)。
e:资格迹。
E:期望。
f:一般的映射。
F:Fisher信息矩阵。
G、g:回报。
g:梯度向量。
h:动作偏好。
H:熵。
k:迭代次数指标。
ℓ:损失。
p:概率值,动力。
P:转移矩阵。
o:部分可观测环境的观测概率。
O、:渐近记号。
O、o:观测。
Pr:概率。
Q、q:动作价值。
Qπ、qπ:策略π的动作价值(大写只用于值分布学习)。
Q*、q*:最优动作价值(大写只用于值分布学习)。
q:动作价值的向量表示。
R、r:奖励。
R:奖励空间。
S、s:状态。
S:状态空间。
S+:带终止状态的状态空间。
T:回合步数。
T、t:轨迹。
u:部分可观测任务中的信念更新算子。
U、u:用自益得到的回报估计随机变量;小写的u还表示置信上界。
V、v:状态价值。
Vπ、vπ:策略π的状态价值(大写只用于值分布学习)。
V*、v*:最优状态价值(大写只用于值分布学习)。
v:状态价值的向量表示。
Var:方差。
w:价值估计参数。
X、x:一般的事件。
X:一般的事件空间。
z:资格迹参数。
2.希腊字母
α:学习率。
β:资格迹算法中的强化强度;值分布学习中的扭曲函数。
γ:折扣因子。
Δ、δ:时序差分误差。
ε:探索参数。
λ:资格迹衰减强度。
π:圆周率(约3.14)。
Π、π:策略。
π*:最优策略。
θ:策略估计参数。
ϑ:价值迭代终止阈值。
ρ:访问频次;异策算法中的重要性采样比率。
ρ:访问频次的向量表示。
τ、τ:半Markov决策过程中的逗留时间。
Ω、ω:值分布学习中的累积概率;(仅小写)部分可观测任务中的条件概率。
Ψ:扩展的优势估计。
3.其他符号
<、≤、≥、>:普通数值比较;向量逐元素比较。
≺、、≽、≻:策略的偏序关系。
≪、≫:绝对连续。
∅:空集。
∇:梯度。
~:服从分布。
:实数的绝对值;向量或矩阵的逐元素求绝对值;集合的元素个数。