7.3.3 REINFORCE随机梯度的严格推导