「方策勾配定理(Policy Gradient Theorem)」が示す内容はどれか。

報酬は環境に依存し微分不可能に見えるが、対数微分法を用いることで、期待報酬の勾配を方策関数の勾配を使って計算可能であることを示した定理。