強化学習の「方策勾配法(Policy Gradient)」が直接最適化する対象は何か。

行動の選択確率を決める方策(ポリシー)をニューラルネット等でモデル化し、累積報酬の期待値を最大化するようにそのパラメータを勾配上昇法で更新する。