「方策勾配定理（Policy Gradient Theorem）」が示す内容はどれか。

2026年3月13日

報酬は環境に依存し微分不可能に見えるが、対数微分法を用いることで、期待報酬の勾配を方策関数の勾配を使って計算可能であることを示した定理。

Q学習が「オフポリシー（Off-policy）」であるとされる理由はどれか。

グラフニューラルネットワーク（GNN）において、グラフ構造を表す行列はどれか。