Q学習が「オフポリシー（Off-policy）」であるとされる理由はどれか。

2026年3月13日

探索のためにランダムに動く挙動（Behavior Policy）とは別に、常に最適な行動をとると仮定してQ値を更新（Target Policy）できるため。

強化学習における割引率（Discount Factor）γの役割はどれか。

「方策勾配定理（Policy Gradient Theorem）」が示す内容はどれか。