HOMELv030 Q学習が「オフポリシー(Off-policy)」であるとされる理由はどれか。 2026年3月13日 探索のためにランダムに動く挙動(Behavior Policy)とは別に、常に最適な行動をとると仮定してQ値を更新(Target Policy)できるため。 強化学習における割引率(Discount Factor)γの役割はどれか。 「方策勾配定理(Policy Gradient Theorem)」が示す内容はどれか。