Q学習が「オフポリシー(Off-policy)」であるとされる理由はどれか。

探索のためにランダムに動く挙動(Behavior Policy)とは別に、常に最適な行動をとると仮定してQ値を更新(Target Policy)できるため。