強化学習のQ学習において、将来得られる報酬を現在の価値に換算するための係数はどれか。

2026年3月12日

割引率（ガンマ）は将来の報酬をどれだけ重視するかを決定する。

モデルの予測結果が特定の結果になった理由を局所的に説明する手法はどれか。

PyTorchにおいて、GPUを利用するためにテンソルを転送するメソッドはどれか。