強化学習における割引率（Discount Factor）γの役割はどれか。

2026年3月13日

0〜1の値をとり、未来の報酬ほど割り引いて評価することで、直近の報酬を重視するか長期的利益を重視するかを制御する。

データ拡張手法「Mixup」の処理内容はどれか。

Q学習が「オフポリシー（Off-policy）」であるとされる理由はどれか。