HOMELv030 強化学習における割引率(Discount Factor)γの役割はどれか。 2026年3月13日 0〜1の値をとり、未来の報酬ほど割り引いて評価することで、直近の報酬を重視するか長期的利益を重視するかを制御する。 データ拡張手法「Mixup」の処理内容はどれか。 Q学習が「オフポリシー(Off-policy)」であるとされる理由はどれか。