強化学習において、現在の報酬だけでなく将来の報酬も考慮するための係数を何というか。

2026年5月15日

割引率（γ）は将来得られる報酬の現在価値を算出するために用いられます。

関数が極値をとるための必要条件として、その点における1階微分係数はいくらか。

学習データに特定の属性が偏っていることで、モデルが差別的な判断を下す問題を何というか。