行動の結果として得られる「報酬」を最大化するように試行錯誤を繰り返す学習手法はどれか。

エージェントが環境から得られるスコアを最大にするための戦略を自律的に学習する。