試行錯誤を通じて、報酬が最大になるような行動を学習する手法はどれか。

エージェントが環境との相互作用で報酬を得ることで最適な行動を学ぶのが強化学習である。