AI(機械学習)において、エージェントが環境と相互作用し、報酬を最大化するように行動を学習する手法はどれか。

強化学習は、試行錯誤を通じて最適な行動方針(方策)を学習する手法であり、ゲームやロボット制御に応用される。