AlphaGoなどで使われた「試行錯誤を通じて最適な戦略を学ぶ」機械学習の分野はどれか。

強強化学習は環境からの報酬を最大化するようにエージェントが自律的に行動を最適化する。