強化学習における「探索(Exploration)」と「利用(Exploitation)」のトレードオフを調整する最も代表的な手法はどれか。

一定の確率(ε)でランダムに行動し、それ以外で現時点の最適行動を取ることで未知の報酬を探します。