強化学習における「探索(Exploration)」と「活用(Exploitation)」のトレードオフを制御する代表的な手法はどれか。

$\epsilon$-greedy法は、確率$\epsilon$でランダムに行動し(探索)、$1-\epsilon$で現時点の最適行動をとる(活用)手法である。