Q学習(Q-learning)において、行動を選択する際に一定の確率 ε でランダムな行動をとる戦略を何と呼ぶか。

活用(既知の最善)と探索(未知の可能性)をバランスさせる手法。