学習初期はランダムに行動し(探索);学習が進むにつれて価値の高い行動を選ぶ(利用)確率を高める戦略を何というか。

一定確率(イプシロン)で探索を行うシンプルな手法。