エージェントが未知の行動を試す「探索」と、既知の情報を利用する「活用」のバランスをとる戦略はどれか。

確率 ε でランダムに行動し、それ以外で期待値最大の行動をとる手法である。