強化学習において、モデルが未知の行動を試すことと、既に知っている高い報酬の行動をとることのバランスを何と呼ぶか。

新しい可能性を探る(探索)のと、現在のベストを維持する(活用)の調整が重要。