強化学習において;エージェントが「環境からの報酬」がなくても、「自分自身の将来の行動を予測しにくくする」ことで未知の領域を探索する手法を何というか。

方策の多様性(エントロピー)を保つことで、局所解に陥らずに広範な探索を促す。