強化学習において；エージェントが「環境からの報酬」がなくても、「自分自身の将来の行動を予測しにくくする」ことで未知の領域を探索する手法を何というか。

2026年1月25日

方策の多様性（エントロピー）を保つことで、局所解に陥らずに広範な探索を促す。

LLMアプリケーションにおいて；「入力プロンプト」の中に「悪意のあるコードや命令」が隠されており、システムを乗っ取ろうとする攻撃を何というか。

ニューラルネットワークの「学習の終わり」付近で；重みの更新をランダムに変動させ、より平坦な（平滑な）最小値へと誘導することで汎化性能を高める手法を何というか。