HOMELv079 強化学習において;エージェントが「環境からの報酬」がなくても、「自分自身の将来の行動を予測しにくくする」ことで未知の領域を探索する手法を何というか。 2026年1月25日 方策の多様性(エントロピー)を保つことで、局所解に陥らずに広範な探索を促す。 LLMアプリケーションにおいて;「入力プロンプト」の中に「悪意のあるコードや命令」が隠されており、システムを乗っ取ろうとする攻撃を何というか。 ニューラルネットワークの「学習の終わり」付近で;重みの更新をランダムに変動させ、より平坦な(平滑な)最小値へと誘導することで汎化性能を高める手法を何というか。