HOMELv096 強化学習において;エージェントが「環境からの報酬」がなくても;「新奇な状態」を探すこと自体を目的とする学習の総称はどれか。 2026年1月25日 スパースな報酬環境でも自律的に探索を継続させるための仕組み。 LLMの運用において;特定の「禁止された知識(機密情報等)」が出力に含まれていないかをリアルタイムで監視するコンポーネントを何というか。 LLMの学習において;人間のフィードバックデータから直接「最適な回答確率」を導き出し;報酬モデルを不要にした手法はどれか。