強化学習において；エージェントが「環境からの報酬」がなくても；「新奇な状態」を探すこと自体を目的とする学習の総称はどれか。

2026年1月25日

スパースな報酬環境でも自律的に探索を継続させるための仕組み。

LLMの運用において；特定の「禁止された知識（機密情報等）」が出力に含まれていないかをリアルタイムで監視するコンポーネントを何というか。

LLMの学習において；人間のフィードバックデータから直接「最適な回答確率」を導き出し；報酬モデルを不要にした手法はどれか。