報酬が一切得られない状態でも；エージェントが「環境についての知識」を増やすこと自体を目的として学習する手法を何というか。

2026年1月25日

外部からの報酬設計が不要な；自律的な学習プロセスの研究。

AIモデルの運用において；入力データの分布が変化した際に；自動でアラートを出し再学習を行う仕組みの一部を何というか。

LLMに「内緒で考えて（思考用トークンを出力させずに）」推論を行わせることで；論理的整合性を高める最新の手法はどれか。