HOMELv046 報酬が一切得られない状態でも;エージェントが「環境についての知識」を増やすこと自体を目的として学習する手法を何というか。 2026年1月25日 外部からの報酬設計が不要な;自律的な学習プロセスの研究。 AIモデルの運用において;入力データの分布が変化した際に;自動でアラートを出し再学習を行う仕組みの一部を何というか。 LLMに「内緒で考えて(思考用トークンを出力させずに)」推論を行わせることで;論理的整合性を高める最新の手法はどれか。