HOMELv075 強化学習において;エージェントが「環境のルール」を直接知らないまま試行錯誤する「モデルフリー」に対し、ルールを予測しながら動く手法はどれか。 2026年1月25日 環境の遷移モデルを学習し、頭の中でシミュレーション(計画)してから行動する。 LLMを実運用する際;入力プロンプトが巨大になり「コンテキスト長」をオーバーするのを防ぐために、古い情報を圧縮・要約する機能を何というか。 ニューラルネットワークの「情報の伝播」において;入力の微小な変化が出力に大きな変化を及ぼす「カオス性」を抑制し、学習を安定させるための初期化の基準を何というか。