強化学習において；エージェントが「環境のルール」を直接知らないまま試行錯誤する「モデルフリー」に対し、ルールを予測しながら動く手法はどれか。

2026年1月25日

環境の遷移モデルを学習し、頭の中でシミュレーション（計画）してから行動する。

LLMを実運用する際；入力プロンプトが巨大になり「コンテキスト長」をオーバーするのを防ぐために、古い情報を圧縮・要約する機能を何というか。

ニューラルネットワークの「情報の伝播」において；入力の微小な変化が出力に大きな変化を及ぼす「カオス性」を抑制し、学習を安定させるための初期化の基準を何というか。