強化学習において；エージェントが「環境の状態」を遷移確率としてモデル化し；そのモデルを用いてシミュレーションを行う手法はどれか。

2026年1月25日

実環境での試行回数を劇的に減らせる可能性がある。

LLMアプリケーションにおいて；ユーザーの過去のやり取りを「要約」してモデルのコンテキストに入力することで、記憶を長持ちさせる手法を何というか。

LLMの「指示への従順さ」を高めるために；人間の手で作られた高品質な指示と回答のペアで追加学習するプロセスを何というか。