強化学習のエージェントが「環境の状態」を遷移確率としてモデル化し；それを用いてシミュレーションを行う手法はどれか。

2026年1月25日

実環境での試行回数を劇的に減らせる可能性がある。

LLMアプリケーションにおいて；出力された回答が「元々のドキュメント」にどれだけ基づいているかを評価する指標を何というか。

LLMのコンテキスト長を「無限」に近づける際；アテンションの一部を「圧縮された記憶（サマリー）」として保持する手法を何というか。