強化学習において；エージェントが「未知の環境」を探索する際；自身の「世界モデル」が予測に失敗した度合いを報酬として与える手法はどれか。

2026年1月25日

予測誤差を「好奇心」として定義し；未知の領域への探索を促す。

LLMの運用において；推論コストを削減するために；「似たような質問」に対する回答をセマンティック（意味的）に検索して再利用する機能を何というか。

LLMに非常に長いドキュメントを読み込ませる際；アテンションの計算範囲を制限してメモリ消費を線形に抑える構造を何というか。