強化学習において；エージェントが「環境の状態（State）」を完全には把握できない「POMDP」において；過去の情報を蓄積するために使われる構造はどれか。

2026年1月25日

過去の履歴を内部状態に保存することで；不完全な情報から最適な判断を導き出す。

LLMの運用において；「過去に一度答えた質問」を、LLMを介さずに高速かつ低コストで返すデータベース機能を何というか。

LLMの出力から「有害なアドバイス（爆弾の作り方など）」を排除するために；モデルに「そのような質問には答えない」という拒否のパターンを学習させるプロセスはどれか。