HOMELv070 強化学習において;エージェントが「環境の状態(State)」を完全には把握できない「POMDP」において;過去の情報を蓄積するために使われる構造はどれか。 2026年1月25日 過去の履歴を内部状態に保存することで;不完全な情報から最適な判断を導き出す。 LLMの運用において;「過去に一度答えた質問」を、LLMを介さずに高速かつ低コストで返すデータベース機能を何というか。 LLMの出力から「有害なアドバイス(爆弾の作り方など)」を排除するために;モデルに「そのような質問には答えない」という拒否のパターンを学習させるプロセスはどれか。