強化学習において;エージェントが「環境の状態(State)」を完全には把握できない「POMDP」において;過去の情報を蓄積するために使われる構造はどれか。

過去の履歴を内部状態に保存することで;不完全な情報から最適な判断を導き出す。