強化学習において;過去の経験(状態;行動;報酬;次状態)をメモリに保存し;ランダムにサンプリングして学習に使う手法を何というか。

DQNなどで採用され;データの相関を断ち切り学習を安定させる。