「Deep Q-Network (DQN)」で導入された、学習を安定させるための「Experience Replay」とは何か。

時系列データの相関を断ち切り、データ分布を安定させるために、過去の遷移情報をメモリに貯めてランダムに取り出して学習する。