強化学習のQ学習において、推定値が過大評価される問題を解決するために2つのQ関数を用いる手法はどれか。

行動選択と価値評価に異なるQ関数を用いることで、過大評価を抑制します。