深層強化学習において、価値関数と方策関数を同時に学習させる枠組みを何と呼ぶか。

行動を決定するActorと、その行動を評価するCriticを組み合わせた手法です。