強化学習において;エージェントが「最適な行動」を直接学習するのではなく、「自分の行動が良いか悪いか」を評価する「Critic」と協力して学習する手法はどれか。

方策勾配法の一種で;学習の安定性と効率を両立させる。