強化学習において;エージェントが「最適な行動」を決定するための確率分布を、パラメトリックな関数として直接学習する手法はどれか。

連続的なアクション空間(ロボットの関節角度など)を扱うのに適している。