強化学習において;エージェントが「どの状態(State)でどの行動(Action)を取るべきか」を決定する確率分布を何と呼ぶか。

π(a|s)と表記される;学習の最終的な成果物。