強化学習においてエージェントが行動を決定するための指針を何と呼ぶか。

方策は特定の状態においてどのような行動を選択するかを定義したルールである。