強化学習において、エージェントが行動を選択し、環境から得られる報酬を最大化するためのルールを何と呼ぶか。

方策(ポリシー)は、ある状態でどのような行動をとるかを決める戦略である。