エージェントが行動を選択するためのルール(状態から行動への写像)を何と呼ぶか。

最適な方策(最適方策)を見つけることが強化学習の目的である。