強化学習において、エージェントが最大の報酬を得るために取るべき行動を決定する関数はどれか。

方策は特定の状態においてエージェントがどの行動を選択するかを定義する戦略です。