強化学習において、ある状態においてどの行動をとるべきかを決定する関数のことを何と呼ぶか。

方策は状態から行動へのマッピングを定義するものである。