報酬の期待値が最大となるように行動を選択する際;ある行動をとった後の価値を関数として表現したものを何というか。

状態価値関数や行動価値関数(Q関数)がある。