強化学習における「Q学習」が学習する対象は何か。

Q学習は、ある状態で、ある行動をとったときの期待割引累積報酬である行動価値関数(Q値)を推定する。