強化学習において、Q学習(Q-Learning)が推定しようとするものは何か。

Q学習は、ある状態 $s$ で行動 $a$ をとったときの将来得られる報酬の総和(行動価値 $Q$)を推定する手法である。