強化学習において、AIが取るべき「良い行動」に対して与えられる数値的な指標を何と呼ぶか。

報酬を最大化するように学習を進めるのが強化学習の基本原理。