AIの機械学習手法「強化学習」において、エージェント（AI）が、ある環境（Environment）の中で、特定の「状態（State）」で「行動（Action）」を選択した結果、環境から得られる即時的な評価（「良い」または「悪い」）を示す値を何と呼ぶか。