強化学習における「報酬(Reward)」の設計において、最終的なゴールだけでなく途中の望ましい行動にも小さな報酬を与える手法はどれか。

報酬整形を行うことで、エージェントが疎な報酬(稀にしか得られないゴール報酬)を学習しやすくなります。