LLMの学習において;「推論過程」の正しさに対して報酬を与えることで、最終結果だけでなく論理的整合性を高める手法を何というか。

一歩一歩の思考ステップ(Step-by-step)を評価し、ハルシネーションを抑制する。