強化学習において;「環境から得られる報酬」をそのまま使うのではなく;「人間から見た行動の良さ」を反映した報酬に変換するプロセスを何というか。

RLHFの中核プロセスであり;人間の好みを報酬関数として数値化する。