LLMの学習において;人間の指示に対する回答の「質」をランク付けし;それを報酬として強化学習させる手法はどれか。

ChatGPTなどの対話能力を飛躍的に高めた技術。