大規模言語モデルが人間の意図や倫理基準に従って動作するように、人間のフィードバックを用いて微調整を行う手法を何というか。

人間のフィードバックによる強化学習(RLHF)は、モデルの安全性や有用性を高めるために用いられる。