人間のフィードバックを反映させて、AIモデルの出力が人間の価値観や意図に沿うように最適化する学習手法はどれか。

人間のフィードバックによる強化学習(RLHF)はAIのアライメントに不可欠な技術である。