生成AIの出力を特定の基準(安全性、正確性、口調など)に合わせるため、複数のAIが互いに評価・修正し合う手法を何というか。

人間の代わりにAIがフィードバックを行う強化学習(RLAIF)は、開発の高速化とスケーリングに寄与する。