LLMの出力を評価する際、正解データ(Ground Truth)がない場合に、別の高性能なLLM(GPT-4など)を評価者として使う手法を何というか。

人間による評価はコストが高いため、信頼できる強力なAIを「審査員」として代用する。