LLMの性能評価において;単なる単語の一致率(BLEUなど)ではなく;「意味的な整合性」を別のAIが評価する指標を何というか。

人間の評価基準に近い形で;より高度な生成能力を測定する。