AIチャットボットを搭載したアプリのテストにおいて、決定論的でない出力を検証するためのアプローチはどれか。

AIの回答は揺らぎがあるため、完全一致ではなく、回答品質や不適切な発言がないかを評価する手法が必要。