LLMの性能評価において;ベンチマークテストの「正解」が学習データに含まれてしまうことで;精度が過大評価される現象を何というか。

公平な評価を困難にする;現在のLLM開発における大きな課題。