LLMの性能評価において；ベンチマークテストの「正解」が学習データに含まれてしまうことで；精度が過大評価される現象を何というか。

2026年1月25日

公平な評価を困難にする；現在のLLM開発における大きな課題。

AI開発において；多様な文化的背景を持つ人々が公平に評価・参加できるようにする取り組みを何というか。

強化学習において；エージェントが過去の成功体験に固執せず；常に新しい状態を探索するように促すパラメータを何というか。