HOMELv048 LLMの性能評価において;ベンチマークテストの「正解」が学習データに含まれてしまうことで;精度が過大評価される現象を何というか。 2026年1月25日 公平な評価を困難にする;現在のLLM開発における大きな課題。 AI開発において;多様な文化的背景を持つ人々が公平に評価・参加できるようにする取り組みを何というか。 強化学習において;エージェントが過去の成功体験に固執せず;常に新しい状態を探索するように促すパラメータを何というか。