強化学習において；エージェントが過去の成功体験に固執せず；常に新しい状態を探索するように促すパラメータを何というか。

2026年1月25日

「探索と利用のトレードオフ」を調整するための重要な設定。

LLMの性能評価において；ベンチマークテストの「正解」が学習データに含まれてしまうことで；精度が過大評価される現象を何というか。

LLMの回答を「数学的な推論」や「コードの実行」によって自己検証し；誤りを修正してから出力するフレームワークを何というか。