HOMELv048 強化学習において;エージェントが過去の成功体験に固執せず;常に新しい状態を探索するように促すパラメータを何というか。 2026年1月25日 「探索と利用のトレードオフ」を調整するための重要な設定。 LLMの性能評価において;ベンチマークテストの「正解」が学習データに含まれてしまうことで;精度が過大評価される現象を何というか。 LLMの回答を「数学的な推論」や「コードの実行」によって自己検証し;誤りを修正してから出力するフレームワークを何というか。