HOMELv049 LLMの回答を「数学的な推論」や「コードの実行」によって自己検証し;誤りを修正してから出力するフレームワークを何というか。 2026年1月25日 推論の過程をループさせることで;一発回答よりも高い精度を達成する。 強化学習において;エージェントが過去の成功体験に固執せず;常に新しい状態を探索するように促すパラメータを何というか。 ニューラルネットワークの「重みの更新」に勾配(一階微分)だけでなく;曲率(二階微分)の情報を用いる最適化手法を何というか。