LLMの回答を「数学的な推論」や「コードの実行」によって自己検証し；誤りを修正してから出力するフレームワークを何というか。

2026年1月25日

推論の過程をループさせることで；一発回答よりも高い精度を達成する。

強化学習において；エージェントが過去の成功体験に固執せず；常に新しい状態を探索するように促すパラメータを何というか。

ニューラルネットワークの「重みの更新」に勾配（一階微分）だけでなく；曲率（二階微分）の情報を用いる最適化手法を何というか。