LLMの学習において；「数学の問題」や「コードの解説」など、論理的思考が必要な高品質データを人工的に生成して学習に用いる手法を何というか。

2026年1月25日

インターネット上のデータの質の限界を克服し；推論能力を飛躍的に高める。

強化学習において；エージェントが「環境から得られる報酬」をそのまま使うのではなく；「人間から見た行動の良さ」を反映した報酬に変換するプロセスを何というか。

ニューラルネットワークの学習において；「局所最適解（ローカルミニマム）」に陥るのを防ぐため；学習率を周期的に上下させる手法を何というか。