LLMの学習において；人間のフィードバックデータから直接「最適な回答確率」を導き出し；報酬モデルを不要にした手法はどれか。

2026年1月25日

計算が安定しやすく；ChatGPTなどの後続モデルの学習に広く採用された。

強化学習において；エージェントが「環境からの報酬」がなくても；「新奇な状態」を探すこと自体を目的とする学習の総称はどれか。

ニューラルネットワークの「各層の重み」を疎（スパース）に保ちつつ；学習中に動的に結合を繋ぎ変えることで計算効率を高める手法を何というか。