HOMELv078 ニューラルネットワークが学習データ(サンプル数 $n$)よりも圧倒的に多いパラメータ(数 $p$)を持つ際、なぜ過学習せずに精度が上がるのかを説明する仮説はどれか。 2026年1月25日 パラメータが増えると「過学習」の山を越えて、再び汎化性能が向上する現代的な知見。 強化学習において;エージェントが「現実世界で失敗する」のを防ぐため、まず「オフラインの固定データ」だけで学習させる手法を何というか。 LLMの性能を高める「アライメント」において;人間の評価データから直接、モデルの出力確率を調整する「報酬モデル不要」の手法はどれか。