ニューラルネットワークが学習データ(サンプル数 $n$)よりも圧倒的に多いパラメータ(数 $p$)を持つ際、なぜ過学習せずに精度が上がるのかを説明する仮説はどれか。

パラメータが増えると「過学習」の山を越えて、再び汎化性能が向上する現代的な知見。