大規模モデルの学習を安定させるために;各層の重みの更新量(ノルム)をレイヤーごとに調整する手法はどれか。

非常に大きなバッチサイズでの学習において;学習の破綻を防ぐために使われる最適化手法。