ニューラルネットワークの「各層の出力」を正規化する際;バッチ内のサンプル間ではなく;「同一サンプル内の特徴量(チャンネル)」間で平均・分散を計算する手法はどれか。

バッチサイズに依存せず安定した正規化が可能であり;Transformerで標準的に使われる。