Transformerの各層で実行される「層正規化(Layer Norm)」において;平均値を引かずに分散(RMS)のみで正規化し計算を効率化する手法はどれか。

Llama 2/3などで採用されており;精度を保ちつつ計算コストを削減する。