Transformerの各層において;「残差接続(Skip Connection)」を通る前に正規化を行うか、後に正規化を行うかの違いを何というか。

Pre-Normの方が学習が安定しやすく;超大規模モデルで主流となっている。