HOME
Lv038

「Lv038」の記事一覧

深層学習の重み初期化において、LSUV（Layer-Sequential Unit-Variance）初期化とは何か。

データを通しながら（Forward pass）、各層の出力が単位分散になるように重みのスケールを逐次調整するデ…

2026年3月13日

「スペクトラル正規化（Spectral Normalization）」は主にどのモデルの安定化に使われるか。

各層の重み行列の最大特異値（スペクトルノルム）で重みを割ることで、リプシッツ連続性を満たすように制…

2026年3月13日

活性化関数「Mish」の定義式はどれか（softplus(x) = ln(1+e^x)）。

Swishに似た形状だが、より滑らかで、多くのタスクでReLUやSwishを上回る性能が報告されている関数。

2026年3月13日

学習率の「ウォームアップ（Warmup）」とはどのような操作か。

学習初期は勾配が不安定なため、最初だけ学習率を小さくして徐々に目標値まで上げることで、初期学習を安…

2026年3月13日

深層学習における「勾配クリッピング（Gradient Clipping）」の主な目的はどれか。

RNNなどで勾配が極端に大きくなった際、勾配のノルムを一定値以下に制限することで、パラメータの更新が不…

2026年3月13日

CNNにおける「Global Max Pooling」の役割はどれか。

位置情報を捨てて、その特徴（テクスチャやパーツ）が存在するかどうかだけを強く反映したベクトルを作る。

2026年3月13日

ニューラルネットワークの「Group Normalization」はどのような正規化か。

Batch Normalizationがバッチサイズに依存する問題を解決するため、1つのデータ内でチャンネルをグループ…

2026年3月13日

「DropConnect」はDropoutと何が違うか。

Dropoutはノード（ユニット）を消すが、DropConnectはノード間の接続（重み）を個別に無効化することで、…

2026年3月13日

最適化手法「Nadam」はどのような組み合わせか。

Adamの更新式にNesterovの加速勾配（今の位置ではなく、慣性で移動した先の位置の勾配を使う考え方）を組…

2026年3月13日

活性化関数「ELU (Exponential Linear Unit)」の特徴はどれか。

ReLUの弱点（負側が0）を改善し、負側で滑らかに飽和することで、学習の安定化と高速化を図る。

2026年3月13日