HOMELv029 TransformerのEncoderブロック内にあるサブレイヤーの正しい順序はどれか。 2026年3月13日 EncoderはMulti-Head Self-AttentionとPosition-wise Feed-Forward Networkの2層構造を基本とし、それぞれにAdd & Normが付く。 全結合層(Affine層)の順伝播計算式はどれか(W:重み, x:入力, b:バイアス)。 BERTの事前学習タスク「Masked Language Model (MLM)」でマスクされるトークンの割合は一般的にどれくらいか。