HOME
JDLA E資格 (エンジニア)

「JDLA E資格 (エンジニア)」の記事一覧

BERTの入力埋め込みにおいて「Segment Embedding」は何を表すか。

BERTは2つの文（Q&Aなど）を同時に入力する場合があるため、各トークンが文Aか文Bのどちらに属するかを区…

2026年3月13日

画像生成モデル「StyleGAN」の特徴的な構造はどれか。

潜在変数を直接入力せず、スタイル用ネットワークを通して各畳み込み層の正規化パラメータ（AdaIN）として…

2026年3月13日

「スパースなデータ」に対して有効とされる最適化アルゴリズムはどれか。

AdaGradはパラメータごとに学習率を調整し、更新頻度の低い（スパースな）パラメータに対して大きく更新す…

2026年3月13日

Transformerの「Multi-Head Attention」の利点はどれか。

複数のヘッドで独立にAttentionを計算することで、「誰が」「どこで」など異なる種類の関連性を同時に学習…

2026年3月13日

畳み込み層のパラメータ数を計算する式はどれか（入力ch数: C_in, 出力ch数: C_out, カーネルサイズ: K×K, バイアスあり）。

1つのフィルターが「K×K×C_in」の重みを持ち、それにバイアス1つが加わり、それがC_out個（出力チャンネル…

2026年3月13日

ニューラルネットワークにおける「ワン・サイクル・ポリシー（One Cycle Policy）」とは何か。

学習率を山型に変化させることで、早期に大域的最適解の近くへ移動し、後半で精緻に収束させる効果的かつ…

2026年3月13日

リカレントニューラルネットワーク（RNN）の勾配爆発を防ぐための代表的な手法はどれか。

勾配のノルムが閾値を超えた場合に、強制的に勾配を小さくスケーリングすることで、数値的な爆発を防ぐ。

2026年3月13日

ドロップアウトをテスト（推論）時に適用しない場合、一般的にどのような調整が必要か。

学習時は一部のニューロンが消えていたため、全ニューロンを使う推論時は出力の総和が大きくなりすぎるの…

2026年3月13日

重み減衰（Weight Decay）は、損失関数に何を加えることと等価か。

勾配降下法においてL2正則化を行うと、更新式において重みを一定割合で小さくする項が現れるため、重み減…

2026年3月13日

Batch Normalizationのパラメータ（スケールγとシフトβ）はどのように決定されるか。

正規化されたデータを適切な範囲にシフト・スケーリングするために、γとβも学習可能なパラメータとして最…

2026年3月13日