素早く問題を解いてInput⇔Outputを繰り返し!
会員レベル
ログイン
メンバーシップアカウント
会員レベル
ログイン
メンバーシップアカウント
HOME
JDLA E資格 (エンジニア)
「JDLA E資格 (エンジニア)」の記事一覧
BERTの入力埋め込みにおいて「Segment Embedding」は何を表すか。
BERTは2つの文(Q&Aなど)を同時に入力する場合があるため、各トークンが文Aか文Bのどちらに属するかを区…
2026年3月13日
画像生成モデル「StyleGAN」の特徴的な構造はどれか。
潜在変数を直接入力せず、スタイル用ネットワークを通して各畳み込み層の正規化パラメータ(AdaIN)として…
2026年3月13日
「スパースなデータ」に対して有効とされる最適化アルゴリズムはどれか。
AdaGradはパラメータごとに学習率を調整し、更新頻度の低い(スパースな)パラメータに対して大きく更新す…
2026年3月13日
Transformerの「Multi-Head Attention」の利点はどれか。
複数のヘッドで独立にAttentionを計算することで、「誰が」「どこで」など異なる種類の関連性を同時に学習…
2026年3月13日
畳み込み層のパラメータ数を計算する式はどれか(入力ch数: C_in, 出力ch数: C_out, カーネルサイズ: K×K, バイアスあり)。
1つのフィルターが「K×K×C_in」の重みを持ち、それにバイアス1つが加わり、それがC_out個(出力チャンネル…
2026年3月13日
ニューラルネットワークにおける「ワン・サイクル・ポリシー(One Cycle Policy)」とは何か。
学習率を山型に変化させることで、早期に大域的最適解の近くへ移動し、後半で精緻に収束させる効果的かつ…
2026年3月13日
リカレントニューラルネットワーク(RNN)の勾配爆発を防ぐための代表的な手法はどれか。
勾配のノルムが閾値を超えた場合に、強制的に勾配を小さくスケーリングすることで、数値的な爆発を防ぐ。
2026年3月13日
ドロップアウトをテスト(推論)時に適用しない場合、一般的にどのような調整が必要か。
学習時は一部のニューロンが消えていたため、全ニューロンを使う推論時は出力の総和が大きくなりすぎるの…
2026年3月13日
重み減衰(Weight Decay)は、損失関数に何を加えることと等価か。
勾配降下法においてL2正則化を行うと、更新式において重みを一定割合で小さくする項が現れるため、重み減…
2026年3月13日
Batch Normalizationのパラメータ(スケールγとシフトβ)はどのように決定されるか。
正規化されたデータを適切な範囲にシフト・スケーリングするために、γとβも学習可能なパラメータとして最…
2026年3月13日
投稿のページ送り
1
…
157
158
159
…
537