HOME
Lv044

「Lv044」の記事一覧

文章生成における「ビームサーチ」の説明として正しいものはどれか。

貪欲法（Greedy）と全探索の中間的な手法で、局所的な最適解に陥るのを防ぎつつ、計算量を現実的な範囲に…

2026年3月13日

音声認識で使われる「CTC Loss」が解決した問題はどれか。

空白（blank）トークンを導入し、重複や空白を含むあらゆるパスの確率を周辺化（合計）することで、アライ…

2026年3月13日

OpenAIの「CLIP」モデルは、どのようなデータペアで事前学習されるか。

インターネット上の大量の画像とテキストのペアを使い、画像エンコーダとテキストエンコーダの出力を近づ…

2026年3月13日

セグメンテーションモデルDeepLabで採用された「Atrous (Dilated) Convolution」の効果はどれか。

フィルタの要素間を空けることで、プーリングによる解像度低下を回避しつつ、広範囲のコンテキスト情報を…

2026年3月13日

物体検出において、ある検出枠が「正解（Positive）」と判定される一般的な条件はどれか。

Intersection over Union（重なり具合）が一定以上であれば、そのアンカーや予測枠は物体を捉えているとみ…

2026年3月13日

CycleGANにおける「サイクル一貫性損失（Cycle Consistency Loss）」の目的はどれか。

F(G(x)) ≈ x となるように学習することで、入力画像の構造や内容を保ったままスタイル変換を行うことを保…

2026年3月13日

GPTシリーズ（Generative Pre-trained Transformer）のモデルアーキテクチャはどれか。

GPTは文章生成（次単語予測）を目的とするため、未来の情報をマスクしたDecoderスタックを採用している。

2026年3月13日

Transformerの「Positional Encoding」において、相対的な位置関係を学習しやすいとされる理由はどれか。

sin(pos+k)などがsin(pos)とcos(pos)の線形結合で表せるため、モデルが相対位置kを認識しやすい構造になっ…

2026年3月13日

Attentionメカニズムにおける「Attention Map（重み）」が表しているものは何か。

入力シーケンスの各要素に対する重要度（0〜1）の分布であり、モデルの判断根拠を可視化する際にも使われ…

2026年3月13日

Mask R-CNNで導入された「RoIAlign」は、RoI Poolingの何の問題を解決したか。

座標を整数に丸める（量子化）ことなく、双線形補間を用いて正確な特徴マップの値を取得することで、ピク…

2026年3月13日