HOME
Lv023

「Lv023」の記事一覧

量子化において、学習済みの重みの範囲（Min, Max）を考慮して 8ビット等の整数にマッピングする手法はどれか。

追加の学習なしに、スケーリング係数を求めて重みを変換する手法。

2026年4月3日

バイアス・バリアンス分解において、モデルの学習を長く続けすぎると一般的にどう変化するか。

訓練データへの適合が進む（バイアス低下）が、ノイズにも敏感になる（バリアンス増大）。

2026年4月3日

階層的クラスタリングにおいて、2つのクラスター間の「最も遠い要素同士の距離」をクラスター間距離とする手法はどれか。

各クラスターの最も離れた点の間隔を見るため、まとまりの強いクラスタができやすい。

2026年4月3日

CNNのバッチ正規化において、バッチサイズを 1 に設定した際に発生する問題はどれか。

正規化の分母が 0 または極小になり、学習が機能しなくなる。

2026年4月3日

アンサンブル学習のスタッキングにおいて、各ベースモデルの予測値を入力として最終的な予測を行うモデルを何と呼ぶか。

複数のモデルの出力を特徴量としてさらに学習を行う上位モデルである。

2026年4月3日

Stable Diffusionなどで用いられる「潜在拡散モデル (LDM)」が、通常の拡散モデルより優れている点は何か。

オートエンコーダで次元を落とした空間で処理を行うため、メモリ消費と時間を削減できる。

2026年4月3日

活性化関数 GELU (Gaussian Error Linear Unit) が近似的に ReLU や Dropout と関連している理由は何か。

確率的に入力を 0 にするか保持するかを考慮した期待値的な動作をする。

2026年4月3日

確率変数 X_1, X_2, …, X_n が互いに独立に平均 μ、分散 σ^2 の分布に従うとき、標本平均の分散はどうなるか。

標本平均の分散は、サンプルサイズ n に反比例して小さくなる。

2026年4月3日

Transformerの計算を高速化するために、アテンション行列を完全に計算せずに近似する手法（FlashAttention等）が利用する主なハードウェア特性はどれか。

メモリ読み書きを最小限に抑え、オンチップメモリで計算を完結させる。

2026年4月3日

行列 A のムーア・ペンローズ擬似逆行列 A+ が A^+ = (A^T A)^-1 A^T と定義されるのはどのような時か。

列フルランクであれば左逆行列が存在し、最小二乗解の導出に使われる。

2026年4月3日