HOME
Lv043

「Lv043」の記事一覧

「Early Stopping（早期終了）」を実行するための適切な監視対象はどれか。

検証データの誤差が下がらなくなり、上がり始めた時点が過学習の開始点とみなせるため、そこで学習を止め…

2026年3月13日

知識蒸留などで使われる、ソフトマックス関数の「温度（Temperature）」パラメータTを高くするとどうなるか。

T>1で割ることで確率差が縮まり、正解以外のクラスが持つ相対的な情報（ダークナレッジ）が現れやすくなる…

2026年3月13日

RNNの学習で、長い系列に対して勾配計算を途中で打ち切る手法を何と呼ぶか。

過去全てのステップまで遡ると計算量が膨大で勾配も不安定になるため、一定のステップ数で逆伝播を打ち切…

2026年3月13日

ResNetのボトルネックブロックにおいて、3×3畳み込みの前後で1×1畳み込みを行う理由は何か。

チャンネル数を一旦1x1で絞り（圧縮）、3x3を行い、再度1x1で戻す（復元）ことで、深い層でも計算コストを…

2026年3月13日

CNNにおける「1×1畳み込み」の主要な用途の一つはどれか。

空間サイズを変えずにチャンネル方向の線形結合を行うため、計算量を抑えつつ特徴量の次元を圧縮・調整で…

2026年3月13日

「Group Normalization」がBatch Normalizationより有利になる状況はどれか。

GNはバッチ方向に依存せず計算するため、物体検出などメモリ制約でバッチサイズを小さくせざるを得ないタ…

2026年3月13日

「ウォームアップ（Warmup）」と呼ばれる学習率スケジュールの目的はどれか。

Adamなどの適応的学習率手法でも、初期段階での急激な更新が性能悪化を招くことがあるため、徐々に学習率…

2026年3月13日

「ラベルスムージング（Label Smoothing）」の効果はどれか。

[0, 1]のようなハードラベルではなく、[0.05, 0.95]のようなソフトなターゲットを学習させる正則化手法。

2026年3月13日

逆伝播時、Average Pooling層は勾配をどのように伝播させるか。

順伝播で平均をとる（定数倍して和をとる）操作を行っているため、逆伝播ではその勾配を入力要素数で割っ…

2026年3月13日

Heの初期値（Kaiming Initialization）が考案された背景にある活性化関数はどれか。

Xavierの初期値ではReLUを用いた際に層が深くなると出力の分散が小さくなりすぎるため、分散を維持するよ…

2026年3月13日