BERTの事前学習において、一部の単語を隠して予測させるタスクを何と呼ぶか。

2026年3月12日

MLMは文中のトークンをマスクし、文脈からその単語を当てさせる学習手法である。

ニューラルネットワークの重みの絶対値の和をペナルティとして加える手法はどれか。

負の入力に対してわずかな勾配を持たせることで「死んだReLU」を防ぐ関数はどれか。