HOMELv011 BERTの事前学習において、一部の単語を隠して予測させるタスクを何と呼ぶか。 2026年3月12日 MLMは文中のトークンをマスクし、文脈からその単語を当てさせる学習手法である。 ニューラルネットワークの重みの絶対値の和をペナルティとして加える手法はどれか。 負の入力に対してわずかな勾配を持たせることで「死んだReLU」を防ぐ関数はどれか。