HOMELv020 GPTシリーズのようなデコーダのみのモデルにおいて、未来の単語を見ないようにする手法はどれか。 2026年4月3日 未来のトークンに対するアテンションスコアを-∞にして隠蔽(マスキング)する。 最尤推定において、平均μ、分散σ^2の正規分布から得られたn個のデータに対する母分散の最尤推定値はどうなるか。 勾配降下法における「サドルポイント(鞍点)」の説明として正しいものはどれか。