GPTシリーズのようなデコーダのみのモデルにおいて、未来の単語を見ないようにする手法はどれか。

2026年4月3日

未来のトークンに対するアテンションスコアを-∞にして隠蔽（マスキング）する。

最尤推定において、平均μ、分散σ^2の正規分布から得られたn個のデータに対する母分散の最尤推定値はどうなるか。

勾配降下法における「サドルポイント（鞍点）」の説明として正しいものはどれか。