BERTの事前学習タスク「Masked Language Model (MLM)」でマスクされるトークンの割合は一般的にどれくらいか。

2026年3月13日

入力文章のトークンのうちランダムに選ばれた約15%が[MASK]等に置き換えられ、それを予測するように学習する。

TransformerのEncoderブロック内にあるサブレイヤーの正しい順序はどれか。

GANの学習目的関数において、GeneratorとDiscriminatorがどのような関係にあるか。