BERTの事前学習タスク「Masked Language Model (MLM)」でマスクされるトークンの割合は一般的にどれくらいか。

入力文章のトークンのうちランダムに選ばれた約15%が[MASK]等に置き換えられ、それを予測するように学習する。