HOMELv016 BERTにおいて、文中の単語をランダムに隠して予測させる事前学習タスクを何と呼ぶか。 2026年4月3日 単語の一部を[MASK]に置き換えて周辺から予測させる手法である。 標準正規分布の尖度(定義により3を引く前)の値はいくつか。 勾配降下法の一種であるネステロフの加速勾配法 (NAG) が、通常のモーメンタム法と異なる点はどこか。