HOMELv025 BERTにおいて、文の先頭に配置され、文全体の分類タスクなどに使用される特殊なトークンはどれか。 2026年3月12日 [CLS]トークンの出力ベクトルは、文全体の意味を代表する特徴量として扱われる。 重みの初期化において、ReLU関数を使用する場合に推奨される初期化手法はどれか。 運用中のモデルにおいて、学習時のデータ分布と現在のデータ分布が乖離する現象を何と呼ぶか。