HOMELv006 BERTのように、文脈を考慮した双方向の単語表現を獲得するモデルが採用している学習手法はどれか。 2026年3月12日 大規模なコーパスで事前学習を行い、特定のタスクに合わせて微調整を行う。 多クラス分類の出力層で、各クラスの確率の合計を1にするために使用される関数はどれか。 重みの二乗和を損失関数に加えることで、重みが大きくなりすぎるのを防ぐ手法はどれか。