BERTのように、文脈を考慮した双方向の単語表現を獲得するモデルが採用している学習手法はどれか。

大規模なコーパスで事前学習を行い、特定のタスクに合わせて微調整を行う。