Transformerのデコーダにおいて、既に生成された未来の単語を見ないようにする処理はどれか。

Maskingにより、推論時と同様に過去の情報のみに基づいて次の単語を予測させる。