GPTシリーズのようなデコーダのみのモデルにおいて、未来の単語を見ないようにする手法はどれか。

未来のトークンに対するアテンションスコアを-∞にして隠蔽(マスキング)する。