LLMの出力から「有害なアドバイス(爆弾の作り方など)」を排除するために;モデルに「そのような質問には答えない」という拒否のパターンを学習させるプロセスはどれか。

意図的に攻撃的な質問を投げ;弱点を見つけて補強する。