LLMのAPI運用において;特定の「有害な出力」が生成された際に;それを自動で遮断して定型の安全な回答に差し替える仕組みを何というか。

ユーザーに有害な情報が届くのを防ぐための最終的な防衛ラインである。