LLMの運用において；特定の「有害な出力」が生成された際に；それを自動的に遮断して定型の安全な回答に差し替える処理を何というか。

2026年1月25日

モデルの安全性を担保するための最後の防衛ライン。

AIが「もっともらしい嘘（ハルシネーション）」を吐くことで、特定の個人や企業の社会的評価を下げる名誉毀損のリスクを何というか。

強化学習において；エージェントが「直接的な報酬」が得られない間も；「どれだけゴールに近づいたか」という補助的な報酬を与える手法を何というか。