LLMのAPI運用において；特定の「有害な出力」が生成された際に；それを自動で遮断して定型の安全な回答に差し替える仕組みを何というか。

2026年1月25日

ユーザーに有害な情報が届くのを防ぐための最終的な防衛ラインである。

AIが「特定の人種や性別を犯罪者として誤認しやすい」問題を解決するために；「多様な属性のデータ」を意識的に学習させる取り組みを何というか。

強化学習のエージェントが「1つのタスク」を学ぶ際；あえて「関連する別の補助的なタスク」も同時に学習させる手法を何というか。