LLMの運用において；特定の「キーワード」や「意図」が含まれた入力を検知し；それに対する回答をあらかじめ用意した安全なものに差し替える機能を何というか。

2026年1月25日

不適切な対話を未然に防ぐための強力な防御策。

AIモデルの中に「社会的なバイアス（差別等）」がどの程度含まれているかを測定する代表的なベンチマークはどれか。

エージェントが「失敗から学ぶ」ために；あえて報酬をマイナスにして学習させる手法を何というか。