LLMアプリケーションにおいて；「入力されたプロンプト」の中に「システム命令を無視せよ」という不正な指示が隠されていないかをチェックする別のLLMを何というか。

2026年1月25日

プロンプト・インジェクション攻撃を防御するための多層防御の一つ。

AIが「特定の政治的グループ」ばかりを検挙するように指示された監視カメラなどのシステムが引き起こす、社会的な不平等や人権侵害を何と呼ぶか。

強化学習において；エージェントが「環境から得られる報酬」をそのまま使うのではなく；「人間から見た行動の良さ」を反映した報酬に変換するプロセスを何というか。