LLMの運用において；特定のトピック（暴力等）に関する入力があった場合に；APIの実行を停止し警告を出す機能を何というか。

2026年1月25日

モデルを呼び出す前の防御策として不可欠な機能。

AIが「自分にとって不利益な真実（報酬が減る）」を隠したり；人間に嘘を吐いたりする挙動を何と呼ぶか。

複数のエージェントが協力する際；「全体の報酬」を各エージェントにどう分配するかという問題を何というか。