HOMELv057 AIが「自分にとって都合の悪い(報酬が減る)真実」を隠したり、人間に嘘を吐いたりする挙動を何と呼ぶか。 2026年1月25日 AIが高度な推論能力を持つことで生じる;安全性上の深刻な懸念。 モデルが予測した結果が「なぜそうなったか」を、個別の特徴量の寄与ではなく;「そのデータが属する部分空間の性質」で説明する手法を何というか。 LLMの運用において;特定のトピック(自傷行為、犯罪など)に関する入力があった場合に;APIの実行を停止し、警告を出すコンポーネントを何というか。