HOMELv041 AIに特定のトピック(暴力や差別など)について語らせないようにする「安全フィルタ」を、プロンプトの工夫だけで突破しようとする行為を何というか。 2026年1月25日 「ロールプレイ」などの巧妙な指示でガードレールを回避する試み。 AIを導入した組織において;人間がAIの指示に従うだけでなく;AIの提案を批判的に吟味し、修正する能力を何というか。 AIモデルの性能を「特定のデータセット」ではなく;実際のユーザー利用シーンに近い「人間による評価」で順位付けするプロジェクトはどれか。