AIに特定のトピック（暴力や差別など）について語らせないようにする「安全フィルタ」を、プロンプトの工夫だけで突破しようとする行為を何というか。

2026年1月25日

「ロールプレイ」などの巧妙な指示でガードレールを回避する試み。

AIを導入した組織において；人間がAIの指示に従うだけでなく；AIの提案を批判的に吟味し、修正する能力を何というか。

AIモデルの性能を「特定のデータセット」ではなく；実際のユーザー利用シーンに近い「人間による評価」で順位付けするプロジェクトはどれか。