AIモデルの性能を「特定のデータセット」ではなく；実際のユーザー利用シーンに近い「人間による評価」で順位付けするプロジェクトはどれか。

2026年1月25日

複数のモデルを匿名で比較させ；イロ・レーティング（Elo rating）でランク付けする。

AIに特定のトピック（暴力や差別など）について語らせないようにする「安全フィルタ」を、プロンプトの工夫だけで突破しようとする行為を何というか。

LLMの出力から「学習データに含まれる機密情報」を抽出されるリスクに対し；学習時にノイズを加えて数学的に保護する手法はどれか。