AIモデルの性能を「特定のデータセット」ではなく;実際のユーザー利用シーンに近い「人間による評価」で順位付けするプロジェクトはどれか。

複数のモデルを匿名で比較させ;イロ・レーティング(Elo rating)でランク付けする。