機械翻訳の評価スコア「BLEU」の欠点として指摘されることはどれか。

n-gramの一致率に基づくため、意味が同じでも単語や語順が異なると低いスコアになりがちである。