Model Servingのエンドポイントにおいて、「concurrency(同時実行数)」の設定がデフォルトよりも高い値を必要とするケースはどのような場合か。

1つのインスタンスで複数のリクエストを同時に処理できる(Concurrencyが高い)のは、処理がI/OバウンドでCPUリソースに余裕がある場合である。CPUバウンドな処理でConcurrencyを上げすぎるとレイテンシが悪化する。