Model Servingエンドポイントのパフォーマンスチューニングにおいて、「Instance Type(インスタンスタイプ)」を大きくする(Scale Up)ことが有効なケースはどれか。

単一リクエストの処理時間(レイテンシ)を短縮したい場合は、より高性能なCPU/GPUを持つインスタンス(Scale Up)が必要。リクエスト数(スループット)への対応はインスタンス数(Scale Out)で調整する。