【シナリオ】Model Servingへのリクエストがスパイク(急増)し、オートスケールが間に合わずにリクエストがドロップしている。スケールアウトの感度を上げるのではなく、スパイクを吸収するために有効なアーキテクチャパターンはどれか。

リアルタイム性が厳密に要求されない場合、リクエストを一度キュー(Kafka等)にバッファリングし、バックグラウンドで処理する非同期パターンを採用することで、急激な負荷変動を平準化し、ドロップを防ぐことができる。