AIの推論サーバーにおいて;複数のユーザーからのリクエストを効率的に処理するために;バッチサイズを動的に調整する技術を何というか。

スループットを最大化し;レスポンス遅延を最小限に抑えるための技術。