LLMの運用コストを削減するために;「似たような質問」をグループ化し一回の推論でまとめて回答する技術を何というか。

推論のスループットを最大化するためのサーバー側のスケジューリング。