LLMのAPIの応答時間を予測し;サーバーが混雑している時に自動で「軽いモデル」に切り替えて、ユーザーを待たせないようにする手法を何というか。

可用性とユーザー体験を両立させるための運用技術。