AIの推論サーバーにおいて；複数のユーザーからのリクエストを効率的に処理するために；バッチサイズを動的に調整する技術を何というか。

2026年1月25日

スループットを最大化し；レスポンス遅延を最小限に抑えるための技術。

AI開発企業が自ら「安全性テストの基準」を作り；それを遵守することを公言するなどの自主的な取り組みを何というか。

LLMの性能を維持したまま、推論時の「行列演算」をビット演算などに置き換えて劇的に高速化する研究手法（例：1-bit LLM）はどれか。