LLMの計算効率を向上させるため;特定のトークンに対してのみデコーダの全層を通し;重要度の低いトークンは層をスキップさせる手法はどれか。

Mixture-of-Depthsは計算リソースを動的に割り当て;推論速度と精度のバランスを最適化する。