LLMの計算効率を向上させるため；特定のトークンに対してのみデコーダの全層を通し；重要度の低いトークンは層をスキップさせる手法はどれか。

2026年1月25日

Mixture-of-Depthsは計算リソースを動的に割り当て；推論速度と精度のバランスを最適化する。

LLMの出力を評価する際、正解データ（Ground Truth）がない場合に、別の高性能なLLM（GPT-4など）を評価者として使う手法を何というか。

重みの値を {-1, 0, 1} の3値に制限し；1.58ビット相当の精度で動作する大規模言語モデルのアーキテクチャはどれか。