Mixture of Experts (MoE) において；特定の専門家（Expert）に負荷が集中するのを防ぐために損失関数に加えられる項はどれか。

2026年1月25日

ルーターが各Expertを均等に選択するように促すための損失項である。

AIモデルの「推論」における総コストを削減するために；難易度に応じてモデルを動的に選択する手法を何というか。

LLMのデコーディングにおいて；「確率の高いトークン」を固定的に選ぶのではなく；分布の裾野にあるトークンを一定確率で排除してからサンプリングする手法はどれか。