Mixture of Experts (MoE) において;特定の専門家(Expert)に負荷が集中するのを防ぐために損失関数に加えられる項はどれか。

ルーターが各Expertを均等に選択するように促すための損失項である。