Transformerの学習において;特定のデータ(トークン)の処理を複数の専門家(Expert)に振り分ける層を何というか。

疎な結合により;膨大なパラメータを持ちつつ計算量を抑える。