LLMのデコーディングにおいて；「確率の高いトークン」を固定的に選ぶのではなく；分布の裾野にあるトークンを一定確率で排除してからサンプリングする手法はどれか。

2026年1月25日

累積確率が一定値pに達するまでのトークン集合から選択する手法である。

Mixture of Experts (MoE) において；特定の専門家（Expert）に負荷が集中するのを防ぐために損失関数に加えられる項はどれか。

拡散モデル（Diffusion Model）のサンプリングを高速化するために提案された；常微分方程式（ODE）として解く手法はどれか。