知識蒸留(Knowledge Distillation)において、教師モデルの出力を滑らかにするために調整されるハイパーパラメータはどれか。

ソフトマックス関数の温度パラメータTを高く設定することで、確率分布が平坦になり、正解以外のクラスが持つ「似ている度合い」の情報(暗黙知)を生徒モデルに伝えやすくする。