知識蒸留（Knowledge Distillation）において、教師モデルの出力を滑らかにするために調整されるハイパーパラメータはどれか。

2026年3月13日

ソフトマックス関数の温度パラメータTを高く設定することで、確率分布が平坦になり、正解以外のクラスが持つ「似ている度合い」の情報（暗黙知）を生徒モデルに伝えやすくする。