モデルの「汎化性能」を高めるために;「複雑なモデル(カンニングしているモデル)」と「単純なモデル(実力で解いているモデル)」の予測値の差を損失関数に加える手法を何というか。

知識蒸留の過程で;教師モデルの豊かな予測情報を生徒モデルに継承させる。