非常に大きなモデル(教師モデル)の知識を;小さなモデル(生徒モデル)に継承させる手法はどれか。

生徒モデルが教師モデルの出力分布を模倣するように学習する。