RNNの学習で、長い系列に対して勾配計算を途中で打ち切る手法を何と呼ぶか。

2026年3月13日

過去全てのステップまで遡ると計算量が膨大で勾配も不安定になるため、一定のステップ数で逆伝播を打ち切る近似手法。

ResNetのボトルネックブロックにおいて、3×3畳み込みの前後で1×1畳み込みを行う理由は何か。

知識蒸留などで使われる、ソフトマックス関数の「温度（Temperature）」パラメータTを高くするとどうなるか。