Vision Transformer (ViT) において、画像をどのようにTransformerに入力するか。

2026年4月3日

画像を固定サイズのパッチ（16×16など）に切り分け、単語トークンと同様に扱う。

GANの評価指標である Inception Score (IS) が高いときに意味することはどれか。

ニューラルネットワークの計算において、FP16を用いる際に値が小さすぎて 0 になるのを防ぐ手法はどれか。