Vision Transformer (ViT) における「パッチ埋め込み」とはどのような処理か。

2026年3月13日

画像を16×16などのパッチに切り分け、それぞれをフラットにして行列を掛け、Transformerが扱えるベクトルの列に変換する。

Attentionメカニズムにおける「Key」と「Value」の関係は通常どうなっているか。

NeRF（Neural Radiance Fields）が、ある視点からの画像を生成するために用いる手法はどれか。