LLMの推論を高速化するために；小さなモデルで下書きを作成し大きなモデルで検証する手法はどれか。

2026年1月25日

ドラフトモデルを用いて並列的に検証することで；精度を維持しつつ推論速度を向上させる。

モデルの推論を高速化するために；GPU内のメモリ転送を最小限に抑え；複数の演算を一つにまとめる最適化を何というか。

Transformerの推論時において；過去の計算結果を再利用することで計算量を削減するメモリ領域を何というか。