コンピュートシェーダーの`[numthreads(x, y, z)]`を設定する際、GPUのWavefront(またはWarp)サイズを考慮して、スレッド総数(x*y*z)を通常いくつに設定するのが効率的か。

AMD/NVIDIA等のGPUアーキテクチャでは、32または64スレッド単位で命令を同時実行するため、その倍数(典型的には64)に合わせることでスレッドの稼働率(Occupancy)を最大化できる。