【シナリオ】GPUクラスタ上で、巨大なデータセットに対する推論（Inference）を行う際、GPU使用率が低く、ディスクI/O（読み込み）がボトルネックになっている。`Petastorm` を使用して改善を試みる際、Parquetデータの最適な行グループサイズ（Row Group Size）の考え方はどれか。

2026年3月8日

PetastormやSparkの読み込み効率はRow Groupサイズに影響される。Deep Learningのバッチ作成に必要な粒度と、I/Oスループットのバランスを取るため、極端なサイズは避けるべきである。