【シナリオ】GPUクラスタ上で、巨大なデータセットに対する推論(Inference)を行う際、GPU使用率が低く、ディスクI/O(読み込み)がボトルネックになっている。`Petastorm` を使用して改善を試みる際、Parquetデータの最適な行グループサイズ(Row Group Size)の考え方はどれか。

PetastormやSparkの読み込み効率はRow Groupサイズに影響される。Deep Learningのバッチ作成に必要な粒度と、I/Oスループットのバランスを取るため、極端なサイズは避けるべきである。