HOMELv029 【シナリオ】GPUクラスタ上で、巨大なデータセットに対する推論(Inference)を行う際、GPU使用率が低く、ディスクI/O(読み込み)がボトルネックになっている。`Petastorm` を使用して改善を試みる際、Parquetデータの最適な行グループサイズ(Row Group Size)の考え方はどれか。 2026年3月8日 PetastormやSparkの読み込み効率はRow Groupサイズに影響される。Deep Learningのバッチ作成に必要な粒度と、I/Oスループットのバランスを取るため、極端なサイズは避けるべきである。 【シナリオ】カスタムTransformerを実装し、Pipeline内で `save` したが、ロード時に `java.lang.ClassNotFoundException` が発生した。Python側だけでなくScala/Java側の実装も必要なのか? 【シナリオ】AutoMLが生成したモデル(XGBoost)をベースに開発を進めているが、推論時に特定の特徴量値の組み合わせで予測値が不安定になる(異常値が出る)。モデルの堅牢性(Robustness)を高めるために、生成コードに追加すべき処理はどれか。