【シナリオ】数十億行あるデータセットでK-Meansクラスタリングを実行しようとしたところ、イテレーションごとに非常に時間がかかり、シャッフルエラーが発生した。パフォーマンスを改善するために検討すべき設定はどれか。

2026年3月8日

大規模データの反復アルゴリズムでは、パーティション数が少なすぎると1タスクあたりのデータ量が過大になりメモリ溢れやシャッフル遅延が起きるため、`repartition`で並列度を上げることが有効である。