HOMELv009 【シナリオ】数十億行あるデータセットでK-Meansクラスタリングを実行しようとしたところ、イテレーションごとに非常に時間がかかり、シャッフルエラーが発生した。パフォーマンスを改善するために検討すべき設定はどれか。 2026年3月8日 大規模データの反復アルゴリズムでは、パーティション数が少なすぎると1タスクあたりのデータ量が過大になりメモリ溢れやシャッフル遅延が起きるため、`repartition`で並列度を上げることが有効である。 【シナリオ】複数のデータサイエンティストが同じ実験(Experiment)にログを送信している。誤って他人のRunを上書きしないようにしつつ、並行して作業するために、コード内で最初に実行すべき適切な操作はどれか。 【シナリオ】PyTorch Lightningを使用してDatabricks上で分散学習を行いたい。コードを大幅に書き換えずに、Horovodの代わりに推奨される最新の分散実行方法はどれか。