【シナリオ】AutoMLを実行したいが、データセットが非常に大きく(数TB)、タイムアウト内に終わらない可能性が高い。サンプリング(Downsampling)を行わずに、全データを使用して学習させるための適切な戦略はどれか。

Databricks AutoMLは、データサイズに応じて単一ノード学習か分散学習かを自動判断する。大規模データの場合、Spark上で分散動作するアルゴリズムが選択されるため、十分なリソースと時間を与えれば全データ学習が可能である。