【シナリオ】AutoMLを実行したいが、データセットが非常に大きく（数TB）、タイムアウト内に終わらない可能性が高い。サンプリング（Downsampling）を行わずに、全データを使用して学習させるための適切な戦略はどれか。

2026年3月8日

Databricks AutoMLは、データサイズに応じて単一ノード学習か分散学習かを自動判断する。大規模データの場合、Spark上で分散動作するアルゴリズムが選択されるため、十分なリソースと時間を与えれば全データ学習が可能である。