HOMELv027 【シナリオ】Databricks上で、複数のGPUノードを使用して巨大な言語モデル(LLM)のファインチューニングを行いたい。DeepSpeedやMegatron-LMのような技術を簡単に適用するために、推奨されるDatabricksのライブラリ/構成はどれか。 2026年3月8日 Databricks(Mosaic AI)が提供する `Composer` ライブラリは、PyTorchベースで分散学習のベストプラクティス(FSDP, DeepSpeed等)をカプセル化し、LLMの効率的な学習を支援する。 【シナリオ】Spark MLlibの `GMM` (Gaussian Mixture Model) を使用してクラスタリングを行っているが、初期値によって結果が大きく変動してしまう。結果の安定性を高めるために調整すべきパラメータはどれか。 【シナリオ】AutoMLを実行したいが、データセットが非常に大きく(数TB)、タイムアウト内に終わらない可能性が高い。サンプリング(Downsampling)を行わずに、全データを使用して学習させるための適切な戦略はどれか。