HOMELv027 【シナリオ】AutoMLを実行したいが、データセットが非常に大きく(数TB)、タイムアウト内に終わらない可能性が高い。サンプリング(Downsampling)を行わずに、全データを使用して学習させるための適切な戦略はどれか。 2026年3月8日 Databricks AutoMLは、データサイズに応じて単一ノード学習か分散学習かを自動判断する。大規模データの場合、Spark上で分散動作するアルゴリズムが選択されるため、十分なリソースと時間を与えれば全データ学習が可能である。 【シナリオ】Databricks上で、複数のGPUノードを使用して巨大な言語モデル(LLM)のファインチューニングを行いたい。DeepSpeedやMegatron-LMのような技術を簡単に適用するために、推奨されるDatabricksのライブラリ/構成はどれか。 【シナリオ】Model Servingエンドポイントのレスポンスに、デバッグ用の追加情報(例:使用された特徴量のバージョン)を含めたい。これを実現するカスタムモデルの実装方法はどれか。