HOME
Lv013

「Lv013」の記事一覧

時系列データの特徴量を取得する `create_training_set` メソッドにおいて、`timestamp_keys` 引数を指定しないとどうなるか。

タイムスタンプキーを指定しないと、Feature Storeは各キーの「現在の最新値」を結合してしまうため、過去…

2026年3月8日

本番運用されるMLジョブ（Scheduled Job）を実行する際、「Job Cluster」を使用することが推奨される主な理由はどれか。

Job Cluster（Automated Cluster）はジョブ実行時のみ作成され終了後に破棄されるため、All-purpose Clust…

2026年3月8日

Hyperoptの`SparkTrials`と通常の`Trials`の最大の違いは何か。

`SparkTrials`はSparkの分散処理能力を利用して、複数のハイパーパラメータ設定の評価をワーカーノードで…

2026年3月8日

ETL処理において、ソースデータのスキーマが変更され、新しい列が追加された。Deltaテーブルへの書き込み時にこの変更を自動的に反映させるオプションはどれか。

書き込み時に `mergeSchema` オプションを `true` に設定することで、Delta Lakeは互換性のあるスキーマ変…

2026年3月8日

機械学習パイプライン内でデータベースのパスワードを使用する必要がある。ノートブック内に平文で書かずに、安全に参照するために使用するDatabricksの機能はどれか。

`dbutils.secrets.get(scope, key)`を使用することで、Databricks Secretsに保存された機密情報を実行時に…

2026年3月8日

AutoMLが生成したノートブック内の「Data Exploration」セクションで、警告として表示される可能性が高いデータの問題はどれか。

AutoMLは事前分析で、ターゲット列と極端に高い相関を持つ特徴量を検出し、それが「答え」を含んでしまっ…

2026年3月8日

Model Servingのエンドポイントにおいて、「concurrency（同時実行数）」の設定がデフォルトよりも高い値を必要とするケースはどのような場合か。

1つのインスタンスで複数のリクエストを同時に処理できる（Concurrencyが高い）のは、処理がI/Oバウンドで…

2026年3月8日

レガシーな `HorovodRunner` から、よりモダンで柔軟な `TorchDistributor` に移行する主な利点はどれか。

`TorchDistributor`はPyTorch標準の分散データ並列（DDP）を使用するため、Horovodの複雑な依存関係や設定…

2026年3月8日

MLflowのRunに関連付けられたアーティファクト（モデルファイル等）の保存場所（Artifact Root）を変更または指定する場合、どのレベルで設定するのが一般的か。

`mlflow.create_experiment`関数などで実験を作成する際、`artifact_location`引数を指定することで、その…

2026年3月8日

欠損値を含むデータセットに対して `Imputer` を使用する際、数値列だけでなくカテゴリ列（文字列）の欠損値を最頻値で補完したい。Spark MLlibのImputerはこれをサポートしているか。

標準のSpark MLlib `Imputer` は主に数値列（Double/Float）の平均値・中央値・最頻値補完を対象としてお…

2026年3月8日