HOME
Lv030

「Lv030」の記事一覧

【シナリオ】`BisectingKMeans` は通常の `KMeans` と比較して、どのような特徴を持つ階層的クラスタリング手法か。

Bisecting K-Meansは、全データを1つのクラスタとして開始し、再帰的に二分割していく手法であり、階層構…

2026年3月8日

【シナリオ】Workflowsジョブのコスト管理において、ジョブごとの正確なコストを把握するために「Job Tags」や「Cluster Tags」を活用する際、Databricksの請求レポート（Billable Usage Logs）でこれらはどのように表示されるか。

クラスタやジョブに付与したタグは、システムテーブル（Billing Usage）のカスタムタグ列に伝播されるため…

2026年3月8日

【シナリオ】Feature Storeの特徴量を、Databricks外の推論システム（AWS Lambdaなど）から低レイテンシで取得したい。Feature Storeの「Online Store」としてサポートされている外部データベースはどれか（代表例）。

Databricks Feature Storeは、オンラインルックアップ用にDynamoDBやCosmos DB、SQL Databaseなどの低レイ…

2026年3月8日

【シナリオ】Deltaテーブルの `Liquid Clustering`（リキッドクラスタリング）機能は、従来の `Partitioning` + `Z-Ordering` と比較して、どのようなメリットがあるか。

Liquid Clusteringは、固定されたパーティション構造に縛られず、データのパターンに合わせて動的にクラス…

2026年3月8日

【シナリオ】Hyperoptでの探索が終了した後、MLflowに記録された数百のRunの中から、「パレート最適（精度は高いが推論速度も速い）」なモデル群を選び出したい。どうすればよいか。

多目的最適化の視点（トレードオフ）でモデルを選ぶには、MLflow UIのScatter Plot（散布図）でX軸に時間…

2026年3月8日

【シナリオ】Databricks Model Servingにおいて、カスタムコンテナ（Custom Docker Container）を使用する必要があるのはどのようなケースか。

標準のServing環境はConda/pipでのPythonライブラリ追加はサポートしているが、OSレベルのライブラリや非P…

2026年3月8日

【シナリオ】Lakehouse Monitoringのダッシュボードで、ある特徴量の「NULL率」が急増したアラートを受け取った。原因を追うと、上流のETLジョブでスキーマ変更があったことが判明した。今後これを防ぐための、MLパイプラインとデータパイプラインの連携手法はどれか。

データプロデューサー（ETL側）とコンシューマー（ML側）の間でスキーマや品質基準を「Data Contract」と…

2026年3月8日

【シナリオ】AutoMLで時系列予測を行っているが、「コロナ禍」のような異常な期間のデータが学習に含まれており、将来予測が歪んでいる。データ自体を削除せずに、この期間の影響を軽減するAutoML（Prophet等）の機能はどれか。

Prophetなどの時系列モデルでは、特定の異常値やイベント期間を外れ値として指定したり、トレンド変化の感…

2026年3月8日

【シナリオ】PyTorchの `DataLoader` において、`num_workers > 0` を設定すると、Databricks環境では「Shared Memory (limit)」のエラーが出ることがある。これをOSレベルの設定変更なしに解決する一般的な方法はどれか。

コンテナ内の共有メモリ（/dev/shm）不足が原因であることが多いため、インフラ設定で共有メモリを増やす…

2026年3月8日

【シナリオ】MLflow Model Registryに登録されたモデルをデプロイする際、そのモデルが「どのGitコミットのコードで」「どのデータセットを使って」学習されたかを、デプロイパイプライン内で自動的に検証（Gate Check）したい。どう実装すべきか。

モデルバージョンはRun IDに紐付いているため、Runオブジェクトからタグやパラメータを取得し、CI/CDパイ…

2026年3月8日