素早く問題を解いてInput⇔Outputを繰り返し!
会員レベル
ログイン
メンバーシップアカウント
会員レベル
ログイン
メンバーシップアカウント
HOME
Lv030
「Lv030」の記事一覧
【シナリオ】`BisectingKMeans` は通常の `KMeans` と比較して、どのような特徴を持つ階層的クラスタリング手法か。
Bisecting K-Meansは、全データを1つのクラスタとして開始し、再帰的に二分割していく手法であり、階層構…
2026年3月8日
【シナリオ】Workflowsジョブのコスト管理において、ジョブごとの正確なコストを把握するために「Job Tags」や「Cluster Tags」を活用する際、Databricksの請求レポート(Billable Usage Logs)でこれらはどのように表示されるか。
クラスタやジョブに付与したタグは、システムテーブル(Billing Usage)のカスタムタグ列に伝播されるため…
2026年3月8日
【シナリオ】Feature Storeの特徴量を、Databricks外の推論システム(AWS Lambdaなど)から低レイテンシで取得したい。Feature Storeの「Online Store」としてサポートされている外部データベースはどれか(代表例)。
Databricks Feature Storeは、オンラインルックアップ用にDynamoDBやCosmos DB、SQL Databaseなどの低レイ…
2026年3月8日
【シナリオ】Deltaテーブルの `Liquid Clustering`(リキッドクラスタリング)機能は、従来の `Partitioning` + `Z-Ordering` と比較して、どのようなメリットがあるか。
Liquid Clusteringは、固定されたパーティション構造に縛られず、データのパターンに合わせて動的にクラス…
2026年3月8日
【シナリオ】Hyperoptでの探索が終了した後、MLflowに記録された数百のRunの中から、「パレート最適(精度は高いが推論速度も速い)」なモデル群を選び出したい。どうすればよいか。
多目的最適化の視点(トレードオフ)でモデルを選ぶには、MLflow UIのScatter Plot(散布図)でX軸に時間…
2026年3月8日
【シナリオ】Databricks Model Servingにおいて、カスタムコンテナ(Custom Docker Container)を使用する必要があるのはどのようなケースか。
標準のServing環境はConda/pipでのPythonライブラリ追加はサポートしているが、OSレベルのライブラリや非P…
2026年3月8日
【シナリオ】Lakehouse Monitoringのダッシュボードで、ある特徴量の「NULL率」が急増したアラートを受け取った。原因を追うと、上流のETLジョブでスキーマ変更があったことが判明した。今後これを防ぐための、MLパイプラインとデータパイプラインの連携手法はどれか。
データプロデューサー(ETL側)とコンシューマー(ML側)の間でスキーマや品質基準を「Data Contract」と…
2026年3月8日
【シナリオ】AutoMLで時系列予測を行っているが、「コロナ禍」のような異常な期間のデータが学習に含まれており、将来予測が歪んでいる。データ自体を削除せずに、この期間の影響を軽減するAutoML(Prophet等)の機能はどれか。
Prophetなどの時系列モデルでは、特定の異常値やイベント期間を外れ値として指定したり、トレンド変化の感…
2026年3月8日
【シナリオ】PyTorchの `DataLoader` において、`num_workers > 0` を設定すると、Databricks環境では「Shared Memory (limit)」のエラーが出ることがある。これをOSレベルの設定変更なしに解決する一般的な方法はどれか。
コンテナ内の共有メモリ(/dev/shm)不足が原因であることが多いため、インフラ設定で共有メモリを増やす…
2026年3月8日
【シナリオ】MLflow Model Registryに登録されたモデルをデプロイする際、そのモデルが「どのGitコミットのコードで」「どのデータセットを使って」学習されたかを、デプロイパイプライン内で自動的に検証(Gate Check)したい。どう実装すべきか。
モデルバージョンはRun IDに紐付いているため、Runオブジェクトからタグやパラメータを取得し、CI/CDパイ…
2026年3月8日
投稿のページ送り
1
…
124
125
126
…
278