HOME
Lv007

「Lv007」の記事一覧

Databricks Workflowsのジョブにおいて、Gitプロバイダ（GitHub, GitLabなど）と連携し、特定ブランチのノートブックを実行する機能を何と呼ぶか。

Databricks Git Folders (旧Repos) 機能を使用することで、リモートGitリポジトリの特定のブランチやタグ…

2026年3月8日

Feature Storeの特徴量テーブルを作成する際、主キー（Primary Key）を指定する主な理由はどれか。

主キーは、トレーニングセット作成時の結合（Join）およびオンライン推論時の特定エンティティの特徴量取…

2026年3月8日

Delta Lakeの `OPTIMIZE` コマンドにおける `ZORDER BY` 句の使用が推奨される列の特徴はどれか。

Z-Orderingは、フィルタ条件によく使われる列のデータをコロケーション（近くに配置）することで、データ…

2026年3月8日

Hyperoptの探索結果を永続化し、クラスタが再起動しても探索を再開できるようにするために、`SparkTrials`以外のバックエンドとして使用できるものはどれか。

HyperoptはバックエンドとしてMongoDBをサポートしており、`MongoTrials`を使用することで試行結果をDBに…

2026年3月8日

Databricks SQLやノートブックで、大規模なデータセットからランダムなサンプルを抽出してEDAを行うためのSQL句はどれか。

`TABLESAMPLE`を使用することで、全データをスキャンせずに指定した割合や行数のサンプルを効率的に取得し…

2026年3月8日

モデルの公平性（Fairness）を監視する際、特定の保護属性（性別や年齢など）に基づいて、モデルの予測が偏っていないかを確認するために比較すべき指標はどれか。

グループ間のFPR（偽陽性率）やTPR（真陽性率）の差を確認することは、モデルが特定のグループに対して不…

2026年3月8日

Databricks AutoMLが分類問題において、クラス間のデータ数が極端に異なる場合に自動的に適用しようとするサンプリング手法はどれか。

AutoMLはデータの分割（Train/Validation/Test）において、各クラスの比率を維持するために層化抽出（Stra…

2026年3月8日

Model Servingのエンドポイントにデプロイするモデルの依存ライブラリ（requirements）を指定する最も確実な方法はどれか。

MLflowでモデルをログする際、`conda_env`または`pip_requirements`引数を使用して依存関係を指定すると、…

2026年3月8日

PipelineModelを保存し、後で別のSparkクラスタで読み込んで使用できるようにするメソッドの組み合わせはどれか。

Spark MLlibのモデル永続化は、`model.write().save("path")`で保存し、対応するクラスの`load("path")`メ…

2026年3月8日

自動ログ記録（Autologging）を使用せず、特定のカスタムメトリクスをトレーニングの各ステップ（エポック）ごとに記録したい場合に使用するメソッドはどれか。

`mlflow.log_metric`は、ステップ（step）引数を受け入れることができ、損失や精度などの時系列で変化する…

2026年3月8日