HOME
Lv010

「Lv010」の記事一覧

【シナリオ】毎日のモデル再学習ジョブにおいて、新しいデータが十分に蓄積されていない日には学習をスキップしたい。これをWorkflows内で効率的に実装する方法はどれか。

最初のタスク（Check Data Task）でデータ量を判定し、条件を満たさない場合は特定の値を返すか例外を投げ…

2026年3月8日

Feature Storeで定義された特徴量計算ロジック（`compute_features_func`）が依存する外部ライブラリのバージョンが変わってしまい、計算結果が変わるリスクを防ぐための最善策はどれか。

Feature Storeはロジックを保存するだけでなく、そのロジックが依存する環境（ライブラリバージョン）も一…

2026年3月8日

Delta Lakeのテーブルプロパティ `delta.appendOnly=true` は、どのような種類の機械学習関連データに適しているか。

`appendOnly`プロパティを設定することで、データの更新や削除を禁止できるため、改ざん防止が求められる…

2026年3月8日

【シナリオ】Hyperoptで探索するパラメータ空間が非常に広く、探索に時間がかかりすぎる。探索効率を上げるために、重要でないハイパーパラメータを探索対象から外したい。どのパラメータがモデル性能に寄与しているかを分析するために使用する可視化手法はどれか。

MLflow UIに含まれるParallel Coordinates Plotを使用すると、各ハイパーパラメータの値と目的関数（メト…

2026年3月8日

【シナリオ】Model Servingエンドポイントのレイテンシ要件が厳しく、Pythonのオーバーヘッドを極限まで減らしたい。MLflowの標準的なPythonモデル以外の選択肢として検討すべきデプロイ形式はどれか。

ONNX形式にモデルを変換し、ONNX Runtimeを使用することで、Pythonインタプリタのオーバーヘッドを回避し…

2026年3月8日

【シナリオ】Unity Catalogを使用している環境で、データサイエンティストには「生データ」へのアクセス権を与えず、「匿名化されたビュー」のみを使用してモデル開発を行わせたい。これを実現するSQL権限設定はどれか。

（またはビューへのGRANT）より現代的なアプローチとして、Unity Catalogの「Dynamic Views」や「Row/Colu…

2026年3月8日

【シナリオ】TensorFlowモデルのトレーニング中に、GPU使用率が低く、CPUでのデータ前処理がボトルネックになっていることが判明した。`tf.data.Dataset`パイプラインでパフォーマンスを改善するために推奨される設定はどれか。

`prefetch`を使用することで、GPUが学習している間にCPUが次のバッチを準備できるようになり、`cache`でメ…

2026年3月8日

【シナリオ】AutoMLを実行しようとしたが、データセットにターゲット変数（ラベル）との相関が1.0（完全に一致）の列が含まれており、過学習（Data Leakage）が疑われる。AutoMLの実行前にこの問題を検出するための機能はどれか。

DatabricksのData Profile機能やAutoMLの事前チェックアラートは、ターゲットと高すぎる相関を持つ列（リ…

2026年3月8日

【シナリオ】制限されたネットワーク環境（VPC内）で、外部インターネットへのアクセスがないDatabricksワークスペースを使用している。MLflowでパブリックなリポジトリからライブラリをインストールしようとすると失敗する。モデル提供のために推奨される対処法はどれか。

エアギャップ環境では、依存ライブラリの`.whl`ファイルを事前に取得し、内部ストレージ（DBFSやUnity Cat…

2026年3月8日

カスタムTransformerを作成しており、`transform`メソッド内で外部の巨大な辞書データを使用してマッピングを行う必要がある。この辞書を各ワーカーに効率的に配布するSparkの機能はどれか。

巨大な読み取り専用データ（辞書など）を各ノードにコピーする場合、`spark.sparkContext.broadcast(varia…

2026年3月8日