HOME
Lv009

「Lv009」の記事一覧

【シナリオ】MLパイプラインのジョブが「リソース不足（Out of Memory）」で失敗することがある。クラスター構成を変更せずに、ジョブの設定だけで信頼性を向上させる方法はどれか。

OOMが一時的なスパイクによるものであれば、Retries（再試行）ポリシーを設定することで、一時的な失敗を…

2026年3月8日

【シナリオ】トレーニング時にはバッチ処理で作成された特徴量を使用し、推論時にはリアルタイムで計算される特徴量（例：セッション中のクリック数）を使用したい。Feature Storeでこれを実現する概念はどれか。

（Databricks Feature Servingの進化に伴い）オンデマンド特徴量（On-Demand Features）は、推論リクエス…

2026年3月8日

【シナリオ】Hyperoptでの探索が特定の領域（局所解）に留まってしまい、大域的な最適解が見つからない可能性がある。探索の多様性を高めるために調整すべきパラメータやアプローチはどれか。

TPE（Tree-structured Parzen Estimator）は活用（Exploitation）に偏る場合があるため、ランダム探索（ra…

2026年3月8日

【シナリオ】Lakehouse Monitoringで「モデルの品質（Quality）」モニタリングを有効にしたいが、推論時には正解ラベル（Ground Truth）が分からない。この場合、どのようにモニタリングを設定すべきか。

正解ラベルが即時に得られない場合、まずはデータドリフトや整合性を監視し、後で正解データが得られた段…

2026年3月8日

【シナリオ】GDPRの「忘れられる権利」に基づき、特定ユーザーのデータを機械学習用の全データセット（Delta Table）から完全に削除する必要がある。論理削除ではなく物理削除を確実に行う手順はどれか。

通常のDELETEは履歴としてデータを保持するため、物理的に即時削除が必要な場合はDELETE後に`VACUUM`コマ…

2026年3月8日

【シナリオ】AutoMLで生成されたモデルの精度は高いが、推論速度が要件（10ms以下）を満たしていない。生成されたノートブックをもとに改善するアプローチとして最も適切なものはどれか。

推論レイテンシを短縮するには、モデルの複雑さを下げる（軽量化する）か、計算コストの高い特徴量を削除…

2026年3月8日

【シナリオ】モデルのエンドポイントを更新したところ、クライアント側でエラー率が急増した。即座に以前のバージョンに戻すための最速の手順はどれか。

Model ServingはModel Registryと連携しているため、Registry側で安定していた旧バージョンのモデルを指定…

2026年3月8日

【シナリオ】数十億行あるデータセットでK-Meansクラスタリングを実行しようとしたところ、イテレーションごとに非常に時間がかかり、シャッフルエラーが発生した。パフォーマンスを改善するために検討すべき設定はどれか。

大規模データの反復アルゴリズムでは、パーティション数が少なすぎると1タスクあたりのデータ量が過大にな…

2026年3月8日

【シナリオ】PyTorch Lightningを使用してDatabricks上で分散学習を行いたい。コードを大幅に書き換えずに、Horovodの代わりに推奨される最新の分散実行方法はどれか。

DatabricksおよびSparkの最新環境では、`TorchDistributor`を使用することで、PyTorch Lightning等のネイ…

2026年3月8日

【シナリオ】複数のデータサイエンティストが同じ実験（Experiment）にログを送信している。誤って他人のRunを上書きしないようにしつつ、並行して作業するために、コード内で最初に実行すべき適切な操作はどれか。

同じ実験IDを共有する場合でも、`mlflow.start_run(run_name="my_run_v1")`のように識別可能な名前を付け…

2026年3月8日