素早く問題を解いてInput⇔Outputを繰り返し!
会員レベル
ログイン
メンバーシップアカウント
会員レベル
ログイン
メンバーシップアカウント
HOME
Lv009
「Lv009」の記事一覧
【シナリオ】MLパイプラインのジョブが「リソース不足(Out of Memory)」で失敗することがある。クラスター構成を変更せずに、ジョブの設定だけで信頼性を向上させる方法はどれか。
OOMが一時的なスパイクによるものであれば、Retries(再試行)ポリシーを設定することで、一時的な失敗を…
2026年3月8日
【シナリオ】トレーニング時にはバッチ処理で作成された特徴量を使用し、推論時にはリアルタイムで計算される特徴量(例:セッション中のクリック数)を使用したい。Feature Storeでこれを実現する概念はどれか。
(Databricks Feature Servingの進化に伴い)オンデマンド特徴量(On-Demand Features)は、推論リクエス…
2026年3月8日
【シナリオ】Hyperoptでの探索が特定の領域(局所解)に留まってしまい、大域的な最適解が見つからない可能性がある。探索の多様性を高めるために調整すべきパラメータやアプローチはどれか。
TPE(Tree-structured Parzen Estimator)は活用(Exploitation)に偏る場合があるため、ランダム探索(ra…
2026年3月8日
【シナリオ】Lakehouse Monitoringで「モデルの品質(Quality)」モニタリングを有効にしたいが、推論時には正解ラベル(Ground Truth)が分からない。この場合、どのようにモニタリングを設定すべきか。
正解ラベルが即時に得られない場合、まずはデータドリフトや整合性を監視し、後で正解データが得られた段…
2026年3月8日
【シナリオ】GDPRの「忘れられる権利」に基づき、特定ユーザーのデータを機械学習用の全データセット(Delta Table)から完全に削除する必要がある。論理削除ではなく物理削除を確実に行う手順はどれか。
通常のDELETEは履歴としてデータを保持するため、物理的に即時削除が必要な場合はDELETE後に`VACUUM`コマ…
2026年3月8日
【シナリオ】AutoMLで生成されたモデルの精度は高いが、推論速度が要件(10ms以下)を満たしていない。生成されたノートブックをもとに改善するアプローチとして最も適切なものはどれか。
推論レイテンシを短縮するには、モデルの複雑さを下げる(軽量化する)か、計算コストの高い特徴量を削除…
2026年3月8日
【シナリオ】モデルのエンドポイントを更新したところ、クライアント側でエラー率が急増した。即座に以前のバージョンに戻すための最速の手順はどれか。
Model ServingはModel Registryと連携しているため、Registry側で安定していた旧バージョンのモデルを指定…
2026年3月8日
【シナリオ】数十億行あるデータセットでK-Meansクラスタリングを実行しようとしたところ、イテレーションごとに非常に時間がかかり、シャッフルエラーが発生した。パフォーマンスを改善するために検討すべき設定はどれか。
大規模データの反復アルゴリズムでは、パーティション数が少なすぎると1タスクあたりのデータ量が過大にな…
2026年3月8日
【シナリオ】PyTorch Lightningを使用してDatabricks上で分散学習を行いたい。コードを大幅に書き換えずに、Horovodの代わりに推奨される最新の分散実行方法はどれか。
DatabricksおよびSparkの最新環境では、`TorchDistributor`を使用することで、PyTorch Lightning等のネイ…
2026年3月8日
【シナリオ】複数のデータサイエンティストが同じ実験(Experiment)にログを送信している。誤って他人のRunを上書きしないようにしつつ、並行して作業するために、コード内で最初に実行すべき適切な操作はどれか。
同じ実験IDを共有する場合でも、`mlflow.start_run(run_name="my_run_v1")`のように識別可能な名前を付け…
2026年3月8日
投稿のページ送り
1
…
2,026
2,027
2,028
…
2,360