HOME
Lv026

「Lv026」の記事一覧

【シナリオ】Feature Storeで、ストリーミングソース（Kafka等）からリアルタイムに特徴量を計算し、オンラインストアへ書き込みたい。これを実現するために使用するFeature StoreのAPIはどれか。

Feature Store Clientには `write_stream` メソッドがあり、Structured Streamingのクエリとして特徴量計…

2026年3月8日

【シナリオ】数千の並列タスクを実行し、それぞれがMLflowにメトリクスをログする大規模な分散処理において、「APIレート制限」のエラーが頻発している。コードを変更せずにこの負荷を軽減する設定はどれか。

非同期ロギングやバッチロギングを有効にすることで、個々のAPIコールをまとめ、Tracking Serverへのリク…

2026年3月8日

【シナリオ】Hyperoptでのパラメータ探索において、特定のパラメータ（例：`num_layers`）が探索範囲の境界値（上限または下限）に張り付いていることがわかった。次に取るべきアクションはどれか。

最適値が探索範囲の端にある場合、真の最適解がさらにその外側にある可能性が高いため、探索範囲を広げて…

2026年3月8日

【シナリオ】複数のジョブ（A, B, C）があり、A -> B -> C の順で実行したいが、これらは別々のチームが管理しており、1つのジョブ定義にまとめることができない。これを疎結合に連携させる方法はどれか。

Databricks Jobs API（`jobs/run-now`）を使用するタスクをジョブの最後に配置することで、異なるジョブ間…

2026年3月8日

【シナリオ】監視ダッシュボードで「特定のモデルバージョンだけエラー率が高い」ことがわかった。この原因が「特定の入力データパターン」に起因するかどうかを調査するために、Inference Tableに対してどのようなクエリを実行すべきか。

エラーが発生した行と成功した行を分け、入力データの傾向（特定の値や組み合わせ）に違いがあるかを分析…

2026年3月8日

【シナリオ】Deltaテーブルの履歴が肥大化し、メタデータの読み込みが遅くなっている。過去の履歴を保持しつつ、最新のスナップショットのクエリパフォーマンスを改善するために定期的に実行すべきコマンドはどれか。

（設問の意図としてメタデータ最適化なら）Delta Lakeは10コミットごとに自動的にチェックポイントファイ…

2026年3月8日

【シナリオ】Model Servingへのリクエストがスパイク（急増）し、オートスケールが間に合わずにリクエストがドロップしている。スケールアウトの感度を上げるのではなく、スパイクを吸収するために有効なアーキテクチャパターンはどれか。

リアルタイム性が厳密に要求されない場合、リクエストを一度キュー（Kafka等）にバッファリングし、バック…

2026年3月8日

【シナリオ】分散学習において、バッチサイズを2倍に増やした場合、学習率（Learning Rate）はどう調整するのが一般的か（Linear Scaling Rule）。

一般的に、バッチサイズを大きくすると勾配の推定が安定する反面、更新回数が減るため、学習率をバッチサ…

2026年3月8日

【シナリオ】AutoMLで生成されたモデルを本番運用しているが、推論データに、学習時には存在しなかった新しいカテゴリ値が含まれるようになり、エラーが発生している。AutoMLの再学習以外で即座に取れる対策はどれか。

モデル自体が未知の値を扱えない場合（OneHotEncoderの設定など）、入力データのサニタイズ（未知の値を既…

2026年3月8日

【シナリオ】Spark MLlibの `Pipeline` を保存・ロードする際、カスタムTransformerが含まれているとエラーになる。これを解決するために実装が必要なインターフェースはどれか。

カスタムコンポーネントをSparkのパイプライン保存/ロード機構に対応させるには、`DefaultParamsWritable`…

2026年3月8日