素早く問題を解いてInput⇔Outputを繰り返し!
会員レベル
ログイン
メンバーシップアカウント
会員レベル
ログイン
メンバーシップアカウント
HOME
Lv027
「Lv027」の記事一覧
【シナリオ】`ALS` モデルの学習において、ユーザーやアイテムのIDが文字列(UUIDなど)であるため、直接ALSに入力できない。パイプライン内でこれを処理する最も効率的な方法はどれか。
ALSなどの行列分解アルゴリズムは数値IDを必要とするため、`StringIndexer` で一意な整数IDにマッピングし…
2026年3月8日
【シナリオ】本番の推論ジョブにおいて、使用するモデルのバージョンを「最新のProduction」に自動追従させたいが、意図しないバージョンアップによる事故も防ぎたい。バランスの取れたアプローチはどれか。
モデルのステージ(またはAlias)を参照して動的に読み込む設定にしつつ、そのステージへの移行(Promotio…
2026年3月8日
【シナリオ】Feature Storeの特徴量テーブルに、外部キーとして `user_id` と `session_id` の複合キー(Composite Key)を設定したい。`create_table` での正しい指定方法はどれか。
Feature Store APIは複合主キーをサポートしており、`keys` 引数(または `primary_keys` 引数)に列名の…
2026年3月8日
【シナリオ】機械学習の特徴量テーブルとしてDeltaテーブルを使用しているが、頻繁な更新によりストレージコストが急増している。タイムトラベルの要件は「過去2日分」だけである。コスト削減のために設定すべきテーブルプロパティはどれか。
ログの保持期間と、削除されたファイルの保持期間(Tombstone)を要件に合わせて短縮し、定期的に `VACUUM…
2026年3月8日
【シナリオ】Hyperoptでの探索中、あるパラメータの組み合わせでメモリエラーが発生し、Sparkタスクが失敗した。探索全体を停止させず、その試行だけを「失敗」として扱い、探索を継続させるにはどうすればよいか。
目的関数内でエラーをキャッチし、Hyperoptが認識できる失敗ステータス(`STATUS_FAIL`)を返すことで、メ…
2026年3月8日
【シナリオ】監視対象のモデルが「画像の物体検出モデル」であり、表形式データのような統計的ドリフト(平均値のズレなど)が定義しづらい。画像の入力変化を監視するためのアプローチとして適切なものはどれか。
非構造化データ(画像やテキスト)のドリフト検知には、事前学習済みモデル等でデータを低次元のベクトル…
2026年3月8日
【シナリオ】AutoMLを実行したいが、データセットが非常に大きく(数TB)、タイムアウト内に終わらない可能性が高い。サンプリング(Downsampling)を行わずに、全データを使用して学習させるための適切な戦略はどれか。
Databricks AutoMLは、データサイズに応じて単一ノード学習か分散学習かを自動判断する。大規模データの場…
2026年3月8日
【シナリオ】Model Servingエンドポイントのレスポンスに、デバッグ用の追加情報(例:使用された特徴量のバージョン)を含めたい。これを実現するカスタムモデルの実装方法はどれか。
MLflowの `pyfunc` モデルでは、`predict` メソッドがPandas DataFrame、Numpy Array、またはリストや辞書…
2026年3月8日
【シナリオ】Spark MLlibの `GMM` (Gaussian Mixture Model) を使用してクラスタリングを行っているが、初期値によって結果が大きく変動してしまう。結果の安定性を高めるために調整すべきパラメータはどれか。
GMMはEMアルゴリズムを使用しており、初期化(ランダムな開始点)に敏感であるため、再現性と安定性を確保…
2026年3月8日
【シナリオ】Databricks上で、複数のGPUノードを使用して巨大な言語モデル(LLM)のファインチューニングを行いたい。DeepSpeedやMegatron-LMのような技術を簡単に適用するために、推奨されるDatabricksのライブラリ/構成はどれか。
Databricks(Mosaic AI)が提供する `Composer` ライブラリは、PyTorchベースで分散学習のベストプラクテ…
2026年3月8日
投稿のページ送り
1
…
124
125
126
…
279