素早く問題を解いてInput⇔Outputを繰り返し!
会員レベル
ログイン
メンバーシップアカウント
会員レベル
ログイン
メンバーシップアカウント
HOME
Lv029
「Lv029」の記事一覧
【シナリオ】超高次元の疎行列(Sparse Vector)データを扱う分類モデルで、学習は成功するが、推論時に `OutOfMemoryError` が発生する。原因として考えられるモデルの内部構造(Dense化)の問題はどれか。
特定のアルゴリズムや実装では、入力がSparseでも内部計算や係数保存時にDense形式に変換されることがあり…
2026年3月8日
【シナリオ】Feature Storeの特徴量計算ロジック内で、Window関数を使用した集計(例:過去30日間の平均)を行っている。日次バッチで更新する場合、データ量が増えるにつれて再計算コストが爆発する。これを防ぐためのDelta Live Tables (DLT) との連携機能はどれか。
Feature StoreはDLTパイプライン内での定義や読み書きをサポートしており、DLTの増分処理機能を利用するこ…
2026年3月8日
【シナリオ】Hyperoptの `SparkTrials` を使用しているが、Sparkクラスタのオートスケーリングが頻繁に発生し、逆に効率が悪い。安定した探索を行うためのクラスタ設定の推奨はどれか。
反復的な探索タスクでは、ノードの追加・削除に伴うオーバーヘッドやタスクの再スケジューリングを避ける…
2026年3月8日
【シナリオ】非常に複雑なDAGを持つWorkflowsジョブがあり、一部のタスクは失敗してもジョブ全体を失敗させず、警告のみで後続に進ませたい。これを実現するタスク設定はどれか。
Databricks Workflows(またはオーケストレーションツール全般)では、特定のタスクが失敗してもフローを…
2026年3月8日
【シナリオ】複数のストリーミングジョブが同時に同一のDeltaテーブルに書き込みを行っており、`ConcurrentAppendException` が時々発生する。これを回避し、リトライなしで書き込みを成功させるための最適化はどれか。
Delta Lakeの楽観的並行制御(Optimistic Concurrency Control)において、書き込み先が異なるパーティシ…
2026年3月8日
【シナリオ】Lakehouse Monitoringで、モデルの「予測の確信度(Confidence Score)」が時間の経過とともに低下していることを検知したい。これを監視するための設定はどれか。
確信度(確率値)も一つの数値特徴量として扱えるため、その分布が「高い値(確信あり)」から「低い値(…
2026年3月8日
【シナリオ】AutoMLが生成したモデル(XGBoost)をベースに開発を進めているが、推論時に特定の特徴量値の組み合わせで予測値が不安定になる(異常値が出る)。モデルの堅牢性(Robustness)を高めるために、生成コードに追加すべき処理はどれか。
ドメイン知識として「価格が上がれば需要は下がる」などの関係が既知の場合、XGBoostの `monotone_constra…
2026年3月8日
【シナリオ】高負荷なServingエンドポイントにおいて、コンテナの起動時間(Cold Start)が遅く、スケールアウト時のレイテンシ悪化が問題になっている。これを改善するためのモデル最適化手法はどれか。
コンテナ起動時間(モデルロード時間)は、モデルファイルのダウンロードとメモリ展開、依存ライブラリの…
2026年3月8日
【シナリオ】カスタムTransformerを実装し、Pipeline内で `save` したが、ロード時に `java.lang.ClassNotFoundException` が発生した。Python側だけでなくScala/Java側の実装も必要なのか?
Spark MLlibのパイプライン永続化はJVM側で行われるため、純粋なPythonロジック(Pickle依存)でないカス…
2026年3月8日
【シナリオ】GPUクラスタ上で、巨大なデータセットに対する推論(Inference)を行う際、GPU使用率が低く、ディスクI/O(読み込み)がボトルネックになっている。`Petastorm` を使用して改善を試みる際、Parquetデータの最適な行グループサイズ(Row Group Size)の考え方はどれか。
PetastormやSparkの読み込み効率はRow Groupサイズに影響される。Deep Learningのバッチ作成に必要な粒度…
2026年3月8日
投稿のページ送り
1
…
124
125
126
…
278