HOME
Lv018

「Lv018」の記事一覧

Model Servingのエンドポイントにおいて、リクエストボディのサイズ制限（通常数MB〜10MB程度）を超過するような大量のデータを推論したい場合の対処法はどれか。

大きなペイロード（画像や音声ファイルなど）の場合、データを直接HTTPリクエストに含めるのではなく、署…

2026年3月8日

【シナリオ】Databricks Repos（Git連携）を使用して開発している。MLflowのRunに、実行時点のGitコミットハッシュを自動的に記録し、コードのバージョン管理と実験結果を紐付ける機能はどれか。

Databricks Repos（または通常のローカル環境でも）内でMLflowを実行すると、デフォルトでGitのコミットハ…

2026年3月8日

分散トレーニングにおいて、`global_batch_size`（全体のバッチサイズ）と `per_device_batch_size`（GPUごとのバッチサイズ）の関係として正しい式はどれか。

分散学習におけるグローバルバッチサイズは、各デバイス（GPU）が処理するミニバッチサイズの総和（デバイ…

2026年3月8日

`Pipeline` モデルをロードした際、学習時とは異なるバージョンのSpark環境である場合、発生しうる主な問題はどれか。

Spark MLlibのモデル永続化形式はバージョン間で完全な互換性が保証されているわけではなく、特にメジャー…

2026年3月8日

データドリフトを検知するために、数値特徴量の分布の変化を測定する指標として「PSI (Population Stability Index)」を使用する場合、一般的にドリフトが懸念される（要調査）とされる閾値はどれくらいか。

一般的にPSI < 0.1は変化なし、0.1 = 0.25は大きな変化（ドリフト）と解釈される。

2026年3月8日

反復的な機械学習アルゴリズム（例：LogisticRegression）を実行する前に、入力DataFrameに対して`checkpoint()`を使用することが推奨されるケースはどれか。

チェックポイントはデータをディスクに書き出してリネージを断ち切るため、長い変換プロセスを経たデータ…

2026年3月8日

AutoMLの時系列予測において、入力データの頻度（Frequency）と予測期間（Horizon）の関係で正しい記述はどれか。

例えば日次データ（Daily）でHorizonを30に設定すると、向こう30日分を予測することになる。

2026年3月8日

`mlflow.pyfunc`のカスタムモデルクラスにおいて、`predict`メソッドの第一引数（`context`の次）として渡されるデータ型は通常何か。

PyFuncモデルの標準規約では、入力データはPandas DataFrameとして`predict`メソッドに渡される。

2026年3月8日

SHAP (Shapley Additive Explanations) 値の解釈において、ある特徴量のSHAP値が正（プラス）の大きな値である場合、何を意味するか。

正のSHAP値は、その特徴量がモデルの出力結果をプラス方向（確率を高める方向など）に貢献したことを示す。

2026年3月8日

Model ServingのエンドポイントでA/Bテストを設定する際、「Traffic Split」の設定で合計が100%にならない場合（例: Model A 40%, Model B 40%）のエラー挙動はどうなるか。

トラフィック分割の設定は、指定されたモデル全体で合計が正確に100%になるように設定しなければならない。

2026年3月8日