HOME
Lv004

「Lv004」の記事一覧

Feature Storeからトレーニングセットを作成する`create_training_set`メソッドにおいて、ラベル（正解）データを含むデータフレームを指定する引数はどれか。

`fs.create_training_set`の第一引数（通常`data`または`df`）には、主キーとラベルを含むデータフレーム…

2026年3月8日

Databricks Workflowsにおいて、データ準備、モデル学習、モデル評価などの依存関係のある複数のステップを定義できるジョブの種類はどれか。

Multitask Jobを使用すると、複数のタスク（ノートブック、JAR、Pythonスクリプトなど）を有向非巡回グラ…

2026年3月8日

Hyperoptでの探索中に、モデルの性能が改善しなくなった場合に探索を早期に終了させる機能を何と呼ぶか。

Early Stoppingは、一定回数の試行を行っても損失関数（loss）が改善しない場合に、無駄な計算リソースを…

2026年3月8日

Databricks Lakehouse Monitoringが自動的に生成する「プロファイルメトリクス」テーブルなどが保存される場所はどこか。

Lakehouse Monitoringによって生成された統計情報やドリフトメトリクスは、指定されたUnity Catalogのスキ…

2026年3月8日

本番データのコピーを作成せずに、実験用に独立した変更可能なデータの複製を作成するDelta Lakeの機能はどれか。

Shallow Clone（浅いクローン）は、データファイル自体をコピーせず、メタデータのみを複製するため、スト…

2026年3月8日

Databricks AutoMLで時系列予測（Forecasting）を行う際に、予測対象の日付・時刻カラムを指定する引数はどれか。

時系列予測タスクでは、時間軸となる列を特定するために`time_col`引数に列名を指定する必要がある。

2026年3月8日

Spark DataFrame上の大規模データに対して、MLflowに登録されたモデルを使用してバッチ推論を行う最も効率的な方法はどれか。

`mlflow.pyfunc.spark_udf`を使用すると、MLflowモデルをSparkのUDF（ユーザー定義関数）としてブロードキ…

2026年3月8日

Apache SparkのDataFrameデータをDeep Learningフレームワーク（PyTorch/TensorFlow）のDataLoaderに効率的に変換・供給するためのライブラリはどれか。

Petastormは、Parquet形式（Delta Lake含む）のデータをDeep Learningフレームワークが直接かつ効率的に読…

2026年3月8日

ハイパーパラメータ探索のように、1つの親実行の下に多数の子実行をグループ化して整理するMLflowの機能はどれか。

`mlflow.start_run(nested=True)`を使用することで、現在のアクティブなRunの内側に子Run（Nested Runs）…

2026年3月8日

標準のSpark MLlib Transformerには存在しない独自のデータ変換ロジックをパイプラインに組み込むために継承すべき基底クラスはどれか。

独自の変換処理（`_transform`メソッド）を実装する場合は`Transformer`クラスを継承し、学習が必要な場合…

2026年3月8日