HOME
Lv008

「Lv008」の記事一覧

Amazon Athenaでのクエリパフォーマンスを向上させ、スキャンされるデータ量を減らすための最適なファイル形式はどれか。

Parquetなどの列指向形式は、必要な列のみを読み取るためAthenaで非常に効率的。

2026年3月3日

Amazon SageMakerの組み込みアルゴリズム「Image Classification」が内部で使用している深層学習アーキテクチャは主にどれか。

Image Classificationアルゴリズムは、デフォルトでResNet（Residual Network）を使用する。

2026年3月3日

SageMaker Studioのノートブック上で、MLライフサイクル全体のメタデータや成果物を追跡・検索するための機能はどれか。

Lineage Trackingにより、モデルがどのデータから作られたかの履歴を追跡できる。

2026年3月3日

モデルの過学習を確認するために、トレーニングデータとテストデータの損失（Loss）をプロットしたグラフにおいて、どのような現象が見られるか。

訓練データに適合しすぎると、未知のデータ（テスト）に対する誤差が増大する。

2026年3月3日

SageMakerの組み込みアルゴリズム「Linear Learner」で分類を行う際、出力されるスコアが何を表すかを制御するパラメータはどれか。

predictor_typeを 'binary_classifier' や 'regressor' に設定することでタスクを切り替える。

2026年3月3日

SageMakerのトレーニングジョブで「Managed Spot Training」を利用する最大のメリットはどれか。

スポットインスタンスを利用することで、大幅なコスト削減が可能。

2026年3月3日

AWS Glueを使用してデータレイクを構築する際、重複するレコードを識別して削除するために使用されるGlueの組み込み変換はどれか。

FindMatches（ML Transforms）は、重複やマッチするレコードを特定する機械学習機能。

2026年3月3日

SageMakerのBuilt-in XGBoostアルゴリズムにおいて、トレーニングデータの一部を検証用として確保するために必要なデータの分割指定方法はどれか。

SageMakerでは通常、S3の別パスを指定して学習用と検証用データを渡す。

2026年3月3日

テキストデータのベクトル化手法において、単語の出現頻度だけでなく、多くの文書に出現する単語の重要度を下げる手法はどれか。

TF-IDF（Term Frequency-Inverse Document Frequency）は希少な単語に重みをつける。

2026年3月3日

Amazon Kinesis Data FirehoseからS3にデータを配信する際、ファイルサイズを最適化するために調整すべき2つのパラメータはどれか。

バッファサイズ（MB）またはバッファ間隔（秒）に達した時点でデータが書き出される。

2026年3月3日