HOME
Lv012

「Lv012」の記事一覧

AWS Glueで変換処理を記述する際、PySparkのDataFrameと比較してGlue独自の「DynamicFrame」が優れている点はどれか。

DynamicFrameは、エラーが発生したレコードを「errors」として保持しつつ処理を継続でき、データ品質の管…

2026年3月3日

深層学習の最適化アルゴリズムにおいて、各パラメータごとに学習率を動的に調整し、勾配の指数移動平均を用いる手法はどれか。

Adam（Adaptive Moment Estimation）は、RMSpropとMomentumの両方の利点を組み合わせた広く使われる最適化…

2026年3月3日

Amazon SageMaker Clarifyを使用して「学習前バイアス」を分析した際、「DI (Disparate Impact)」の値が1.0であった場合、何を意味するか。

DIが1.0に近いほど、比較対象となるグループ間で結果の比率に差がなく、公平であることを示す。

2026年3月3日

Amazon Athenaで数億行のデータを検索する際、特定の「月」のデータのみを効率的に取得するためのS3バケットの構造として最適なものはどれか。

Hive形式のパーティション（key=value）を採用することで、Athenaは必要なディレクトリのみをスキャン対象…

2026年3月3日

2つのカテゴリ変数間の相関（連関）の強さを0から1の範囲で表す統計量はどれか。

クラメールのVは、カイ二乗統計量をベースにした、カテゴリ変数間の相関の強さを測る指標である。

2026年3月3日

SageMakerの「DeepAR」において、時系列データに多くの欠損値（NaN）が含まれている場合の標準的な動作はどれか。

DeepARは内部的に欠損値を適切に扱えるように設計されており、欠損がある期間をスキップまたは推定して学…

2026年3月3日

SageMakerにおける「Inference Recommender」が推奨インスタンスを決定するために内部的に行うプロセスはどれか。

実際に異なるインスタンスタイプで複数の負荷テストを実施し、スループットとレイテンシを測定した上で推…

2026年3月3日

AWS Glueのジョブで使用する「ブックマーク」をリセットする必要があるのはどのような場合か。

ブックマークは処理済みファイルを追跡するため、過去のデータを含めて一から処理し直したい場合はリセッ…

2026年3月3日

NLP（自然言語処理）の前処理において、「am, are, is」を「be」に変換するように、単語を辞書的な基本形に変換する手法を何と呼ぶか。

レマタイゼーションは文脈を考慮して品詞を特定し、辞書上の原形に変換する手法である（ステミングは単純…

2026年3月3日

Amazon SageMakerの「Managed Spot Training」を使用する際、ジョブが中断されても再開できるようにするために実装すべきコードの役割はどれか。

チェックポイントをS3に保存し、再開時にその状態をロードするようにコードを記述することで、中断箇所か…

2026年3月3日