素早く問題を解いてInput⇔Outputを繰り返し!
会員レベル
ログイン
メンバーシップアカウント
会員レベル
ログイン
メンバーシップアカウント
HOME
Lv008
「Lv008」の記事一覧
Amazon Athenaでのクエリパフォーマンスを向上させ、スキャンされるデータ量を減らすための最適なファイル形式はどれか。
Parquetなどの列指向形式は、必要な列のみを読み取るためAthenaで非常に効率的。
2026年3月3日
Amazon SageMakerの組み込みアルゴリズム「Image Classification」が内部で使用している深層学習アーキテクチャは主にどれか。
Image Classificationアルゴリズムは、デフォルトでResNet(Residual Network)を使用する。
2026年3月3日
SageMaker Studioのノートブック上で、MLライフサイクル全体のメタデータや成果物を追跡・検索するための機能はどれか。
Lineage Trackingにより、モデルがどのデータから作られたかの履歴を追跡できる。
2026年3月3日
モデルの過学習を確認するために、トレーニングデータとテストデータの損失(Loss)をプロットしたグラフにおいて、どのような現象が見られるか。
訓練データに適合しすぎると、未知のデータ(テスト)に対する誤差が増大する。
2026年3月3日
SageMakerの組み込みアルゴリズム「Linear Learner」で分類を行う際、出力されるスコアが何を表すかを制御するパラメータはどれか。
predictor_typeを 'binary_classifier' や 'regressor' に設定することでタスクを切り替える。
2026年3月3日
SageMakerのトレーニングジョブで「Managed Spot Training」を利用する最大のメリットはどれか。
スポットインスタンスを利用することで、大幅なコスト削減が可能。
2026年3月3日
AWS Glueを使用してデータレイクを構築する際、重複するレコードを識別して削除するために使用されるGlueの組み込み変換はどれか。
FindMatches(ML Transforms)は、重複やマッチするレコードを特定する機械学習機能。
2026年3月3日
SageMakerのBuilt-in XGBoostアルゴリズムにおいて、トレーニングデータの一部を検証用として確保するために必要なデータの分割指定方法はどれか。
SageMakerでは通常、S3の別パスを指定して学習用と検証用データを渡す。
2026年3月3日
テキストデータのベクトル化手法において、単語の出現頻度だけでなく、多くの文書に出現する単語の重要度を下げる手法はどれか。
TF-IDF(Term Frequency-Inverse Document Frequency)は希少な単語に重みをつける。
2026年3月3日
Amazon Kinesis Data FirehoseからS3にデータを配信する際、ファイルサイズを最適化するために調整すべき2つのパラメータはどれか。
バッファサイズ(MB)またはバッファ間隔(秒)に達した時点でデータが書き出される。
2026年3月3日
投稿のページ送り
1
…
1,024
1,025
1,026
…
1,179