HOMELv027 Amazon EMRでApache Sparkジョブを実行する際、一部のタスクが他のタスクより極端に長くかかる「データスキュー(偏り)」を軽減するためのSparkの機能はどれか。 2026年3月3日 AQEは実行時の統計情報に基づいて、偏りのあるパーティションを自動的に分割・最適化します。 Amazon SageMaker Random Cut Forest (RCF) において、各データポイントが「どれだけ木の複雑さを増加させたか」を測定する理論的背景となる指標はどれか。 主成分分析(PCA)を適用する前に、データを「平均0、分散1」に正規化(標準化)すべき主な理由はどれか。